特牛网址导航

位图_python位图去重-CSDN博客

网友收藏
文章浏览阅读580次。位图通过位图来实现URL去重功能,避免重复爬去相同的网页。我们要处理的对象是URL,需要支持的操作就两个,添加和查询URL。除了功能方面,我们还要求这两个操作执行效率要高,当处理上亿URL时,内存会非常严重,所以在存储效率上也要高效。满足条件的数据结构有:散列表红黑树跳表这些动态数据结构,都支持快速添加和查找数据,但是对内存消耗方面有些大。比如散列表:当爬去10亿URL,为..._python位图去重