Skip to content

Latest commit

 

History

History
5 lines (3 loc) · 851 Bytes

分布式.md

File metadata and controls

5 lines (3 loc) · 851 Bytes

分布式算法

一致性哈希算法,业务开发中需要持久化数据到数据库中,为了减轻数据库的读压力(访问压力),引入缓存机制(如:redis)对数据进行存取。流量很大时,还需要搭建缓存集群,一致性哈希算法帮我们选择数据对象要存取的服务器,达到负载均衡。

布隆算法,爬取url时,需要对海量(亿级别)url做去重处理,布隆算法就是在空间和准确率达到平衡的一种算法。首先用到BitMap这个类,计算八次url的hash值,分别存储在Bitmap中,判断与其它url的八个hash值是否都一致,一致则视为相等。该算法碰撞的概率极低但也不能完全避免碰撞。