SimHash

SimHash是一种局部敏感的散列算法，由Moses Charikar提出。例如，当两个字符串只有细微差别时，它们的Simhash散列值同样会非常接近，这种特征就称为局部敏感。^[1]因此，Simhash可用于检查两项内容的相似程度，如文档去重、检测垃圾邮件和近似重复内容^[2]、被Google 爬虫用于查找近似重复页面等。在2021年，谷歌宣布决定在新发布的FLoC系统中使用该算法。^[3]

参考文献

^ Bhargava, Aditya. 算法图解. 由袁国忠翻译. 北京: 人民邮电出版社. 2017: 178–179. ISBN 978-7-115-44763-0.
^ Otten, Neri Van. SimHash — The Ultimate Guide And How To Get Started Guide In Python. Spot Intelligence. 2023-01-02 [2024-03-30]. （原始内容存档于2024-03-30）（美国英语）.
^ Cyphers, Bennett. Google’s FLoC Is a Terrible Idea. Electronic Frontier Foundation. 2021-03-03 [2024-03-30]. （原始内容存档于2021-06-26）（英语）.

[1] Bhargava, Aditya. 算法图解. 由袁国忠翻译. 北京: 人民邮电出版社. 2017: 178–179. ISBN 978-7-115-44763-0.

[2] Otten, Neri Van. SimHash — The Ultimate Guide And How To Get Started Guide In Python. Spot Intelligence. 2023-01-02 [2024-03-30]. （原始内容存档于2024-03-30）（美国英语）.

[3] Cyphers, Bennett. Google’s FLoC Is a Terrible Idea. Electronic Frontier Foundation. 2021-03-03 [2024-03-30]. （原始内容存档于2021-06-26）（英语）.

[1]

[2]

[3]

SimHash

参考文献

Portal di Ensiklopedia Dunia