-
simHash,用来网页去重最常用的hash方法,速度很快.
Simhash
传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。
simhash算法很精巧,但却十分容易理解和实现,具体的simhash过程如下:
请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
- 2022-11-14 00:20:04下载
- 积分:1
-
这是操作系统的一个课程设计,是关于生产者-消费者的一个模拟算法。...
这是操作系统的一个课程设计,是关于生产者-消费者的一个模拟算法。- This is an operating system curriculum designs, is about a
producer- consumer s simulation algorithm.
- 2022-01-31 01:03:17下载
- 积分:1
-
编写另一版本结构手册,有待学习并进一步提高
编写另一版本结构手册,有待学习并进一步提高-Another version of the structure of the preparation of manuals, to be learning and to further improve
- 2022-04-13 04:35:21下载
- 积分:1
-
ben wenjian shi tongguo yong cbainxie chengxuo
ben wenjian shi tongguo yong cbainxie chengxuo-ben wenjian shi tongguo yong cbainxie Rezeption gxuo
- 2022-01-26 08:32:48下载
- 积分:1
-
RSA en python
这种算法是 RSA 在 python 中的实现作为课程加密最后加宽,它有完整的易观和它评论太
- 2022-08-20 16:00:30下载
- 积分:1
-
一种主动学习算法,委员会查询算法,但这是一个改进的版本,通过核变化可以更高效的处理多维数据...
一种主动学习算法,委员会查询算法,但这是一个改进的版本,通过核变化可以更高效的处理多维数据-An active learning algorithm, the Committee inquiry algorithm, but this is an improved version of the changes through the nuclear deal can be more efficient multi-dimensional data
- 2022-05-21 11:00:17下载
- 积分:1
-
顺序表链表
算法与数据结构试验中实验一:完成相关创建链表、排序、插入、 删除 等常见链表操作
- 2022-08-10 13:25:19下载
- 积分:1
-
MonteCarlo检验fortran程序,适合气象统计,和地学方面的研究使用。...
MonteCarlo检验fortran程序,适合气象统计,和地学方面的研究使用。-MonteCarlo test fortran program for the meteorological statistics, and earth science research use.
- 2023-05-06 03:50:03下载
- 积分:1
-
An extensible math parser
An extensible math parser
- 2023-05-04 13:10:03下载
- 积分:1
-
这个固件免费提供的TRF7960
this the firmware provided freely for the trf7960
- 2022-06-21 15:45:54下载
- 积分:1