-
simHash,用来网页去重最常用的hash方法,速度很快.
Simhash
传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。
simhash算法很精巧,但却十分容易理解和实现,具体的simhash过程如下:
请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
- 2022-11-14 00:20:04下载
- 积分:1
-
拼写校正
应用背景使用最小编辑距离算法检查拼写校正 ;关键技术C源代码检查拼写校正的最小编辑距离和显示正确的单词在字典。
- 2022-12-10 13:25:03下载
- 积分:1
-
飞思卡尔舵机程序
飞思卡尔xs128芯片,舵机驱动程序,本舵机的型号是SD-5,本代码是可以直接使用的啦!
- 2022-04-22 17:29:15下载
- 积分:1
-
computer simulation of physical operations, simulated three
计算机模拟物理作业,模拟3体运动-computer simulation of physical operations, simulated three-movement
- 2022-07-14 21:08:52下载
- 积分:1
-
螺旋矩阵,C语言描述,GNU GCC 环境编写
螺旋矩阵,C语言描述,GNU GCC 环境编写-whirlpool_matrix
- 2022-08-24 15:46:20下载
- 积分:1
-
这是一个关于模拟退火c c++的算法程序,内有详细解释,希望对大家有所帮助...
这是一个关于模拟退火c c++的算法程序,内有详细解释,希望对大家有所帮助-This is a study on simulated annealing c c++ Algorithm procedure, which has a detailed explanation, and they hope to help everyone
- 2022-03-24 16:00:04下载
- 积分:1
-
斯蒂芬森算法;
数值计算算法:斯蒂芬森算法写的帕斯卡尔要找到一个解决方案,以G(X)= X 给定的初始近似值P0: 输入:初始近似P0;公差TOL; 迭代N 0的最大数目。 输出:近似解p或 该方法失败的消息。
- 2022-01-26 02:33:29下载
- 积分:1
-
模糊控制的程序,应用Matlab Simulink工具箱搭建了一个模糊控制器,可应用于在输入不确定下的数据处理...
模糊控制的程序,应用Matlab Simulink工具箱搭建了一个模糊控制器,可应用于在输入不确定下的数据处理-Fuzzy control procedures, application of Matlab Simulink toolbox to build a fuzzy controller can be used in the input data under the deal with uncertainty
- 2022-03-19 03:40:09下载
- 积分:1
-
AES128源代码实现
AES128源代码实现
- 2022-02-01 22:45:38下载
- 积分:1
-
计算pi的最新版源程序
计算pi的最新版源程序-calculated pi to the latest version of the source
- 2022-03-14 00:16:20下载
- 积分:1