登录
首页 » 算法 » simHash,用来网页去重最常用的hash方法,速度很快.

simHash,用来网页去重最常用的hash方法,速度很快.

于 2022-11-14 发布 文件大小:2.93 kB
0 122
下载积分: 2 下载次数: 2

代码说明:

Simhash 传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。 simhash算法很精巧,但却十分容易理解和实现,具体的simhash过程如下: 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • Classification algorithm based on support vector machine, after test results, we...
    基于支持向量机分类算法,经试验效果不错,取得了很好的分类效果-Classification algorithm based on support vector machine, after test results, well, and achieved very good classification results
    2022-03-05 15:28:17下载
    积分:1
  • 最短路径源码(VB)
    最短路径算法源码(VB)-shortest path algorithm source code (VB)
    2022-03-02 09:37:39下载
    积分:1
  • 数值计中的Doolittle分解(含有紧凑方式的解),是用VC++编写的...
    数值计算中的Doolittle分解法(含有紧凑方式的解法),是用VC++编写的-numerical calculation of Doolittle decomposition (containing a compact form of solution), VC++ prepared
    2022-02-16 09:39:00下载
    积分:1
  • sporting学生运动会
    学生运动会成绩数据库系统记录某校运动会上全部运动项目,各系获得的分数及排名的情况,包括50、100、200,400,1500米, 跳高,跳远,标枪,铅球铁饼等。进入系统后可以输入和修改某个项目的结果情况,可以按各系院编号输出总分; 按总分排序;按男团体总分排序 ;按系院编号查询;按项目编号查询;按女团体总分排序。 分步实施: 1) 初步完成总体设计,搭好框架,确定人机对话的界面,确定函数个数; 2) 完成最低要求:建立一个文件,包括某个系,5个项目的得分情况,能对文件中的信息进行扩充(追加),修改和删除; 3) 进一步要求:完成对多个系,多个项目的得分排序,以及完成系统查询功能。有兴趣的同学可以自己扩充系统功能。 键盘输入:系院数目,男子项目数女子项目数,(每项目取前三名,分别为10,5,2分)
    2022-08-02 12:37:19下载
    积分:1
  • 它是代码,我的代码为奥运会编程任务
    it is code, my code for olympiad programming task
    2022-03-02 01:53:54下载
    积分:1
  • 加减乘除24,java的GUI界面,输入的数字在1
    加减乘除24,java的GUI界面,输入的数字在1-13的范围内,产生的结果中已去除了冗余的结果,并统计产生结果的个数.- The arithmetic operations 24, java GUI contact surface, the input numeral in 1-13 scope, in the result which produces has removen the redundancy result, and the statistics has the result integer
    2022-02-26 00:51:20下载
    积分:1
  • 机网络实验
    客户端之间发送PING报文,客户端接受其他客户端的PING报文,回复信息。个人想法:通过UDP连接,客户端与服务器建立连接,登录只要用户名(不能重复),能从服务器查询在线用户。
    2022-08-11 22:18:52下载
    积分:1
  • SM2实现
    《SM2椭圆曲线公钥密码算法》分为四个部分: ──第1部分:总则 ──第2部分:数字签名算法 ──第3部分:密钥交换协议 ──第4部分:公钥加密算法
    2022-06-18 13:12:43下载
    积分:1
  • 数值与符号计LU分解,运用LU分解函数求解Ax=b的矩阵运...
    数值与符号计算LU分解法,运用LU分解函数求解Ax=b的矩阵运算-numerical and symbolic computation LU decomposition, using LU decomposition function for Ax = b matrix operation
    2022-03-19 23:17:36下载
    积分:1
  • 有限状态机交通控制灯
    此代码在两个方面优先实现交通控制灯。欢迎大家下载、试用。谢谢大家的支持!
    2022-09-07 15:20:04下载
    积分:1
  • 696518资源总数
  • 105540会员总数
  • 37今日下载