登录
首页 » 算法 » simHash,用来网页去重最常用的hash方法,速度很快.

simHash,用来网页去重最常用的hash方法,速度很快.

于 2022-11-14 发布 文件大小:2.93 kB
0 190
下载积分: 2 下载次数: 2

代码说明:

Simhash 传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。 simhash算法很精巧,但却十分容易理解和实现,具体的simhash过程如下: 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 平方米面积的计
    这个程序允许您在 c + + 控制台模式中正方形的面积计算。
    2023-08-31 03:40:03下载
    积分:1
  • FastMap
    这一简单的 FastMap 算法执行。与此代码片段可以绘制结果这样在二维空间中的多维投影。这种算法是真快因为复杂度 o (n)。在许多情况下的应力是平等或比 PCA 和 MDS betther。
    2022-07-20 05:36:51下载
    积分:1
  • 基于RSS.的无线传感器网络室内定位 研究与实现
    资源描述无线传感器网络由在特定区域部署、对环境与物体等进行监控的 无线传感器节点组成。它是无线通信技术、传感器技术与嵌入式技术 融合发展的产物。作为一种新兴技术,无线传感器网络目前已经广泛 应用于工业监控、环境监管、办公自动化、医疗护理、军事国防等众 多领域。定位技术作为无线传感器网络的关键技术之一,对室内监控 与定位可以起到重要的作用
    2022-06-12 05:59:12下载
    积分:1
  • 基于矢量控制的永磁同步交流伺服电机控制系统代码
    基于矢量控制的永磁同步交流伺服电机控制系统代码,内含文档介绍了永磁同步交流电机的矢量控制理论,并根据矢量控制理论运用DSP实现了对永磁同步交流伺服电机的电流、速度和位置的三闭环控制,并给出了源程序。非常实用。
    2023-04-12 01:20:04下载
    积分:1
  • c语言实现的离散傅立叶(DFT)变换。非快速傅里叶变换,基本的傅里叶变换。...
    c语言实现的离散傅立叶(DFT)变换。非快速傅里叶变换,基本的傅里叶变换。-A basic Discrete Fourie Transform program, not Fast Discrete Fourie Transform
    2022-06-18 02:58:18下载
    积分:1
  • CAMSHIFT 运动物体跟踪源码+详细注释
    如果要跟踪的物体颜色和背景色有较大区别,可用基于颜色的跟踪 如CAMSHIFT 鲁棒性都是较好的。 此源码是一个opencv自带的CamShift算法使用工程实例。该实例的作用是跟踪摄像头中目标物体,目标物体初始位置用鼠标指出,其跟踪窗口大小和方向随着目标物体的变化而变化。 在此对camshift源码做了详细的注释,希望对大家有所帮助。
    2022-05-29 09:38:12下载
    积分:1
  • 文件1.txt,2.txt,3.txt和5.txt为用Fortran编写的有限元程序 4.txt为用c++编写的钢筋混凝土异形柱的全过程非线性分析源程序...
    文件1.txt,2.txt,3.txt和5.txt为用Fortran编写的有限元程序 4.txt为用c++编写的钢筋混凝土异形柱的全过程非线性分析源程序-document 1.txt, 2.txt, 3.txt and 5.txt Fortran prepared for the use of the finite element program 4.txt to use C++ to prepare the R.C.special-the whole process of nonlinear analysis source
    2022-08-18 18:12:35下载
    积分:1
  • c语言经典400题
    给出了c语言面试、等级考试、上级考试等各类编程算法题,包括常用语法及算法。适合初学者应对考试时题海复习。掌握全面的c语言编程知识锻炼能力。
    2022-03-13 21:34:05下载
    积分:1
  • 链式队列的实现
    资源描述C语言实现了一个链式队咧,每一个节点包含数据域和指针域。内部实现了关于队列的一系列操作函数,包括初始化队列函数,入队函数、出队函数、释放所有元素的函数、根据优先级进行节点排序的函数,根据优先级进行节点插入的函数、打印所有节点的额函数等等。
    2022-11-28 18:40:04下载
    积分:1
  • 点云的配准icp
    icp算法源代码,主要用于点云拼合,是基于matlab上编写的,实现两个点云数据的对准
    2023-07-20 23:15:04下载
    积分:1
  • 696516资源总数
  • 106918会员总数
  • 4今日下载