登录
首页 » 算法 » simHash,用来网页去重最常用的hash方法,速度很快.

simHash,用来网页去重最常用的hash方法,速度很快.

于 2022-11-14 发布 文件大小:2.93 kB
0 138
下载积分: 2 下载次数: 2

代码说明:

Simhash 传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。 simhash算法很精巧,但却十分容易理解和实现,具体的simhash过程如下: 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • MATLAB
    设计一个图形用户界面,利用下表的数据,设计窗体界面来演示数据插值,在窗体界面上分别演示线性插值和三样条插值在每分钟内每隔的秒数,钢轨每隔米不同长度处.这两个参数由用户输入,绘制改变插方法,和改变参数后的图形输出.并用”选项”菜单控制:网格开关,图例开关,色度空间.-matlab
    2022-03-04 16:21:42下载
    积分:1
  • 定位在传感器网络中的 改进策略
    资源描述本文首先在查阅和参考大量国内外相关文献的基础上,介绍了无线传感器网 络节点定位技术的研究背景及意义,综述了国内外研究现状,并详细介绍了无线 传感器网络中一些典型的无需测距定位算法和系统。 传统DV-Hop 算法采用较少的锚节点参与平均跳距计算,未知节点使用此平均 跳距值误差大,为了减小DV-Hop 算法的定位误差,提高待定位节点的定位精度, 本文从以下三方面对其进行改进:针对DV-Hop 定位算法适应节点均匀分布的网络 这一特性,在算法的前期提出了节点的部署策略;针对平均每跳距离在求各种跳 数的节点之间的距离时有着不同程度的影响,在算法的中期提出了距离修正值策 略;针对用三边或多边测量法计算未知节点的坐标精度不高这一问题,在算法的 后期使用了具有交叉因子的粒子群算法这一策略 使用Omnet++和Matlab 仿真工具对提出改进算法的有效性进行验证。实验证 明,与DV-Hop 算法相比,三种改进算法的定位精度都得到了一定程度的提高,特 别是基于交叉因子粒子群定位时效果最佳,能更好地满足实际应用的需求。 关键词:无线传感器网络,节点定位技术,距离向量-跳段,平分四块部署,距离 修正,交叉粒子群优化算法
    2022-11-10 18:25:04下载
    积分:1
  • the procedures used Matlab language trend of the computer program.
    该程序用matlab语言编写的计算机潮流计算程序。-the procedures used Matlab language trend of the computer program.
    2023-07-31 20:50:02下载
    积分:1
  • Multi-View Face Detection
    多视角人脸检测,基于皮肤检测,有训练和检测的详细代码,多视角人脸检测,基于皮肤检测,有训练和检测的详细代码,多视角人脸检测,基于皮肤检测,有训练和检测的详细代码,多视角人脸检测,基于皮肤检测,有训练和检测的详细代码,多视角人脸检测,基于皮肤检测,有训练和检测的详细代码,多视角人脸检测,基于皮肤检测,有训练和检测的详细代码,多视角人脸检测,基于皮肤检测,有训练和检测的详细代码,多视角人脸检测,基于皮肤检测,有训练和检测的详细代码,
    2022-06-27 13:54:37下载
    积分:1
  • 从与相关的快速中分离
    离散相关和自相关的快速算法-separated from the relevant and related to the fast algorithm
    2023-07-04 00:20:03下载
    积分:1
  • Exceptional C++ shows by example how to go about solid software engineering. Alo...
    Exceptional C++ shows by example how to go about solid software engineering. Along with a lot of other material, this book includes expanded versions of the first 30 issues of the popular Internet C++ feature Guru of the Week (or, in its short form, GotW), a series of self-contained C++ engineering problems and solutions that illustrate specific design and coding techniques.
    2022-12-15 03:15:03下载
    积分:1
  • -回溯
    回溯算法求解0-1背包问题、旅行售货商问题、青蛙换位问题、骑士巡游问题。
    2022-05-23 08:46:50下载
    积分:1
  • 常微分方程组adams数值解以及非线性方程的二分
    常微分方程组adams数值解法以及非线性方程的二分法解法-Adams Ordinary Differential Equations Numerical Solution of nonlinear equations as well as the dichotomy method
    2022-03-16 16:54:07下载
    积分:1
  • fortran kriging 2d 3d
    克里金二维、三维插值。是斯坦福油气预测中心C.V. Deutsch写的。网上也有些人上传了代码,但是往往都不全,我从网站下下来后没有一个可以正常使用;这个是我从作者原始网页上下载的程序,并将编译语句写成SHELL语句。我上传的这个程序,确保可以编译、运行、出结果。首先运行文件夹中的Compile编译然后运行exe执行。-Kerry Jiner Wei, three-dimensional interpolation. Stanford hydrocarbon prediction center CV Deutsch wrote. Some people on this site have uploaded the code, but often not the whole, I am from this site down after no one can normally use This is what I downloaded from the website of the original program and compile written statement SHELL statement. I uploaded this program to ensure that you can compile and run, the result. Compile to compile the first run in a folder and then run exe execution.
    2023-03-08 12:15:03下载
    积分:1
  • 自己做的程序,可能对你有用
    自己做的程序,可能对你有用-own procedures that may be useful to you
    2022-04-20 19:06:41下载
    积分:1
  • 696518资源总数
  • 105873会员总数
  • 12今日下载