登录
首页 » 算法 » simHash,用来网页去重最常用的hash方法,速度很快.

simHash,用来网页去重最常用的hash方法,速度很快.

于 2022-11-14 发布 文件大小:2.93 kB
0 50
下载积分: 2 下载次数: 1

代码说明:

Simhash 传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。 simhash算法很精巧,但却十分容易理解和实现,具体的simhash过程如下: 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 这是一段关于四种排序方的完全源代码及其相互之间的比较,包括:Heap sort,Merge sort,Quick sort,Radix sort...
    这是一段关于四种排序方法的完全源代码及其相互之间的比较,包括:Heap sort,Merge sort,Quick sort,Radix sort-This is a period of about four kinds of methods to sort the complete source code and the comparison between, including: Heap sort, Merge sort, Quick sort, Radix sort
    2022-05-07 06:26:05下载
    积分:1
  • 这个程序分别用二分,Newton,弦截,Newton下山求解非线性方程...
    这个程序分别用二分法,Newton法,弦截法,Newton下山法等算法求解非线性方程-this procedure were used dichotomy, Newton, String interception, Newton downhill law for solving nonlinear equations
    2022-11-19 17:30:03下载
    积分:1
  • 矩阵乘以向量
    定义一个矩阵类CM和向量类 (1)、为它们各自重载*,=,==运算符; (2)、为CM类重载CM*CV,CM*实数 (3)为CV类重载CV*CM,CV*实数 (4)在main函数中使用以上运算符。
    2022-01-25 14:01:49下载
    积分:1
  • 离散余弦变换与反变换
    图像压缩算法的一种,主要用于JPEG标准的图像压缩,是学习图像压缩必备技能。本源码采用C语言对图像数据进行DCT和IDCT变换,比较简单易懂,适合刚接触图像压缩算法的初学者。
    2022-07-03 18:35:52下载
    积分:1
  • 变系数/非线性微分方程的求解,包括原式及改变的式子。
    变系数/非线性微分方程的求解,包括原式及改变的式子。 -Variable coefficients/non-linear differential equations to solve, including the original style and formula changes.
    2022-01-23 10:09:46下载
    积分:1
  • ULA_信噪比
    已知:信号中心波长为2,天线阵元的间距为1米,快拍数为2000,空中有四个 源信号,假设它们的频率 四个源信号的方向分别为: 求: 1)在不加入噪声的情况下,观察并计算协方差矩阵特征值,并对它的特点 加以说明 2)分别采用MUSIC算法,CAPON算法, ESPRIT算法在下面四种情况下,对 上述四个信号源的波达方向进行估计,并画出它们的空间谱图; ①在不加入噪声的情况下, ②在加入高斯白噪声的情况下,假设信噪比为10dB 3)在信噪比变化范围为-20dB~+20dB时,分别采用MUSIC算法,CAPON算 法, ESPRIT算法,对上述四个信号源的波达方向进行估计,并画出波达方 向估计误差,随着信噪比变化的曲线图(即横轴为信噪比,纵轴为误差值)
    2022-03-19 16:29:54下载
    积分:1
  • This file implements a pid controller used to simulator cruise control in a car
    This file implements a pid controller used to simulator cruise control in a car The input is a throtle value between 0 - 100 ( read on P1 ) The output is the car s speed ( P2 - P0 ) -This file implements a pid controller used to simulator cruise control in a car The input is a throtle value between 0- 100 (read on P1) The output is the car s speed (P2- P0)
    2023-07-17 12:45:03下载
    积分:1
  • 在顶端2个操作数框输入原始值,将自动显示其四则运值,以及运结果的平方、开根、倒数、立方、自然对数、常用对数值,还可进行角度弧度换,阶乘和三角函数计,以及...
    在顶端2个操作数框输入原始值,将自动显示其四则运算值,以及运算结果的平方、开根、倒数、立方、自然对数、常用对数值,还可进行角度弧度换算,阶乘和三角函数计算,以及长度、面积、质量、体积的单位换算。-In the top two operands box to enter the original value, will automatically display its four operational values, and computing the results of the square roots, reciprocal, cubic, the natural logarithm, common logarithm, but also to the angle in radians conversion, factorial and triangular function calculation, as well as length, area, mass, volume of unit conversion.
    2022-01-26 07:59:56下载
    积分:1
  • 用c编的进程调度
    用c编的进程调度算法-C prepared by the process of scheduling algorithm
    2022-03-12 18:52:15下载
    积分:1
  • 双线性内插实现图片缩放
    代码共一个.c文件,代码包括三个函数,实现对图片的锐化、平滑、缩放(双线性内插实现)。
    2022-11-09 03:35:03下载
    积分:1
  • 696522资源总数
  • 104031会员总数
  • 39今日下载