-
simHash,用来网页去重最常用的hash方法,速度很快.
Simhash
传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。
simhash算法很精巧,但却十分容易理解和实现,具体的simhash过程如下:
请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
- 2022-11-14 00:20:04下载
- 积分:1
-
single
单因素方差分析程序-single-factor analysis of variance procedure
- 2022-02-20 10:32:26下载
- 积分:1
-
Vc中关于FFT算法的编程
Vc中关于FFT算法的编程-Vc on the FFT algorithm programming
- 2022-02-15 01:32:16下载
- 积分:1
-
循环计算练习
空间循环编程实验题目的对应编程结果。包括一下12个题目:
(1) 1+2+3+4+5……+n (独立完成)
(2) 1 - 1/2 + 1/3 - 1/4 + 1/5 - 1/6 …… 1/n 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
- 2022-08-20 13:08:21下载
- 积分:1
-
基于STM32的经典PID算法
基于STM32的经典PID算法,对于做电源行业的朋友是好东西
- 2023-06-02 02:40:03下载
- 积分:1
-
隐马尔可夫模型
隐马尔可夫模型是马尔可夫链 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
- 2022-05-05 02:20:10下载
- 积分:1
-
此算法是牛顿欧拉法(在VC环境下)
此算法是牛顿欧拉法(在VC环境下)-this method is newton-euler method
- 2022-04-30 09:53:49下载
- 积分:1
-
数据结构图操作
输入任意的一个网,用普里姆(Prim)算法构造最小生成树。
要求建立图的存储结构(邻接表或邻接矩阵),输入任意的一个图,显示图的深度优先搜索遍历路径。
要求建立图的存储结构(邻接表或邻接矩阵),输入任意的一个图,显示图的广度优先搜索遍历路径。
- 2023-01-29 23:35:04下载
- 积分:1
-
a description of the problem is : No. 1, 2, ..., n n clockwise direction by indi...
约瑟夫问题的一种描述是:编号为1,2,…,n的n个人按顺时针方向围坐一圈,没人持有一个密码。一开始人选一个正整数作为报数上限值m,从第一个人开始按顺时针自1开始报数,报到m是停止报数。报m的人出列,将他的密码作为新的m值,从他在顺时针方向上的下一个人开始重新从1报数,如此下去,直至所有人全部出列为止。-a description of the problem is : No. 1, 2, ..., n n clockwise direction by individuals sitting around a circle, no one holding a password. One person started as a positive integer limits on the number of reported m, from the first individuals to embark on the clockwise from a few reportedly started, the report m is reportedly stopped a few. M reported out of the list of his password as a new value m, from a clockwise direction in the next re-started from a newspaper a few, like that, until the total of all listed so far.
- 2022-02-03 16:31:48下载
- 积分:1
-
随机表面生成
采用高斯分布函数,生成具有很强随机性的随机表面,可用于粗糙面、海面等起伏随机表面的生成,也可生成褶皱起伏表面
- 2022-04-18 21:15:56下载
- 积分:1