-
simHash,用来网页去重最常用的hash方法,速度很快.
Simhash
传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。
simhash算法很精巧,但却十分容易理解和实现,具体的simhash过程如下:
请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
- 2022-11-14 00:20:04下载
- 积分:1
-
杭州电子科技大学在线系统ACM的2037题,用贪心方法解决
杭州电子科技大学在线系统ACM的2037题,用贪心方法解决-Hangzhou University of Electronic Science and Technology ACM-line system of the 2037 title with a greedy solution
- 2022-06-17 04:16:28下载
- 积分:1
-
此函数通过两点的大地经纬度(Ja,Wa)和(Jb,Wb)计算两点间距离 Dis...
此函数通过两点的大地经纬度(Ja,Wa)和(Jb,Wb)计算两点间距离 Dis -this function through the 2:00 and Geodesy (Ja, Wa) and ( `, mg) calculated the distance between two points Dis
- 2022-07-19 07:05:55下载
- 积分:1
-
拉格朗日差值算法,内涵读取文件,插值,写入文件,读取文件为PARCHG,写入文件为INSERT_DATA...
拉格朗日差值算法,内涵读取文件,插值,写入文件,读取文件为PARCHG,写入文件为INSERT_DATA-Lagrangian difference algorithm, meaning to read the file, interpolation, write files, read the file PARCHG, write documents INSERT_DATA
- 2022-01-26 20:29:26下载
- 积分:1
-
基于C实现的采样复制的纹理图像修复方法_可去除遮罩物
资源描述CS7495 Final Project Sooraj Bhat
Object Removal by Exemplar-based Inpainting USING THE CODE
Everything was done in Matlab and MEX (i.e. a C function callable from
Matlab). First, the C code needs to be compiled. At the Matlab
prompt, type:
mex bestexemplarhelper.c
You should then be able to run the following (which takes ~2mins on my
2GHz Pentium 4 laptop with 256MB of RAM):
[i1,i2,i3,c,d,mov] = inpaint("bungee0.png","bungee1.png",[0 255 0]);
A smaller run (~25 seconds) would be:
[i1,i2,i3,c,d,mov] = inpaint("bw0.png","bw2.png",[0 255 0]);
To visualize:
plotall;
close; movie(mov);
SAMPLE IMAGES & RESULTS
*0.png The original images ("bw" and "bungee")
*{1,2}.png The different fill region masks.
*P2.png &nbs
- 2022-02-01 13:35:37下载
- 积分:1
-
kd-tree的c实现
kd-tree的一个简单实现kd-tree的一个简单实现kd-tree的一个简单实现kd-tree的一个简单实现kd-tree的一个简单实现
- 2022-03-12 17:58:42下载
- 积分:1
-
遗传算法tsp
基于遗传算法以TSP中的中国旅行商问题为例进行求解,采用轮盘赌、顺序交叉、反转变异方式实现算法涉及的选择、交叉、变异策略,利用C++语言编码进行仿真实验,验证本文所设计算法的正确性和可行性.
- 2022-10-19 02:05:03下载
- 积分:1
-
ACM的重要PPT资料,对初学者非常有益处
ACM的重要PPT资料,对初学者非常有益处-ACM important PPT information is very useful for beginners
- 2023-03-10 19:20:04下载
- 积分:1
-
数值计算的C语言代码,包括了大部分C语言的算法,希望对大家有用...
数值计算的C语言代码,包括了大部分C语言的算法,希望对大家有用-The C-numerical code, including most of the C language algorithms, hope for all of us
- 2022-08-22 13:49:00下载
- 积分:1
-
pn码的kalman滤波频估,IEEE的论文,希望对大家有帮助
pn码的kalman滤波频估,IEEE的论文,希望对大家有帮助-Joint Estimation of PN Code Delay and
Multipath Using the Extended
Kalman Filter
- 2022-03-23 10:17:57下载
- 积分:1