登录
首页 » 算法 » simHash,用来网页去重最常用的hash方法,速度很快.

simHash,用来网页去重最常用的hash方法,速度很快.

于 2022-11-14 发布 文件大小:2.93 kB
0 166
下载积分: 2 下载次数: 2

代码说明:

Simhash 传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。 simhash算法很精巧,但却十分容易理解和实现,具体的simhash过程如下: 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 基于WiFi的室内定位系统设计与实现
    比较实用的室内定位算法代码。有详细说明。-Practical indoor positioning algorithm code. There are described in detail.
    2022-07-26 16:18:36下载
    积分:1
  • CTC编码,用于验证CTC编码
    CTC编码函数,生成CTC循环卷积码 编解码都有,可以验证软入软出原则下的CTC码性能
    2022-09-20 13:40:03下载
    积分:1
  • 约瑟夫问题的求解方案,经典
    约瑟夫问题的求解方案,经典-Joseph solving the problem, classic
    2023-03-15 03:10:03下载
    积分:1
  • 车载诊断源码
    关于OBD原理和诊断仪相关源码,包括详细的连接说明,对OBD系统开发以及诊断仪开发有很大的启发,希望与大家多多交流!!
    2022-07-06 23:21:20下载
    积分:1
  • 串行的矩阵相乘
    矩阵相乘.vcxproj     这是使用应用程序向导生成的 VC++ 项目的主项目文件,     其中包含生成该文件的 Visual C++      的版本信息,以及有关使用应用程序向导选择的平台、配置和项目功能的信息。 矩阵相乘.vcxproj.filters     这是使用“应用程序向导”生成的 VC++ 项目筛选器文件。      它包含有关项目文件与筛选器之间的关联信息。 在 IDE      中,通过这种关联,在特定节点下以分组形式显示具有相似扩展名的文件。     例如,“.cpp”文件与“源文件”筛选器关联。 矩阵相乘.cpp &nbs
    2022-03-24 16:39:52下载
    积分:1
  • 有重复元素的排列问题
    问题描述:设R={ r1, r2, ...., rn}是要进行排列的n个元素。其中元素r1,r2,......,rn可能相同。试设计一个算法,列出R的所有不同排列。 编程任务:给定n 以及待排列的n 个元素。计算出这n 个元素的所有不同排列。
    2023-04-06 03:25:03下载
    积分:1
  • Pi BBP
    本程序实现了BBP算法生成一些十六进制数字后立即开始,一个给定的位置ID,或者换句话说 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
    2022-03-11 11:50:32下载
    积分:1
  • 包括编译程序词分析器、操作系统进程状态切换演示、VC_哈夫曼树halftree、节点矩阵最短路径guildmap、串基本操作的演示
    包括编译程序词法分析器、操作系统进程状态切换演示、VC_哈夫曼树halftree、节点矩阵最短路径guildmap、串基本操作的演示-Including the compiler morphology analyzer, the operating system advancement condition cut demonstration, VC_ Haveman sets up halftree, pitch point matrix most short-path guildmap, the string elementary operation eo demonstration
    2023-04-11 08:40:03下载
    积分:1
  • 温度分布
    Fortran95 程序地址在一个金属圆盘上的温度分布。边界设置为稳定温度 20 度。在磁盘上的内点是保持 100 度.初始温度是 50 度。稳定的温度,这个问题的时间多长一个稳定的温度的dish拿到会被该程序解决。
    2022-02-06 23:31:55下载
    积分:1
  • One
    一维非稳态扩散问题通用程序(Basic语言)-One-dimensional non-steady-state GM-proliferation program (Basic language)
    2022-01-26 06:21:26下载
    积分:1
  • 696516资源总数
  • 106450会员总数
  • 5今日下载