登录
首页 » 算法 » simHash,用来网页去重最常用的hash方法,速度很快.

simHash,用来网页去重最常用的hash方法,速度很快.

于 2022-11-14 发布 文件大小:2.93 kB
0 156
下载积分: 2 下载次数: 2

代码说明:

Simhash 传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。 simhash算法很精巧,但却十分容易理解和实现,具体的simhash过程如下: 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 基于神经网络的遗传优化垃圾邮箱分类实验
    是数据挖掘实验课上的一个作业,垃圾邮箱分类,给了57个属性1个分类目标,0是垃圾邮箱1不是,给了训练集和测试集,用的C++写的神经网络,并用遗传算法优化了,正确率96.5%,但是时间较长
    2022-07-01 21:00:49下载
    积分:1
  • 四阶龙格-库塔
    一种在工程上应用广泛的高精度单步算法,由于此算法精度高,采取措施对误差进行抑制,所以其实现原理也较复杂。该算法是构建在 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
    2022-06-11 19:57:35下载
    积分:1
  • 离群点检测程序
    内部包含离群点检测的所有程序,三种算法的.h文件与.cpp文件,包含传感器离群,与数据离群两种问题
    2022-01-22 05:41:05下载
    积分:1
  • ABAP 选择屏
    代码诠释了选择屏幕几种重要控件的用法 SELECTION-SCREEN BEGIN OF BLOCK 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
    2022-04-19 18:09:54下载
    积分:1
  • 精神的项目
    数据流是用于许多不同的应用的一种重要模式:网络流量分析,传感器网络监控,运动对象的跟踪,金融数据分析。主要的挑战是:1)速度的挑战:数据正在进入该系统中的实时处理(例如,股票指数报价,传感器测量结果,网络流量); 2)空间的挑战:数据通常是无界的某些职位上如何有效地存储和处理数据的另一个挑战。很多数据流应用的监控应用,其中的实时数据流进入系统体积庞大需要进行趋势分析和异常检测进行监控。关键的是要检测的模式和关系中可能存在的共同进化的数据流。流往往是内在相关性(例如,温度在同一栋大楼,在同一网络中主机的流量,在同一个市场,价格等),它可以减少几百个数字流逼到了一把隐变量的紧凑描述的主要趋势,并显着降低了进一步的数据处理的复杂性。
    2022-12-30 01:25:03下载
    积分:1
  • 数值有原码,英文版
    数值算法有原码,英文版-numerical algorithm code is the original English version
    2023-02-09 14:05:04下载
    积分:1
  • 中国跳棋程序源码
    用java编写的一个跳棋游戏程序,jdk1.5以上即可运行,并附有源代码,游戏界面很美观,是用来学习Java的不错的例子!界面比较美观,完全解压后才能运行,有利于菜鸟自学啦……望资源上传者能够更多地价格自己的资源进行分享,以及交流讨论!
    2022-10-22 10:25:04下载
    积分:1
  • 主要分为3个函数。第一个函数为粒子群初始化函数 InitSwarm(SwarmSize......AdaptFunc)其主要作用是初始化粒子群的粒子,...
    主要分为3个函数。第一个函数为粒子群初始化函数 InitSwarm(SwarmSize......AdaptFunc)其主要作用是初始化粒子群的粒子,并设定粒子的速度、位置在一定的范围内。 -Mainly divided into three functions. The first function for the particle swarm initialization function InitSwarm (SwarmSize. ..... AdaptFunc) whose primary role is to initialize the particle swarm of particles, and set the speed of particles, location in a certain range.
    2022-09-29 01:25:03下载
    积分:1
  • calculation on the plane Improved Mood
    计算方法上机改进尤拉-calculation on the plane Improved Mood
    2022-05-20 09:18:38下载
    积分:1
  • Lifitime tracer. ***************************************************** Example...
    Lifitime tracer. *** *** *** *** *** *** *** *** ***** Example: #include void foo() { TRACE_LIFETIME usleep(100000) } void main() { foo() } *** *** *** *** *** *** *** *** *** See lifetimes.log: FUNC: void foo(), AV TTL: 00000xxxxx us (main.cpp, 000xxx) TTL: 00000xxxxx us (THREAD ID: 0000xxxx) ****************************************************** Explanation of newly created lifetimes.log: FUNC - function, whose lifetime we measured AV TTL - mean (average) spent time of all functions calls TTL - time spent on each function call THREAD ID - thread that called a function. ***************************************************** Description: - was written for QT project - multithreaded support (Loki::Singleton has multithreaded sync support) **************************************************** Dependencies: - QT - Loki (A. Alexandrescu) -Lifitime tracer. ****************************************************
    2022-02-13 17:25:56下载
    积分:1
  • 696518资源总数
  • 106227会员总数
  • 11今日下载