登录
首页 » 算法 » 问题分类

问题分类

于 2022-02-24 发布 文件大小:1.82 MB
0 113
下载积分: 2 下载次数: 1

代码说明:

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术, TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m + k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论


0 个回复

  • 大规模数据集的自适应网格
    Adaptive Grids for Clustering Massive Data Sets - MAFIA. It is a subspace clustering algorithm.-Adaptive Grids for Clustering Massive Data Sets- MAFIA. It is a subspace clustering algorithm.
    2023-01-02 02:50:03下载
    积分:1
  • 相似性计
    应用背景简单地数据处理,计算两组数据间的相似性,应用在推荐系统的数据处理中,其他方向的数据处理也适用,比较简单易学,供学习交流。关键技术用C++语言实现的简单数据处理,在很多研究方向可以用于预处理数据,计算数据的相似性也是很多研究方向需要用到的,希望对大家有用。
    2022-03-05 22:37:16下载
    积分:1
  • 科学与工程计中常用的插值:Aitken、Akima、Hermite、Lagrange、样条插值等。...
    科学与工程计算中常用的插值算法:Aitken、Akima、Hermite、Lagrange、样条插值等。-Science and engineering computing interpolation algorithm commonly used: Aitken, Akima, Hermite, Lagrange, spline interpolation.
    2022-03-19 21:38:14下载
    积分:1
  • 打开bmp图
    打开bmp图程序,精简!vc环境使用CDib类打开bmp格式图片的工程,可运行。
    2022-07-20 05:31:44下载
    积分:1
  • openGI (几何图像)
    OpenGI 是一个独立于平台的 C 库的三角网格模型参数化和创建从这种参数化的几何图像。 功能简单易学 OpenGL 类似语法和编程 2-流形上的任意亏格与可变数量 boundariesvarious 参数化算法,如平均值 paradigmsworks 拉伸最小化,为多图表 patchi ficationshardware 的原始 GIM algorithmsupport 加速几何图像 creationsampling 各种通用 attributestight 集成使用 OpenGL 的轻松和高效的数据共享
    2022-04-17 10:49:59下载
    积分:1
  • app_match
    app_match
    2022-06-17 00:03:37下载
    积分:1
  • CF 基于用户
    协同过滤,英文名Collaborative 滤波
    2022-08-22 11:05:58下载
    积分:1
  • 朴树贝叶斯
    用Java语言写的朴树贝叶斯算法包含界面,经过测试,里面有包含有几种数据集可以进行测试,在本地电脑上完成过测试。界面清晰,可以很清楚的观看结果。
    2022-03-01 12:57:26下载
    积分:1
  • 人工蜂群
    C Code of the ABC algorithm
    2022-03-04 23:22:07下载
    积分:1
  • LDPC(c语言源代码)
    本代码是关于ldpc的编译码源代码,用的是c++语言,可以运行并且相关的矩阵文件都在附件里,可以通过这套程序来系统的学习通信的整个框架知识,希望能造福于后人
    2022-11-08 07:50:03下载
    积分:1
  • 696518资源总数
  • 105171会员总数
  • 15今日下载