登录
首页 » Java开发 » tf-idf Java实现,还是很不错的

tf-idf Java实现,还是很不错的

于 2022-11-20 发布 文件大小:2.37 MB
0 162
下载积分: 2 下载次数: 1

代码说明:

资源描述TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术, TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m + k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处。这里采用了外部插件IKAnalyzer-2012.jar,用其进行分词,插件和测试文件可以从这里下载

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • QMcCluskey
    蒯因 — — 麦克罗斯基算法 (或蕴涵的方法) 是一种用于最小化方法布尔函数,是由里蒯因开发并扩展 byEdward J.麦克罗斯基。它在功能上相同到卡诺的映射,但表格式窗体使之更有效率使用计算机算法 并且它也给确定的方法来检验已达到了布尔函数的极小形式。它有时被称为制表方法。 该方法包括两个步骤: 找到所有蕴涵的功能。 在素蕴涵图表中使用这些蕴涵作为查找基本素蕴涵项的功能, 以及其他所需的功能的蕴涵。
    2023-08-23 02:10:03下载
    积分:1
  • Hibernate 4.3 中文文档
    资源描述 Hibernate  4.3 中文文档,对于学习和研究会有所帮助
    2022-03-29 22:09:18下载
    积分:1
  • MSG基金研究实例
    软件工程 [美]Stephen R.Schach 课本中的MSG基金研究实例 源代码 JAVA版
    2022-06-02 02:36:55下载
    积分:1
  • 简单的文本编辑器
    一个简单的java文本编辑器,适合java入门朋友学习研究,通过学习这个编辑器,可以学习java的io操作,文本操作以及图形界面程序的开发。
    2022-03-01 10:32:05下载
    积分:1
  • 报表源代码
    硬件环境: 操作系统:Microsoft Windows XP 开发工具:MyEclipse 6.0.0 1.2服务器配置:     服务器运行服务器脚本,必须在服务器端安装WEB服务器。请安装TOMCAT 5.5.
    2022-04-27 06:31:01下载
    积分:1
  • 井字棋网络版
    在java平台,实现人人对战,人机对战(使用的是比特棋盘),使用udp数据报传输,开发网络井字棋。
    2023-05-22 13:55:03下载
    积分:1
  • 安卓蓝牙通信参考源码
    资源描述基于安卓的蓝牙通信开发参考例程源码
    2023-06-03 15:30:03下载
    积分:1
  • import java.net.*; import java.io.BufferedReader; import java.io.InputStreamReader; import java.io.I
    import java.net.*; import java.io.BufferedReader; import java.io.InputStreamReader; import java.io.IOException; public class NetTool { InetAddress myIPaddress = null; InetAddress myServer = null; public static void main(String args[]) throws Exception{ NetTool mytool; mytool = new NetTool(); System.out.println("Your host IP is: " + mytool.getMyIP()); System.out.println("The Server IP is :" + mytool.getServerIP()); System.out.println("Your Mac Address is: " + mytool.getMACAddress()); } //取得
    2022-04-14 11:19:19下载
    积分:1
  • Andorid局域网电话
    应用背景Android的局域网到局域网的语音呼叫系统,这是程序运行,只有WiFi请测试WiFi关键技术Andorid uzer,旦尼尔WiFi亚达kablosuz银kullanarak sesli gorusme sistemidir
    2023-05-04 19:25:03下载
    积分:1
  • classloader相关代码
    JVM在加载类的时候,都是通过ClassLoader的loadClass()方法来加载class的,loadClass(String name)方法: 使用的是双亲委托模式: jvm启动时,会启动jre/rt.jar里的类加载器:bootstrap classloader,用来加载java核心api;然后启动扩展类加载器ExtClassLoader加载扩展类,并加载用户程序加载器AppClassLoader,并指定ExtClassLoader为他的父类; 当类被加载时,会先检查在内存中是否已经被加载,如果是,则不再加载,如果没有,再由AppClassLoader来加载,先从jar包里找,没有再从classpath里找; 如果自定义loader类,就会存在这命名空间的情况,不同的加载器加载同一个类时,产生的实例其实是不同的;
    2022-03-19 18:19:03下载
    积分:1
  • 696516资源总数
  • 106648会员总数
  • 8今日下载