-
tf-idf Java实现,还是很不错的
资源描述TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术, TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m + k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处。这里采用了外部插件IKAnalyzer-2012.jar,用其进行分词,插件和测试文件可以从这里下载
- 2022-11-20 22:00:04下载
- 积分:1
-
文档分词且按频次排行
根据文本去除标点等特殊符号,分词,且根据分词出现次数统计词频,并按照词频由高向低排序。以上文本主要使用英文文档。
- 2022-07-16 12:36:40下载
- 积分:1
-
Microblog.com
微博
- 2022-09-06 22:35:05下载
- 积分:1
-
multiplex management system
管理体系是用于确保组织能够完成实现其目标所需的所有任务的过程和程序的框架。[1]
- 2022-04-27 13:32:17下载
- 积分:1
-
医疗诊断系统JAVA
下面的程序是针对疾病的医疗诊断。在JAVA开发
- 2022-04-15 13:09:45下载
- 积分:1
-
Bouncy Castle 源代码
Bouncy Castle 是一种用于 Java 平台的开放源码的轻量级密码术包。它支持大量的密码术算法,并提供 JCE 1.2.1 的实现。因为 Bouncy Castle 被设计成轻量级的,所以从 J2SE 1.4 到 J2ME(包括 MIDP)平台,它都可以运行。它是在 MIDP 上运行的
- 2022-01-25 16:54:54下载
- 积分:1
-
swarm for java
一个简单的swarm for java 建模实例 用来描述一个城市简单的交通管理 你可以在模型中设置自己想要规定的控制范围 筛选系数来选择随机生成的城市交通车辆 对于研究不确定性和扩散运动有一定的帮助
- 2022-01-22 15:30:19下载
- 积分:1
-
校园宿舍管理系统分享
校园宿舍管理系统分享
- 2023-08-11 03:15:06下载
- 积分:1
-
导师协议
应用背景网络拓扑优化和路由(导师)算法是一种低复杂度的,高效的部分网格网络设计算法。本研究探讨了设计与性能之间的关系,参数和流量分配的导师算法的性能。关键技术对于每一个网络,在正常负载下的性能和在拥塞阈值的导师流量分配计算和比较,通过求解的最佳的解决方案,线性规划。它被发现的路由性能取决于在导师和算法的初始树,以及允许的最小和最大链路利用率。导师网络的开始,星形拓扑结构提供更好的性能比从最小生成树的开始。
- 2022-05-22 12:55:25下载
- 积分:1
-
摄氏温度到华氏温度和摄氏温度到华氏温度
摄氏温度
虽然最初定义的水的冰点 (和后来的熔点的冰),摄氏规模现已正式派生的规模,定义相对于开尔文温标.
请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
- 2023-01-02 09:50:04下载
- 积分:1