网站首页

文本分类（采用Java语言）

于 2022-02-13 发布文件大小:10.96 MB

 0  359

下载积分: 2 下载次数: 1

我要下载

代码说明：

资源描述利用分类算法实现对文本的数据挖掘，主要包括： 1. 语料库的构建，主要包括利用爬虫收集Web文档等； 2. 语料库的数据预处理，包括文档建模，如去噪，分词，建立数据字典，使用词袋模型或主题模型表达文档等；注：使用主题模型，如LDA可以获得实验加分； 3. 选择分类算法（如朴素贝叶斯、SVM等），训练文本分类器，理解所选的分类算法的建模原理、实现过程和相关参数的含义； 4. 对测试集的文本进行分类 5. 对测试集的分类结果利用正确率和召回率进行分析评价。

下载说明：请别用迅雷下载，失败请重下，重下不扣分！

发表评论

0 个回复

python 实现随机森林
应用背景数据：两个月之内 40000个客户的15个数据字段包含客户的地理位置，职业，职级，年收入，。。。。。。购买过得产品目的：对新客户进行推荐一个适合该客户的产品，对老客户推荐可能再购买的产品数据处理数据清洗： describe 每个特征统计分析方差 -分析缺陷特征和波动性空值赋值为 “-1 “ - 保证模型的可使用数据归一化：eg：邮编相似度不高根据一线二线….进行划分 – 特征的重要性关键技术特征选择随机森林：判断特征的重要性：思考为何重要性高 AHP ：迭代设置每个特征的权重模型选择：根据数据量数量，是否有标签，分类or回归选取关于模型选择时候我想用协同过滤但是不知道关于特征的协同过滤是怎么执行的是每个特征都有一个评分构成评价矩阵么？

2022-02-25 17:28:51下载

积分：1
数据挖掘决策树Java源代码
资源描述决策树是建立在信息论基础之上，对数据进行分类挖掘的一种方法。其思想是，通过一批已知的训练数据建立一棵决策树，然后利用建好的决策树，对数据进行预测。决策树的建立过程可以看成是数据规则的生成过程。由于基于决策树的分类方法结构简单，本身就是人们能够理解的规则。其次，决策树方法计算复杂度不大，分类效率高，能够处理大数据量的训练集；最后，决策树方法的分类精度较高，对噪声数据有较好的健壮性，符合一般系统的要求。

2022-03-12 14:04:11下载

积分：1
频繁子图挖掘算法pafi1.0.1.zip
频繁子图挖掘算法pafi1.0.1.zip,频繁子图挖掘算法采用c++实现，图数据挖掘方向的可以看一看。

2022-01-21 02:32:05下载

积分：1
微博数据挖掘
利用python调用新浪api接口实现的新浪微博数据的挖掘，能够获取指定的经纬度地点的微博动态信息，还能够将其写入MySQL数据库中。

2022-07-12 15:52:46下载

积分：1
文本分类（采用Java语言）
资源描述利用分类算法实现对文本的数据挖掘，主要包括： 1. 语料库的构建，主要包括利用爬虫收集Web文档等； 2. 语料库的数据预处理，包括文档建模，如去噪，分词，建立数据字典，使用词袋模型或主题模型表达文档等；注：使用主题模型，如LDA可以获得实验加分； 3. 选择分类算法（如朴素贝叶斯、SVM等），训练文本分类器，理解所选的分类算法的建模原理、实现过程和相关参数的含义； 4. 对测试集的文本进行分类 5. 对测试集的分类结果利用正确率和召回率进行分析评价。

2022-02-13 04:15:07下载

积分：1
朴素贝叶斯分类
朴素贝叶斯分类的分类器实现，使用的是matlab语言。内含测试集和训练集，可直接运行，readme.txt文件中说明了数据格式

2022-02-07 02:48:39下载

积分：1
频繁项集挖掘算法--FPGROWTH算法
数据挖掘经典算法，频繁项集挖掘经典算法，FPGROWTH算法，源码中有详细说明

2023-06-08 16:30:03下载

积分：1
高效用项集挖掘算法--HUIMINER算法
数据挖掘算法，高效用项集挖掘算法，加权频繁项集挖掘，HUIMINER算法，源码中有详细注释

2023-02-10 05:45:03下载

积分：1
数据挖掘中编写C语言程序数据预处理，读取文本文件中的数据，使用链表，并输出该组数据的按平均值、中值、边界值平滑的结果。若分箱时数据缺失则用最后的值复制代替，还要找出程序中
数据挖掘中编写C语言程序数据预处理，读取文本文件中的数据，使用链表，并输出该组数据的按平均值、中值、边界值平滑的结果。若分箱时数据缺失则用最后的值复制代替，还要找出程序中的离群点，要求程序符合结构化程序设计风格，关键地方需加注释。完美实现！

2022-02-28 20:00:10下载

积分：1
Java实现Apriori数据挖掘算法
Java实现Apriori数据挖掘算法,包内还有实例用的数据库 Apriori数据挖掘算法:先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递归的方法。请在jbuilder下编译配好JDBC驱动商品如果买的表示为大写没买表示为小写的具体看GetSource.java

2022-10-02 14:05:03下载

积分：1

696516资源总数
106637会员总数
8今日下载

文本分类（采用Java语言）

0 个回复

热门标签

热门下载