-
文本分类(采用Java语言)
资源描述利用分类算法实现对文本的数据挖掘,主要包括: 1. 语料库的构建,主要包括利用爬虫收集Web文档等; 2. 语料库的数据预处理,包括文档建模,如去噪,分词,建立数据字典, 使用词袋模型或主题模型表达文档等; 注:使用主题模型,如LDA可以获得实验加分; 3. 选择分类算法(如朴素贝叶斯、SVM等),训练文本分类器,理解所选 的分类算法的建模原理、实现过程和相关参数的含义; 4. 对测试集的文本进行分类 5. 对测试集的分类结果利用正确率和召回率进行分析评价。
- 2022-02-13 04:15:07下载
- 积分:1
-
数据挖掘 Binning算法
说明: 数据挖掘中的binning算法,用于数据预处理(Binning algorithm in data mining for data preprocessing)
- 2019-01-07 09:04:15下载
- 积分:1
-
0056764
这是一本经典数值算法书,包含多种算法的理论,为编程者具有一定参考意义()
- 2018-05-25 16:07:55下载
- 积分:1
-
pu_ju_lei
说明: 将数据集转换为拉普拉斯矩阵,然后利用基于图论的谱聚类进行聚类。拉普拉斯矩阵采用高斯核函数,全连接方法计算。谱聚类擅长处理高维数据或非凸数据集。(The data set is transformed into Laplacian matrix, and then clustered by spectral clustering based on graph theory. The Laplacian matrix is calculated by using the Gauss kernel function and the full connection method. Spectral clustering is good at dealing with high-dimensional or non-convex data sets.)
- 2019-07-01 16:05:39下载
- 积分:1
-
YTCVI47
徐士良《C常用算法程序集》第2版 第2部分()
- 2018-02-05 12:36:49下载
- 积分:1
-
project
数据挖掘,推荐系统,堆叠降噪自编码器,逻辑回归(Data mining, recommender systems, stack noise reduction, self coder, logic regression)
- 2021-01-25 23:58:43下载
- 积分:1
-
classification_toolbox
说明: 多种基本分类训练,包括支持向量机,偏最小二乘,主成分分析和线性分析(A variety of basic classification training, including support vector machine, partial least squares, principal component analysis and linear analysis)
- 2020-03-10 11:52:41下载
- 积分:1
-
KNN01
说明: 用来作分类识别的KNN算法,非常好用非常好用(A very useful nearest neighbor algorithm)
- 2020-08-03 19:28:41下载
- 积分:1
-
mxzr
判断链表中是否有循环 有的话,按序打印一次(To determine if there is a loop in the list, print it in sequence)
- 2018-09-04 05:19:13下载
- 积分:1
-
数据挖掘中编写C语言程序数据预处理,读取文本文件中的数据,使用链表,并输出该组数据的按平均值、中值、边界值平滑的结果。若分箱时数据缺失则用最后的值复制代替,还要找出程序中
数据挖掘中编写C语言程序数据预处理,读取文本文件中的数据,使用链表,并输出该组数据的按平均值、中值、边界值平滑的结果。若分箱时数据缺失则用最后的值复制代替,还要找出程序中的离群点,要求程序符合结构化程序设计风格,关键地方需加注释。完美实现!
- 2022-02-28 20:00:10下载
- 积分:1