基于词性的文本预处理及其聚类
于 2023-08-29 发布
文件大小:8.90 MB
0 94
下载积分: 2
下载次数: 1
代码说明:
由于传统的文本特征提取是基于建停用词表(库)进行文本的特征选择,该方式在文本 篇幅和数量巨大的情况下,其建立的停用词表将非常庞大,文本特征词的提取效率非常 低下,本算法采用基于词性的文本特征提取,由于中文词性数量有限,因此文本特征提 取效率很高,便于后期的文本聚类或分类。本算法分词依赖中科大的分词组件ICTCLAS50, 我在matlab版本为2011b上成功编译运行。
下载说明:请别用迅雷下载,失败请重下,重下不扣分!
发表评论


