登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 104
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • cuda实现矩阵求逆
    此程序包的矩阵求逆函数基于 CUDA 的实现包含对称的积极明确逆矩阵使用 GPU。用法,请参阅 testspd.cpp 中的示例。此外,一般块矩阵求逆通过高斯(pivotting) 没有消除。请参阅 testge.cpp 例如使用。注: GE 可能无法在单精度足够稳定。请参阅生成文件更改为双精度。
    2022-07-16 13:09:40下载
    积分:1
  • 应用于移动机器人路径规划的改进蚁群
    基于改进蚁群算法的移动机器人路径规划,解决机器人路径选择的低效率问题,本算法对传统蚁群算法进行了改进,包括解的构造过程,信息素更新过程,基本思想是,蚂蚁在经过的路径上留下信息素,信息素一方面随着时间的积累,较优路径上的信息素越积越多,一方面还要挥发。为什么要引入信息素呢?也是从传统的奖励机制发展过来的。
    2022-11-09 16:40:04下载
    积分:1
  • cuda语言实现向量相加
    本程序是cuda语言实现向量相加的例子,通过这个例子可以学习cuda的基本语法格式,
    2023-07-27 23:25:04下载
    积分:1
  • 细胞生命的模拟化
    This application provides an implementation of Conway’s Game of Life, using the Parallel class to parallelize the processing of the cellular automata.
    2022-06-29 16:39:03下载
    积分:1
  • 基于在线云保障食品安全
    时下人们已成为热心研究人员对全球各地的几个类型食物食谱。他们登录到几个网站,以获取最喜爱的美食和样式。除了中国、 泰国和意大利,印度食品在其 cusines 中有广泛的品种。印度食品是太辣和油性为旅游来自西方国家,其中许多研究结束其营养价值。在这里,我们建议提供的各种各样的中印度已消费的食品营养价值的 web 应用程序。拟议的系统将提供原料蔬菜、 奶制品、 烹饪那些被消耗在这个国家的产品的营养价值。这一制度的目的是向意识到人民从过度消费的是不适合他们的荒地和心灵的食物食谱。
    2022-02-01 14:45:01下载
    积分:1
  • mpi4py 的逐次超松驰迭代的例子
    这是示例如何用逐次超松驰迭代 (SOR) 方法,求解线性系统的方程 使用 python 库 mpi4py。算法尝试计算节点之间平分。该程序不仅可以 在集群上运行。
    2022-04-29 12:44:20下载
    积分:1
  • 分布实现矩阵乘法
    资源描述 基于集群,测试后可用。 实现了并行分布式求解矩阵的幂。 基于消息传递的机制。主进程负责分配任务。各个子进程复杂计算。 通过分块,有效的解决了内存不足的问题。
    2023-07-19 07:35:03下载
    积分:1
  • VB视屏聊天
    通过存储选中开始结束为止,确定颜色,仙剑一个文件夹,之后删除将恢复健康的和健康和vkjdfnkjkjn;k独守空房军看见电脑;来看看了呢空间能看见你空间呢控件看来今年 看你空间呢
    2022-12-07 06:20:02下载
    积分:1
  • H.264编解码的CUDA实现,加速
    H.264编解码的CUDA实现,并行加速算法,内部实现了H.264视频编解码的CUDA实现,能够编译通过,已经过测试,并且还添加了注释信息。
    2022-03-25 09:18:02下载
    积分:1
  • 在 win32 中的多线程应用程序
    在 win32 中的 Multithreadingapplications。C 编程在多线程环境中的 windows levelapplication 源代码。Multithreadin windows 系统很好的书。
    2022-10-17 09:15:15下载
    积分:1
  • 696524资源总数
  • 103938会员总数
  • 55今日下载