登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 243
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 在 win32 中的多线程应用程序
    在 win32 中的 Multithreadingapplications。C 编程在多线程环境中的 windows levelapplication 源代码。Multithreadin windows 系统很好的书。
    2022-10-17 09:15:15下载
    积分:1
  • 使用 C# 的变身
    --概述: 变形两个图像的位图或影片剪辑的序列作为输出结果。 硬件要求: 此示例需要 DirectX 11 能够卡,如果没有检测到示例将使用 DirectX 11 参考模拟器。 -软件要求: 从 http://msdn.microsoft.com 安装 Visual Studio 2012
    2022-03-09 17:49:47下载
    积分:1
  • 示波器代码
    示波器的源代码,效果不错的,dlo1w1dsc hhjhsdf sfdssd  fsdhsdfhsdj eewrew erewrewr dsfefh  dsdewh
    2022-07-07 20:07:57下载
    积分:1
  • Matlab pso1
    PSo代码如何提供鼠标点击和帮助请用代码dcscsdcccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc
    2022-01-27 18:24:48下载
    积分:1
  • fpga vga 控制器设
    我听说很多积极的反馈,从几个星期我们回来的统合 NERP FPGA 车间。一些人问我要去我们做两个演示的 Verilog 邮编。我添加了评论到 Verilog 文件试图清理我们顺利挺进避免纯粹把这变成 Verilog 类的东西很多。最有用的评论将在 VGA 控制器模块我们 wrote:vga640x480.v。不管怎么说,所有所需的项目文件,合成我们写的逻辑都在这里:我听说很多积极的反馈,从几个星期我们回来的统合 NERP FPGA 车间。一些人问我要去我们做两个演示的 Verilog 邮编。我添加了评论到 Verilog 文件试图清理我们顺利挺进避免纯粹把这变成 Verilog 类的东西很多。最有用的评论将在 VGA 控制器模块我们 wrote:vga640x480.v。不管怎么说,所有所需的项目文件,合成我们写的逻辑都在这里:
    2022-03-23 00:30:18下载
    积分:1
  • 数字时钟
    它是一个基于8051的频率计数器,可以用作学习工具。很有用的开始。
    2023-08-27 17:20:03下载
    积分:1
  • 读取参数文件
    #include #define  NUMBER   4 void main( ) {    int i=1; float f0,dt,dx,dz; int mx,mz,ntmax,pml,sou_x,sou_z,rec_start,rec_end,rec_int,rec_depth; char shotID[5],record_pp[30],vp_name[30],rou_name[30],mig_name[30],mig_pyt_name[30],mig_udlf_name[40],shuoming[30]; FILE *fp,*f; /*&不合法变量*/     printf("** This program is to show the block file input & output** "); fp=fopen(
    2022-09-05 20:35:03下载
    积分:1
  • 酒店管理系统
    免费下载项目在线预订系统在 Php 中与我的 Sql.hear 在线酒店预订系统项目与完整的源代码。酒店管理系统项目用于维护每个客户的信息。每个客户有自己的个人资料。如果没有完美的软件然后它将非常艰巨的任务,要保持所有的记录完全没有出现任何错误。即使找到特定的记录,要需要很多时间。
    2022-03-15 10:09:14下载
    积分:1
  • MFC调用CUDA
    如何在MFC中调用CUDA 环境:     Windows Vista SP1 Microsoft Visual Studio 2005 CUDA 2.0 步骤: 1.       创建一个对话框的
    2023-04-01 09:30:04下载
    积分:1
  • 基于OPENMP的矩阵相乘的程序
    应用背景只是用来学习OPENMP编程的应用技巧,同时对初学者有所帮助,不过程序比较简单,谨慎学习下载,同时,希望学习openmp的朋友能够多多交流一下,相互学习帮助关键技术关键技术就是基于OPENMP的一个矩阵相乘的并行实现,然后使用了分块,用静态分块进行各线程并行处理,所用时间短,效率高,适合学一下
    2022-08-04 09:23:19下载
    积分:1
  • 696516资源总数
  • 106457会员总数
  • 15今日下载