登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 192
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • metis-3.0 partitioning unstructured graphs, partitioning meshes, and computing fill-reducing order
    Copyright 1997, Regents of the University of Minnesota. METIS was written by George Karypis (karypis@cs.umn.edu) Introduction ------------------------------------------------------------ METIS is a software package for partitioning unstructured graphs, partitioning meshes, and computing fill-reducing orderings of sparse matrices. The documentation of METIS can be found in the Doc/manual.ps file. METIS is written in ANSI C and should compile on Unix systems that have a ANSI C compiler. It has been extensively tested on the following architectures:    AIX    SunOS    Solaris    IRIX    Unicos    Linux    HP-UX    FreeBSD
    2022-02-20 19:44:54下载
    积分:1
  • 应用于移动机器人路径规划的改进蚁群
    基于改进蚁群算法的移动机器人路径规划,解决机器人路径选择的低效率问题,本算法对传统蚁群算法进行了改进,包括解的构造过程,信息素更新过程,基本思想是,蚂蚁在经过的路径上留下信息素,信息素一方面随着时间的积累,较优路径上的信息素越积越多,一方面还要挥发。为什么要引入信息素呢?也是从传统的奖励机制发展过来的。
    2022-11-09 16:40:04下载
    积分:1
  • 美国把阿富汗的齿轮,激怒阿富汗人谁可以使用设备
    2022-06-01 22:02:54下载
    积分:1
  • secuential归排序
    secuential归并排序
    2022-05-09 00:14:19下载
    积分:1
  • Hadoop 排序实现
    Hadoop环境下一个简单的排序算法实现,测试数据集可以选用任何数字形式的text文本文件,包含源代码及利用ant进行jar包压缩的build.xml文件,希望对大家学习Hadoop有用处。
    2023-08-13 20:45:04下载
    积分:1
  • I2C driver
    I2C总线驱动,8位单片机适用。 在总线控制,并下发指令是,效率好,另外,此程序在keil编译器中已经编译通过。
    2022-01-31 04:15:49下载
    积分:1
  • MFC调用CUDA
    如何在MFC中调用CUDA 环境:     Windows Vista SP1 Microsoft Visual Studio 2005 CUDA 2.0 步骤: 1.       创建一个对话框的
    2023-04-01 09:30:04下载
    积分:1
  • 多目标遗传法优化
    研究多目标遗传算法的优化,包含遗传算法过程中涉及的的各个步骤,非常适合于研究遗传算法及对遗传算法进行多目标优化的同学
    2022-01-25 17:35:18下载
    积分:1
  • 读取参数文件
    #include #define  NUMBER   4 void main( ) {    int i=1; float f0,dt,dx,dz; int mx,mz,ntmax,pml,sou_x,sou_z,rec_start,rec_end,rec_int,rec_depth; char shotID[5],record_pp[30],vp_name[30],rou_name[30],mig_name[30],mig_pyt_name[30],mig_udlf_name[40],shuoming[30]; FILE *fp,*f; /*&不合法变量*/     printf("** This program is to show the block file input & output** "); fp=fopen(
    2022-09-05 20:35:03下载
    积分:1
  • 基于遗传法的TSP问题
    一份有详细注释的TSP源码,运用遗传算法,有并行的能力,假设有一个旅行商人要拜访N个城市,他必须选择所要走的路径,路径的限制是每个城市只能拜访一次,而且最后要回到原来出发的城市。路径的选择目标是要求得的路径路程为所有路径之中的最小值。TSP问题是一个NPC
    2022-10-31 16:25:02下载
    积分:1
  • 696518资源总数
  • 105547会员总数
  • 4今日下载