登录
首页 » Others » raw

raw

于 2021-01-06 发布
0 432
下载积分: 1 下载次数: 19

代码说明:

说明:  10个中文分词数据集,用于训练中文分词模型(Ten Chinese Word Segmentation Datasets for Training Chinese Word Segmentation Model)

文件列表:

raw, 0 , 2019-02-10
raw\other, 0 , 2019-02-10
raw\other\zx, 0 , 2019-02-10
raw\other\zx\test.zhuxian.wordpos, 280885 , 2019-02-10
raw\other\zx\train.zhuxian.wordpos, 559793 , 2019-02-10
raw\other\zx\dev.zhuxian.wordpos, 166113 , 2019-02-10
raw\other\cnc, 0 , 2019-02-10
raw\other\cnc\dev.txt, 5581923 , 2019-02-10
raw\other\cnc\train.txt, 44824963 , 2019-02-10
raw\other\cnc\test.txt, 5571735 , 2019-02-10
raw\other\udc, 0 , 2019-02-10
raw\other\udc\dev.conll, 422116 , 2019-02-10
raw\other\udc\test.conll, 400684 , 2019-02-10
raw\other\udc\train.conll, 3282103 , 2019-02-10
raw\other\wtb, 0 , 2019-02-10
raw\other\wtb\dev.conll, 49336 , 2019-02-10
raw\other\wtb\test.conll, 49702 , 2019-02-10
raw\other\wtb\train.conll, 393054 , 2019-02-10
raw\other\sxu, 0 , 2019-02-10
raw\other\sxu\train.txt, 3600697 , 2019-02-10
raw\other\sxu\test.txt, 776035 , 2019-02-10
raw\other\ctb, 0 , 2019-02-10
raw\other\ctb\ctb6.dev.seg, 300375 , 2019-02-10
raw\other\ctb\ctb6.train.seg, 4030528 , 2019-02-10
raw\other\ctb\ctb6.test.seg, 312025 , 2019-02-10
raw\sighan2005, 0 , 2019-02-10
raw\sighan2005\cityu_test_gold.utf8, 239427 , 2019-02-10
raw\sighan2005\msr_training.utf8, 16804586 , 2019-02-10
raw\sighan2005\cityu_training.utf8, 8499903 , 2019-02-10
raw\sighan2005\as_test_gold.utf8, 711891 , 2019-02-10
raw\sighan2005\pku_test_gold.utf8, 716386 , 2019-02-10
raw\sighan2005\as_training.utf8, 30558193 , 2019-02-10
raw\sighan2005\msr_test_gold.utf8, 762801 , 2019-02-10
raw\sighan2005\pku_training.utf8, 7709182 , 2019-02-10

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • ICTCLASCaller
    说明:  ICTCLAS的JNI调用接口文件: Title:ICTCLAS Caller * <p>Description:do chinese word segmentation.don t change the pakage and CLASS name, orelse you can t use it. * 请不要改变包名、类名以及native的方法名,否则调用将失效。 * 由于ICTCLAS本身存在很多鲁棒性问题,调用segSentence时,string参数请保证不要过长或带有乱码。调用次数过多(如处理几十G的数据)会有可能造成内存溢出。 * 故基本只能用于较小规模数据(相对几十G来说)。 * 请运行时设置jvm足够的堆栈空间。(ICTCLAS calling the JNI interface documentation : Title : Caller* ICTCLAS)
    2006-03-03 18:46:02下载
    积分:1
  • Natural Language processing with python
    说明:  python自然语言处理的中文翻译 作者: StevenBird, EwanKlein & EdwardLoper 英文出版社:O'REILLY 翻译:陈涛 提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在此书中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。 《Python自然语言处理》准备了充足的示例和练习,可以帮助你: 从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”; 分析文本语言结构,包括解析和语义分析; 访问流行的语言学数据库,包括WordNet和树库(treebank); 从多种语言学和人工智能领域中提取的整合技巧。(Natural Language processing with python)
    2018-01-12 17:52:46下载
    积分:1
  • txtLine
    Vb 读取文本数据,每次一行一行显示,以及对文本字符串的分割。(read text data, each party and his party, and the text string segmentation.)
    2006-11-28 17:04:41下载
    积分:1
  • VisualC
    在Visual C~(++)中使用Unicode编程,世界上有数百种用计算机指定一个数字,来储存字母或其他字符的编码系统。(In Visual C ~(++) use Unicode programming, there are hundreds of the world, with a number assigned to the computer to store letters or other characters in the coding system.)
    2010-09-03 11:47:29下载
    积分:1
  • ViewPage
    联系人拖动后动态显示滑动到的拼音的首字母(Dynamic display after the first letter of the sliding contact to drag Pinyin)
    2014-01-11 18:14:24下载
    积分:1
  • pipe
    这可是全球著名IT公司ILog的APS高级排产优化引擎,就连SAP、Oracle等ERP中的物料需求计划与生产计划算法都来源于ILog。我研究了好久,中间的性线求解算法可真谓难呀。(This is the world s leading IT companies ILog the APS Senior Scheduling optimization engine, and even SAP, Oracle and other ERP s MRP and production planning algorithm are derived from the ILog. I have studied for a long time, Central and line algorithm that can be really difficult for me.)
    2008-04-27 23:08:23下载
    积分:1
  • bp
    说明:  针对样本决策库数据量大的问题选用基于粗糙集对提取的样本数据进行离散化(Sample library data for decision-making problem of large sample selection based on rough sets were discrete data extraction)
    2015-07-04 20:49:43下载
    积分:1
  • hanziinput
    实现按照拼音输入汉字; 功能详尽,有使用例程; (Realized in accordance with the Pinyin input Chinese characters Features detailed, there is the use of routine )
    2014-09-15 16:04:59下载
    积分:1
  • multi_channel_model
    说明:  多径信道模型,包括快衰落,慢衰落,频率选择性衰落,平坦衰落,多普勒信道等(multipath channel model, including fast fading, slow fading, frequency selective fading, flat fading, etc)
    2021-04-05 16:59:04下载
    积分:1
  • 共现矩阵
    说明:  将高维数据组转换为二维数据组,方便数据处理工作人员的数据分析,并包含自然语言处理(The multi-dimensional co-occurrence matrix is transformed into two-dimensional array form, and the high-dimensional data group is transformed into two-dimensional data group, which is convenient for data processing staff to analyze data, and includes natural language processing)
    2020-07-02 16:56:12下载
    积分:1
  • 696516资源总数
  • 106446会员总数
  • 9今日下载