登录
首页 » Others » raw

raw

于 2021-01-06 发布
0 395
下载积分: 1 下载次数: 19

代码说明:

说明:  10个中文分词数据集,用于训练中文分词模型(Ten Chinese Word Segmentation Datasets for Training Chinese Word Segmentation Model)

文件列表:

raw, 0 , 2019-02-10
raw\other, 0 , 2019-02-10
raw\other\zx, 0 , 2019-02-10
raw\other\zx\test.zhuxian.wordpos, 280885 , 2019-02-10
raw\other\zx\train.zhuxian.wordpos, 559793 , 2019-02-10
raw\other\zx\dev.zhuxian.wordpos, 166113 , 2019-02-10
raw\other\cnc, 0 , 2019-02-10
raw\other\cnc\dev.txt, 5581923 , 2019-02-10
raw\other\cnc\train.txt, 44824963 , 2019-02-10
raw\other\cnc\test.txt, 5571735 , 2019-02-10
raw\other\udc, 0 , 2019-02-10
raw\other\udc\dev.conll, 422116 , 2019-02-10
raw\other\udc\test.conll, 400684 , 2019-02-10
raw\other\udc\train.conll, 3282103 , 2019-02-10
raw\other\wtb, 0 , 2019-02-10
raw\other\wtb\dev.conll, 49336 , 2019-02-10
raw\other\wtb\test.conll, 49702 , 2019-02-10
raw\other\wtb\train.conll, 393054 , 2019-02-10
raw\other\sxu, 0 , 2019-02-10
raw\other\sxu\train.txt, 3600697 , 2019-02-10
raw\other\sxu\test.txt, 776035 , 2019-02-10
raw\other\ctb, 0 , 2019-02-10
raw\other\ctb\ctb6.dev.seg, 300375 , 2019-02-10
raw\other\ctb\ctb6.train.seg, 4030528 , 2019-02-10
raw\other\ctb\ctb6.test.seg, 312025 , 2019-02-10
raw\sighan2005, 0 , 2019-02-10
raw\sighan2005\cityu_test_gold.utf8, 239427 , 2019-02-10
raw\sighan2005\msr_training.utf8, 16804586 , 2019-02-10
raw\sighan2005\cityu_training.utf8, 8499903 , 2019-02-10
raw\sighan2005\as_test_gold.utf8, 711891 , 2019-02-10
raw\sighan2005\pku_test_gold.utf8, 716386 , 2019-02-10
raw\sighan2005\as_training.utf8, 30558193 , 2019-02-10
raw\sighan2005\msr_test_gold.utf8, 762801 , 2019-02-10
raw\sighan2005\pku_training.utf8, 7709182 , 2019-02-10

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • tranditionized
    中文简繁转换 GreenBrowser/TheWorld2.0插件(Tranditional Chinese Script Conversion GreenBrowser/TheWorld2.0 Plug-in)
    2010-02-24 19:20:05下载
    积分:1
  • HMM
    说明:  HMM中文分词,基于隐马尔科夫模型 。需要进行训练后试验(Word Segmentation Based on Hidden Markov Model)
    2019-04-07 11:58:08下载
    积分:1
  • m_seq
    此函数用来生成最大长度线性移位寄存器序列(m序列)(This function used to generate the maximum length linear shift register sequence (m sequence))
    2008-05-05 19:37:59下载
    积分:1
  • usart
    this is some code fjhg ldfh ldfgh ldfkjhg dlkjfhg dlkf gdlkf g
    2017-05-25 05:34:16下载
    积分:1
  • CIPP_JSsetup
    可以实现自动分词功能,支持自动标引,是处理中文自然语言的良好工具(Can achieve automatic word segmentation function, support for automatic indexing is a good tool to deal with Chinese natural language)
    2020-09-24 19:27:48下载
    积分:1
  • Natural Language processing with python
    说明:  python自然语言处理的中文翻译 作者: StevenBird, EwanKlein & EdwardLoper 英文出版社:O'REILLY 翻译:陈涛 提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在此书中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。 《Python自然语言处理》准备了充足的示例和练习,可以帮助你: 从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”; 分析文本语言结构,包括解析和语义分析; 访问流行的语言学数据库,包括WordNet和树库(treebank); 从多种语言学和人工智能领域中提取的整合技巧。(Natural Language processing with python)
    2018-01-12 17:52:46下载
    积分:1
  • luyfSearch2.0.tar
    一个中文分词开发包,可以用到搜索引擎的开发当中,比较好用。(A Chinese word segmentation development kit, you can use search engine in development and are relatively easy to use.)
    2009-11-05 10:09:53下载
    积分:1
  • MultiLanguage
    程序实现多国语言的动态切换解决方案(procedures for multi-language dynamic switching solutions)
    2004-09-22 16:50:36下载
    积分:1
  • multi_channel_model
    说明:  多径信道模型,包括快衰落,慢衰落,频率选择性衰落,平坦衰落,多普勒信道等(multipath channel model, including fast fading, slow fading, frequency selective fading, flat fading, etc)
    2021-04-05 16:59:04下载
    积分:1
  • pipe
    这可是全球著名IT公司ILog的APS高级排产优化引擎,就连SAP、Oracle等ERP中的物料需求计划与生产计划算法都来源于ILog。我研究了好久,中间的性线求解算法可真谓难呀。(This is the world s leading IT companies ILog the APS Senior Scheduling optimization engine, and even SAP, Oracle and other ERP s MRP and production planning algorithm are derived from the ILog. I have studied for a long time, Central and line algorithm that can be really difficult for me.)
    2008-04-27 23:08:23下载
    积分:1
  • 696518资源总数
  • 105901会员总数
  • 40今日下载