-
ICTCLASCaller
说明: ICTCLAS的JNI调用接口文件:
Title:ICTCLAS Caller
* <p>Description:do chinese word segmentation.don t change the pakage and CLASS name, orelse you can t use it.
* 请不要改变包名、类名以及native的方法名,否则调用将失效。
* 由于ICTCLAS本身存在很多鲁棒性问题,调用segSentence时,string参数请保证不要过长或带有乱码。调用次数过多(如处理几十G的数据)会有可能造成内存溢出。
* 故基本只能用于较小规模数据(相对几十G来说)。
* 请运行时设置jvm足够的堆栈空间。(ICTCLAS calling the JNI interface documentation : Title : Caller* ICTCLAS)
- 2006-03-03 18:46:02下载
- 积分:1
-
raw
说明: 10个中文分词数据集,用于训练中文分词模型(Ten Chinese Word Segmentation Datasets for Training Chinese Word Segmentation Model)
- 2021-01-06 11:48:53下载
- 积分:1
-
GB2312ToUnicode
GBK 转 unicode 提供二分法查询(translate the gbk to the unicode,with the bianary search way)
- 2009-12-31 13:17:44下载
- 积分:1
-
tranditionized
中文简繁转换 GreenBrowser/TheWorld2.0插件(Tranditional Chinese Script Conversion GreenBrowser/TheWorld2.0 Plug-in)
- 2010-02-24 19:20:05下载
- 积分:1
-
Natural Language processing with python
说明: python自然语言处理的中文翻译
作者: StevenBird, EwanKlein & EdwardLoper
英文出版社:O'REILLY
翻译:陈涛
提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在此书中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。
《Python自然语言处理》准备了充足的示例和练习,可以帮助你:
从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”;
分析文本语言结构,包括解析和语义分析;
访问流行的语言学数据库,包括WordNet和树库(treebank);
从多种语言学和人工智能领域中提取的整合技巧。(Natural Language processing with python)
- 2018-01-12 17:52:46下载
- 积分:1
-
rub
ruby script for internal DSL requirement..
- 2009-06-25 02:24:57下载
- 积分:1
-
12
说明: 全新图片防盗链全能后台版 for PW5.X 正式版(GBK、BIG5、UTF8一起发) 说明: 1、所有参数均可后台设置,没有任何功能限制。 2、支持完全防盗链和当天有效两种模式,禁止盗链时显示设定的图片。 3、允许自定义允许链接的域名,自定义防盗链图片地址。(The new version of the background image anti-hotlinking Almighty for PW5.X official version (GBK, BIG5, UTF8 hair together): 1, all parameters can be set back, without any functional limitations. 2, supports full security chain and effective the same day in two modes, the display setting of the pictures is prohibited hotlinking. 3, allows custom links allows domain name, custom anti-hotlinking image address.
)
- 2016-06-29 21:59:33下载
- 积分:1
-
PC2MDB_JAVA
The MDB interface brings the information technology and vending machine technology
together. At the vending machine interface connector are four serial ports to connect any
combination of vending machine controllers and MDB peripherals. It offers a MDB master
port, MDB slave port and two serial RS-232 ports.
- 2017-06-13 05:06:43下载
- 积分:1
-
lucene
java中lucene的源代码,用于文本分类的一个很好的工具,是由一个著名的语言研究者编写的(lucene code for java)
- 2009-03-30 17:28:22下载
- 积分:1
-
4305685
应用中文分词源码程序,结合易语言模块彗星HTTP应用模块.ec,实现中文分词的效果。(Application of Chinese Word source program, combined with easy language module Comet HTTP application modules .ec, realize the effect of the Chinese word .)
- 2017-01-11 23:13:31下载
- 积分:1