中科院计算所ictclas0接口文档

中科院计算所ictclas0接口文档

ID:23662169

大小:199.00 KB

页数:34页

时间:2018-11-09

中科院计算所ictclas0接口文档_第1页
中科院计算所ictclas0接口文档_第2页
中科院计算所ictclas0接口文档_第3页
中科院计算所ictclas0接口文档_第4页
中科院计算所ictclas0接口文档_第5页
资源描述:

《中科院计算所ictclas0接口文档》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、www.ictclas.org中科院计算所ICTCLAS5.0接口文档http://www.ictclas.org2010-12Onlinetestingcanbeavailableonhttp://www.ictclas.orgForthelatestinformationaboutICTCLAS,pleasevisithttp://www.ictclas.orgGolaxyLtd.Copyright©2010Allrightsreserved.34/34www.ictclas.org目录1.关于字符编码参数说明61.1c/c++中为枚举值,如下:61

2、.2Jni中定义为int型,分别对应如下:62.C++接口62.1ICTCLAS_Init62.2ICTCLAS_Exit82.3ICTCLAS_ImportUserDict92.4ICTCLAS_ParagraphProcess112.5ICTCLAS_ParagraphProcessA122.6ICTCLAS_FileProcess152.7ICTCLAS_SetPOSmap162.8ICTCLAS_GetWordId172.9ICTCLAS_ResultFree183.JNI接口193.1ICTCLAS_Init193.2ICTCLAS_Exit2

3、13.3ICTCLAS_ImportUserDict223.4ICTCLAS_ParagraphProcess243.5ICTCLAS_FileProcess263.6ICTCLAS_SetPOSmap273.7ICTCLAS_GetWordID293.8ICTCLAS_nativeProcAPara304.C#接口334.1ICTCLAS_ParagraphProcessAW33GolaxyLtd.Copyright©2010Allrightsreserved.34/34www.ictclas.orgICTCLAS介绍:中国科学院计算技术研究所在多年研

4、究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS的技术优势:1.综合性能最优分词系统能否达到实用性要求主要取决于两个因素:分词精度与分析速度,这两者相互制约,难以平衡。大多数系统往往陷入“快而不准,准而不快”的窘境。我们研制出了完美PDAT大规模知识库管理技术(200510130690.3),在高速度与高精度之间取得了重大突破,该技术可

5、以管理百万级别的词典知识库,单机每秒可以查询100万词条,而内存消耗不到知识库大小的1.5倍。基于该技术,ICTCLAS分词速度单机996KB/s,分词精度98.45%,API不超过200KB,是当前世界上最好的汉语词法分析器。2.统一的语言计算理论框架  汉语分词牵涉到汉语分词、未定义词识别、词性标注以及语言特例等多个因素,大多数系统缺乏统一的处理方法,往往采用松散耦合的模块组合方式,最终模型并不能准确有效地表达千差万别的语言现象,而ICTCLAS采用了层叠隐马尔可夫模型(HierarchicalHiddenMarkovModel),将汉语词法分析的所

6、有环节都统一到了一个完整的理论框架中,获得最好的总体效果,相关理论研究发表在顶级国际会议和杂志上,从理论上和实践上都证实了该模型的先进性。3.全方位支持各种环境下的应用开发ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++/C#/Delphi/Java等主流的开发语言;支持GBK编码分词,同时支持UTF-8编码和Big5编码分词;GolaxyLtd.Copyright©2010Allrightsreserved.34/34www.ictclas.org支持繁体中文分词;支持多线程分词。4.应需

7、而变,量身定做  所有功能模块均可拆卸组装,ICTCLAS支持GBK、UTF-8等编码,同时支持BIG5,可处理简繁体中文;支持当前广泛承认的分词和词类标准,包括计算所词类标注集ICTPOS3.0,北大标准、滨州大学标准、国家语委标准、台湾“中研院”、香港“城市大学”;用户可以直接自定义输出的词类标准,定义输出格式;用户可以根据自己的需求,进行量身自助式定做适合自己的分词系统。5.国内和国际权威的公开评测、五万客户的认可  有些公司为了商业目的,关门自测,自称准确度99.50%,没有介绍测试环境和测试方法,封闭测试或者小规模的开放测试准确度100%都不足

8、为奇的,ICTCLAS1.0在国内973专家组组织的评测中活动获得了第一名,IC

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。