欢迎来到天天文库
浏览记录
ID:35128264
大小:352.50 KB
页数:45页
时间:2019-03-19
《ictclas2010接口文档》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、kevinzhang@bit.edu.cnICTCLAS2010接口文档Http://hi.baidu.com/drkevinzhang/2010-1Onlinetestingcanbeavailableonhttp://http://hi.baidu.com/drkevinzhang//test.htmlForthelatestinformationaboutICTCLAS,pleasevisitHttp://hi.baidu.com/drkevinzhang/ICTCLASCopyright©2010KevinZ
2、hang.Allrightsreserved.45/45kevinzhang@bit.edu.cn目录ICTCLAS2010接口文档1目录2ICTCLAS介绍21.C++接口41.1ICTCLAS_Init41.2ICTCLAS_Exit51.3ICTCLAS_ImportUserDict61.4ICTCLAS_ParagraphProcess81.5ICTCLAS_ParagraphProcessA91.6ICTCLAS_FileProcess111.7ICTCLAS_GetParagraphProcessAWor
3、dCount121.8ICTCLAS_ParagraphProcessAW151.9ICTCLAS_AddUserWord161.10ICTCLAS_SaveTheUsrDic171.11ICTCLAS_DelUsrWord181.12ICTCLAS_KeyWord201.13ICTCLAS_FingerPrint211.14ICTCLAS_SetPOSmap232.JNI接口242.1ICTCLAS_Init242.2ICTCLAS_Exit262.3ICTCLAS_ImportUserDict272.4ICTCL
4、AS_ParagraphProcess292.5ICTCLAS_FileProcess302.6ICTCLAS_IsWord312.7ICTCLAS_GetUniProb332.8nativeProcAPara342.9ICTCLAS_SaveTheUsrDic362.10ICTCLAS_DelUsrWord382.11ICTCLAS_KeyWord392.12ICTCLAS_FingerPrint412.13ICTCLAS_SetPOSmap43作者简介45ICTCLAS介绍我们在多年研究工作积累的基础上,研制出了
5、汉语词法分析系统ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisICTCLASCopyright©2010KevinZhang.Allrightsreserved.45/45kevinzhang@bit.edu.cnSystem),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2010。选择ICTCLAS2008的五大理由:1.综合性能最优 分词系统
6、能否达到实用性要求主要取决于两个因素:分词精度与分析速度,这两者相互制约,难以平衡。大多数系统往往陷入“快而不准,准而不快”的窘境。我们研制出了完美PDAT大规模知识库管理技术(200510130690.3),在高速度与高精度之间取得了重大突破,该技术可以管理百万级别的词典知识库,单机每秒可以查询100万词条,而内存消耗不到知识库大小的1.5倍。基于该技术,ICTCLAS2010分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。2.
7、统一的语言计算理论框架 汉语分词牵涉到汉语分词、未定义词识别、词性标注以及语言特例等多个因素,大多数系统缺乏统一的处理方法,往往采用松散耦合的模块组合方式,最终模型并不能准确有效地表达千差万别的语言现象,而ICTCLAS采用了层叠隐马尔可夫模型(HierarchicalHiddenMarkovModel),将汉语词法分析的所有环节都统一到了一个完整的理论框架中,获得最好的总体效果,相关理论研究发表在顶级国际会议和杂志上,从理论上和实践上都证实了该模型的先进性。3.全方位支持各种环境下的应用开发 ICTCLAS全部
8、采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++/C#/Delphi/Java等主流的开发语言;4.应需而变,量身定做 所有功能模块均可拆卸组装,ICTCLAS有GB2312和BIG5版本,可分别处理目简繁体中文;支持当前广泛承认的分词和词类标准,包括计算所词类标注集ICTPOS3.0,北大标准、
此文档下载收益归作者所有