欢迎来到天天文库
浏览记录
ID:5374294
大小:828.15 KB
页数:16页
时间:2017-12-08
《ikanalyzer中文分词器v2012使用手册》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、IKAnalyzer中文分词器V2012使用手册目录1.IKAnalyzer2012介绍..................................................................................................22.使用指南......................................................................................................
2、..................53.词表扩展......................................................................................................................124.针对solr的分词器应用扩展......................................................................................145.
3、关于作者......................................................................................................................161.IKAnalyzer2012介绍IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和
4、文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。1.1IKAnalyzer2012结构设计1.2IKAnalyzer2012特性采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;在系统环境:Core2i73.4G双核,4G内存,window764位,SunJDK1.6
5、_2964位普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。1.3分词效果示例IKAnalyzer2012版本支持细粒度切分和智能切分,以下是两种切分方式的演示样例。文本原文1:IKAnalyz
6、er是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。智能分词结果:ikanalyzer
7、是
8、一个
9、开源
10、的
11、基于
12、java
13、语言
14、开发
15、的
16、轻量级
17、的
18、中文
19、分词
20、工具包
21、从
22、2006年
23、12月
24、推出
25、1.0版
26、开始
27、ikanalyzer
28、已经
29、推
30、出了
31、3个
32、大
33、版本最细粒度分词结果:ikanalyzer
34、是
35、一个
36、一
37、个
38、开源
39、的
40、基于
41、java
42、语言
43、开发
44、的
45、轻量级
46、量级
47、的
48、中文
49、分词
50、工具包
51、
52、工具
53、包
54、从
55、2006
56、年
57、12
58、月
59、推出
60、1.0
61、版
62、开始
63、ikanalyzer
64、已经
65、推出
66、出了
67、3
68、个
69、大
70、版本文本原文2:张三说的确实在理智能分词结果:张三
71、说的
72、确实
73、在理最细粒度分词结果:张三
74、三
75、说的
76、的确
77、的
78、确实
79、实在
80、在理文本原文3公路局正在治理解放大道路面积水问题智能分词结果:公路局
81、正在
82、治理
83、解放
84、大道
85、路面
86、积水
87、问题最细粒度分词结果:公路局
88、公路
89、路局
90、正在
91、治理
92、理解
93、解放
94、放大
95、大道
96、道路
97、路面
98、面积
99、积水
100、问题文本原文4据路透社报道,印度尼西亚社会事务部
101、一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡,20000余人受伤,近20万人无家可归。智能分词结果:据
102、路透社
103、报道
104、印度尼西亚
105、社会
106、事务部
107、一
108、官员
109、星期二
110、29日
111、表示
112、日
113、惹
114、市
115、附近
116、当地时间
117、27日
118、晨
119、5时
120、53分
121、发生
122、的
123、里氏
124、6.2级
125、地震
126、已经
127、造成
128、至少
129、5427人
130、死亡
131、20000
132、余人
133、受伤
134、近
135、20
136、万人
137、无家可归最细粒度分词结果:据
138、路透社
139、路透
140、社
141、报道
142、印度尼西亚
143、印度
144、尼
145、
此文档下载收益归作者所有