欢迎来到天天文库
浏览记录
ID:52962513
大小:741.59 KB
页数:18页
时间:2020-04-03
《IKAnalyzer中文分词器V328使用手册.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、IKAnalyzer中文分词器V3.2使用手册目录1.IKAnalyzer3.X介绍......................................................................................................22.使用指南.......................................................................................................
2、.....................53.词表扩展..........................................................................................................................144.针对solr的分词器应用扩展......................................................................................
3、..165.关于作者..........................................................................................................................181.IKAnalyzer3.X介绍IKAnalyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结
4、合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.X则发展为面吐Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。1.1IKAnalyzer3.X结构设计1.2IKAnalyzer3.X特性采用了特有的“正吐迭代最细粒度切分算法“,具有80万字/秒的高速处理能力。采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。优化的词典存储
5、,更小的内存占用。支持用户词典扩展定义针对Lucene全文检索优化的查询分析器IKQueryParser(作者吏血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。1.3分词效果示例IKAnalyzer3.2.8版本支持细粒度切分和最大词长切分,以下是两种切分方式的演示样例。文本原文1:IKAnalyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最大词长分词结果
6、:ikanalyzer
7、是
8、一个
9、开源
10、的
11、基于
12、java
13、诧言
14、开发
15、的
16、轻量级
17、的
18、中文
19、分词
20、工具包
21、从
22、2006
23、年
24、12
25、月
26、推出
27、1.0
28、版
29、开始
30、ikanalyzer
31、已经
32、推出
33、出了
34、3
35、个
36、大
37、版本最细粒度分词结果:ikanalyzer
38、是
39、一个
40、一
41、个
42、开源
43、的
44、基于
45、java
46、诧言
47、开发
48、的
49、轻量级
50、量级
51、的
52、中文
53、分词
54、工具包
55、工具
56、从
57、2006
58、年
59、12
60、月
61、推出
62、1.0
63、版
64、开始
65、ikanalyzer
66、已经
67、推出
68、出了
69、3
70、个
71、大
72、版本文本原文2:作者博客:linliang
73、yi2007.javaeye.com电子邮件:linliangyi2005@gmail.com最大词长分词结果:作者
74、博客
75、linliangyi2007.javaeye.com
76、电子邮件
77、linliangyi2005@gmail.com最细粒度分词结果:作者
78、博客
79、linliangyi2007.javaeye.com
80、linliangyi
81、2007
82、javaeye
83、com
84、电子邮件
85、linliangyi2005@gmail.com
86、linliangyi
87、2005
88、gmail
89、com文本原文3古田县城
90、关六一四路四百零五号最大词长分词结果:古田县
91、县城
92、城关
93、六一四
94、路
95、四百零五
96、号最细粒度分词结果:古田县
97、古田
98、县城
99、城关
100、六一四
101、六一
102、四
103、路
104、四百零五
105、四
106、百
107、零
108、五
109、号文本原文4曙光天阔I620r-G/A950r-F夏普SH9020C最大词长分词结果:曙光
110、天
111、阔
112、i620r-g
113、a950r-f
114、夏普
115、sh9020c最细粒度分词结果:曙光
116、天
117、阔
118、i620r-g
119、i
120、620
121、r
122、g
123、a950r-f
124、a
125、950
126、r
127、f
128、夏普
129、
此文档下载收益归作者所有