中文搜索引擎技术

中文搜索引擎技术

ID:5295226

大小:6.20 MB

页数:18页

时间:2017-12-07

中文搜索引擎技术_第1页
中文搜索引擎技术_第2页
中文搜索引擎技术_第3页
中文搜索引擎技术_第4页
中文搜索引擎技术_第5页
资源描述:

《中文搜索引擎技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第八章中文搜索引擎技术第一节中文分词技术分词技术简述百度分词技术分词中的难题与发展第二节拼写检查错误提示第三节相关提示功能分析第四节CACHE结构CACHE的实现原理三级CACHE的设计Info.Retrievalwww.ecteach.com一.什么是中文分词把中文的汉字序列切分成有意义的词。例:我/是/一个/学生二.分词技术简述1.基于字符串匹配的分词方法按照一定的策略将待分析的汉字串与一个机器词库中的词条进行匹配。常用分词方法:正向最大匹配法(由左到右的方向)例:我/有意/见/分歧反向最大匹配法例:我/有/意见/分歧统计结果表

2、明:单纯使用正向最大匹配的错误率为1/169,单纯使用反向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。Info.Retrievalwww.ecteach.com2.基于统计的分词方法相邻的字同时出现的次数越多,就越有可能构成一个词。用于系统自动识别新词。3.基于理解的分词方法在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。Info.Retrievalwww.ecteach.com三.百度分词技术分析1.最大分词词长:对于大于等于小于等于4个汉字的词将被分词3个中文字不切割。Info.Retrievalw

3、ww.ecteach.com2.分词算法:查询:“工地方向导”正向最大匹配:工地/方向/导反向最大匹配:工/地方/向导Info.Retrieval百度采用正向最大匹配算法www.ecteach.com查询:邓小平安定军山正向最大匹配:邓小平/安定/军/山百度分词:邓小平/安/定军山Info.Retrieval结论:百度识别人名、影视、戏剧名等专用词www.ecteach.com,专用词库分词时优先。查询:何润东西南北(“何润东”、“东西南北”两个词)正向最大匹配:何润东/西/南北归纳:首先用专有词典采用最大正向匹配分词,切分出部分结果;剩余没有

4、切分交给普通词典,同样采取正向最大匹配分词。Info.Retrievalwww.ecteach.com四.分词中的难题1.歧义识别「这个门把手坏了」-「把手」是个词;「请把手拿开」-「把手」不是一个词;「元帅任命了一名中将」-「中将」是个词;「产量三年中将增长两倍」-「中将」不再是词。真歧义「乒乓球拍卖完了」可以切分成「乒乓球拍卖完了」、也可切分成「乒乓球拍卖完了」。2.新词识别就是那些在字典中没收录过,但又确实能称为词的那些词。「吴官正在吉林考察」收录人名本身是一项巨大的工程「听说温家宝物非常多」过多专用人名的收录很容易出现问题Info.R

5、etrievalwww.ecteach.com五.最新进展设计目标:1.无长度限制2.歧义包容:将出现歧义的各种可能性都包含进去,作为分词的参考。方案:将关系数据库的词按字打散,并存放到层次数据库中。特色:分词长度限制,词的长度变成了树的高度,每一次的匹配变成了树的遍历。感冒感冒解痛散感冒解痛颗粒Info.Retrieval感冒解痛灵茶等都能匹配www.ecteach.com一.实例分析百度维持着一个同音词词典,多音字不区分百度的中文纠错和拼音检索使用的机制相同。百度是将分词词典里面每个词条利用拼音标注程序标注成拼音。查询:罗华世界有风军

6、词长不限,专用词全部标注Info.Retrievalwww.ecteach.com二.错误提示流程用户输入匹配查分词词典不做拼写检查不匹配利用拼音标注程序对用户输入进行拼音标注不匹配在同音词词典不做提示里面扫描拼音提示匹配流程输出权重比较大的几个提示结果Info.Retrievalwww.ecteach.com一.如何获得用户的查询信息可对搜索引擎用户查询日志(LOG)文件做查询归类。二.如何选择提示词对于用户查询进行分词,然后对于分词后的结果来进行相似性计算。“娱乐新闻报道”和“新闻娱乐报道”的相关提示完全一样。Info.Retrievalw

7、ww.ecteach.com三.如何计算相似性并排序输出为什么增加的是“娱乐报道”和“新闻报道”的相关提示呢?Info.Retrievalwww.ecteach.com设每个单词都有一个权重值IDF(word)=log(N/DF(word))注:N为百度收录的网页总数,设为10亿;DF(word)是包含单词word的网页数目得:IDF(娱乐)=log(10/0.325)=1.488IDF(新闻)=log(10/0.563)=1.249IDF(报道)=log(10/0.172)=1.764权重是报道>娱乐>新闻IDF(娱乐,新闻,报道)=IDF(

8、娱乐)+IDF(娱乐)+IDF(娱乐)=4.501IDF(娱乐,新闻,报道)>IDF(娱乐,报道)>IDF(新闻,报道)查询权重相同,则按照用户查询次

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。