信息检索技术 第四章 文本操作技术 (2)

信息检索技术 第四章 文本操作技术 (2)

ID:33927383

大小:435.01 KB

页数:52页

时间:2019-02-28

信息检索技术 第四章 文本操作技术 (2)_第1页
信息检索技术 第四章 文本操作技术 (2)_第2页
信息检索技术 第四章 文本操作技术 (2)_第3页
信息检索技术 第四章 文本操作技术 (2)_第4页
信息检索技术 第四章 文本操作技术 (2)_第5页
资源描述:

《信息检索技术 第四章 文本操作技术 (2)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第四章文本操作技术-拼写检查1概述当用户输入的查询中存在拼写错误时,IR系统的鲁棒性处理技术。文本编辑软件,Word、WPS,中的拼写检查功能。IR系统中的拼写检查。举例:输入查询Mircosoft,Google会提示“您是不是要找:Microsoft”2011/11/1321概述拼写错误的两种类型上下文无关的错误(isolated-worderror),也叫非词错误,即输入的词是一个无效词,在字典中不存在。例如:the错为teh;reluctant错为reluctent上下文有关的错误(context-dependentworderror),也

2、叫真词错误,即输入的词是和原词相似的另一个有效词。例如:Ihaveapeaceofcake.peace(piece)“撼祖国强强,盛,卫京都泰安“,撼(()捍)2011/11/1331概述拼写错误的两种类型上下文无关的错误。上下文有关的错误由于字形和读音的相似而导致的输入错误。例如:hear错为here;it’s错为its。“再接再励”,励(厉)“年轻有为”,轻(青)由于用法上的相似而导致的错误。例如:between错为among;在文化建设方面,北京市首当其冲。2011/11/1341概述拼写错误的任务查错,即判断目标词是否正确。纠错,即对错

3、误的单词给出修改建议。2011/11/1351概述拼写错误的任务查错,即判断目标词是否正确。词表查找形态还原相似度计算纠错,即对错误的单词给出修改建议。2011/11/1361概述拼写错误的任务查错,即判断目标词是否正确。纠错,即对错误的单词给出修改建议。对于拼拼错误写错误的查询,其,在其可能的正确拼中,确拼写中,选择距离“最近”的那一个。当两个正确拼写查询的距离相等时,选择更常见的那一个。(1)统计文档集频率,(2)统计其他用户常用的搜索查询用词。邹结论->周杰伦or周结论2011/11/1371概述在IR中,拼写检查的功能通过以下几

4、种方式将搜索结果返回给用户:输入查询“李艳红”,IR系统往往在返回包含“李艳红”的文档的同时,也返回包含“李艳红”多种可能的拼写校正结果的文档。当查询不在词典时,采用编辑距离寻找最近邻词当原始的查询返回的文档结果数目少于预定值(比如少于5篇文档)时,采用编辑距离计算最近邻词或者给出拼写建议“您是在找…吗?”。2011/11/1382动态规划算法适合采用动态规划方法的最优化问题的两个基本要素:最优子结构:如果一个问题的最优解中包含子问题的最优解,则该问题具有最优子结构。重叠子问题:当一个算法不断的调用同一个问题时,我们说该最有问题包含重叠子问题。举例

5、:Fibonacci函数:F=F+Fnn-1n-2F=F=1122011/11/1392动态规划算法动态规划算法设计的四个步骤:描述最优解的结构。递归定义最优解的值。按照自底向上的方式计算最优解。构造最优解。2011/11/13102动态规划算法问题描述两条装配线,每条装配线上有n个装配站,在两条装配线上相同位置的装配站完成相同的功能,但装配时间不同。在同一条装配线的装配站之间移动底盘不需花费额外的时间,但是移到另外一条装配线上则需额外的时间。求从底盘进入到底盘离开的最短的时间。2011/11/13112动态规划算法S1,1S1,2S1,3S1,

6、4S1,5S1,6装配线17934842323134底盘进入完成退出2122142856457装配线2S2,1S2,2S2,3S2,4S2,5S2,62011/11/13122动态规划算法最优子结构通过装配站S的最快路线只能是以下两者之一1,j通过装配站S,然后直接通过装配站S;1,j-11,j通过装配站S,从装配站S移走底盘,然后通2,j-12,j-1过装配站S;1,j通过装配站S的最快路线只能是以下两者之一:2,j通过装配站S,从装配站S移走底盘,然后通1j1,j-11j1,j-1过装配站S;2,j通过装配站S,然后直接通过装配站S;2,j-

7、12,j2011/11/13132动态规划算法一个递归解令f[j]表示一个底盘从起点到装配站S的最快时ii,,jj间,e进入装配线的时间,x离开装配线的时间,aiii,j在装配站s的装配时间,t从装配站s移除的时间i,ji,ji,j。求解:f*=min(f[n]+x,f[n]+x)1122递归解:e+a11,1j=1f[j]=1min(f[j-1]+amin(f[j-1]+a11,j,f[j-1]+tf[j-1]+t22,j-1+a)1,jj>1j>1e+aj=122,1f[j]2=mi(f[j1]in(f[j1-1]+t1,j-1

8、+a,2,jf[jf[j1]2-1]+

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。