信息检索中的相关反馈技术研究

信息检索中的相关反馈技术研究

ID:33534956

大小:2.10 MB

页数:70页

时间:2019-02-26

信息检索中的相关反馈技术研究_第1页
信息检索中的相关反馈技术研究_第2页
信息检索中的相关反馈技术研究_第3页
信息检索中的相关反馈技术研究_第4页
信息检索中的相关反馈技术研究_第5页
资源描述:

《信息检索中的相关反馈技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、重庆大学硕士学位论文信息检索中的相关反馈技术研究姓名:邓剑勋申请学位级别:硕士专业:计算机软件与理论指导教师:邢永康20070410重庆大学硕士学位论文中文摘要摘要信息检索时,需求的模糊导致查询结果不尽人意。为使检索更有效,需采用各种相关反馈途径对检索策略进行修改,以发现用户的信息需求。近年来,研究者提出了基于各种检索模型下的反馈方法,比较突出的有向量空间模型和概率模型。在本文中首先系统地介绍了信息检索以及各种检索模型下的相关反馈技术。在对反馈技术进行仔细分析的前提下,本文提出了如下创新:首先分析了向量空间模型及其中的相关反馈。研究发现,向量空间模型检索精度及其中相关反馈的查

2、准率,都在一定程度上受到原始矩阵中数据准确度的影响。传统的权值构造方法是词频.逆文档频率法及其扩展方法。这些方法在处理Web文档的时候,没有考虑到不同Web标签中同一词汇的影响程度有所不同这一特点,故不能准确地反映文档集特点。本文提出了Web标签影响因子算法,通过对大量的训练文档进行分析,从而获得比较准确的标签因子,用其对原始矩阵数据进行了一定程度的精化。通过实验,发现对改善系统查准率有一定帮助。文中重点分析了概率潜在语义模型中的相关反馈技术。首先对PAM算法进行了初始k点选择优化,优化技术为辐射场,并对辐射场技术中每个参数的选择提出了具体的解决办法。在概率潜在语义模型的基础

3、上,结合这种改良的聚类算法本文提出了新的相关反馈流程。用概率潜在语义模型构造的数据矩阵为本次研究的基础数据,用k一中心点算法(PAIM)的聚类结果来近似的拟合潜在语义类别。由于聚类的结果只与输入矩阵的数据有关;而建立概率潜在语义模型的算法,其唯一依据也是原始矩阵数据;若将PAM算法中聚类个数限定为潜在语义类的类别数目,就可以认为二者有较强的联系,可以用聚类结果类别来近似拟合潜在语义类。类别拟合完毕以后,文中还给出了类标题生成方法,且构建了反馈后对原始查询的查询词扩展方法。用查全率和查准率两个指标来衡量改良后的检索结果,实验数据表明,系统性能在一定程度上得到了改善。关键词:信息

4、检索,相关反馈,标签影响因子,辐射场,类标题生成,查询词扩展重庆大学硕士学位论文英文摘要ABSTRACTIntheprocessingofinformationretrieval,theunsatisfactoryresultalwaysduetotheuncertaindemands.Foramoreeffectiveretrievalsystem,Weshouldtakesomeactionstoadjusttheresearchstrategytofindtheprecisedemand.Recently,researchersbringoutdifferentfeed

5、backmethodsbascdondifferentmodels.AndtherearesomeimportantmodelsWeshouldtoknow.suchasvectorspacemodelorprobabilitymodel.BaSedonthecarefulanalysisinfeedbacktechnology,weputoutsomeinnovationsaSthefollowing:Firstlyweanalyzethevectorspacemodelandthefeedbacktechnologybasedonit.AsaresultWefind.th

6、eprecisionbothinretrievalprocessingandinfeedbacktechnologyareinfluencedbytheprecisionofprimitivematrixdata.Traditionally,thedatainmatrixalwaysbeinducedfromtf-idfmethodortheimprovedone.Buteverytraditionalmethoddoesnottakeallimportantfactorintoaccount.Thatis.awordinwebdocumentwhichlieinthemid

7、dleofahtmltagmaybehavethedifferentimportancecontrastbythesameoneinotherhtmltag.SothedatawhichcomaSfromtraditionalmethodcannotreflecttherealcharactorsofdocuments.Anarithmetic,whichisdesignedforcalculatethetag’sinfluencefactor,WaSputforwardinthisarticle.It

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。