文本相似度计算核函数的构造及其在分布式信息检索中的应用研究

文本相似度计算核函数的构造及其在分布式信息检索中的应用研究

ID:33303743

大小:10.68 MB

页数:117页

时间:2019-02-23

文本相似度计算核函数的构造及其在分布式信息检索中的应用研究_第1页
文本相似度计算核函数的构造及其在分布式信息检索中的应用研究_第2页
文本相似度计算核函数的构造及其在分布式信息检索中的应用研究_第3页
文本相似度计算核函数的构造及其在分布式信息检索中的应用研究_第4页
文本相似度计算核函数的构造及其在分布式信息检索中的应用研究_第5页
资源描述:

《文本相似度计算核函数的构造及其在分布式信息检索中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、江苏大学博士学位论文文本相似度计算核函数的构造及其在分布式信息检索中的应用研究姓名:王秀红申请学位级别:博士专业:系统工程指导教师:鞠时光2012-06摘要随着互联网、数字图书馆以及其它信息资源的快速发展,异构形式的数据项正快速遍布于全球范围的特定的节点中,这些节点相互连接形成分布式处理系统。如何从信息的海洋中以较低的时间开销、较高的精准率和召回率提供给检索用户所需要的信息是一个极富有挑战性的问题。在信息检索(InfomationRetrieval,简称IR)领域,从空间上分布的数据服务器中检索数据就是分布式信息检索(Distm}ut

2、edInfonllationRetrieVal,简称为DIR)。DIR需要解决两个主要问题:是资源选择和结果融合。文本相似度计算技术研究的是如何计算或比较两个文本的相似性,是在语言学、心理学和信息理论等领域内被广泛研究的一个重要课题,也是信息检索、数据挖掘、知识管理、人工智能等领域的基本问题,是自然语言处理的一项基础技术,也是复制检测、新颖检测和信息过滤研究的重要内容。提高计算的精准率和召回率是文本相似度计算:号法研究的出发点和目标。如何在分布式环境下尽可能快速、准确、全面地检索到相似的文本,是本文研究的主要内容,主要研究工作包括:.

3、(1)分布式信息检索的资源选择研究。资源选择又叫服务器选择、集合选择、数据集选择或数据库选择,是分布式信息检索中的一个基本问题。本文考虑到不同的数据资源(数据集)之间存在的覆盖问题,基于集合覆盖理论,针对提问Q的检索结果:在融合排序后位置的不同,对其赋以不同的权值,用来计算该项检索结果对其所在的数据集的贡献。若检索结果在先选f江苏大学博士学位论文的数据集中出现过,则不再计入后选的数据集得分内。通过加权求和得到待选数据集的得分,从而确定资源选择的先后顺序。由此优选出的资源集合可用于检索与问题Q同类或类似的提问Q’,缩短由于数据库之间的覆

4、盖而重复检索的时间。(2)构造适于文本相似计算的混合核函数,并将其应用在DIR结果融合。基于改进的潜在语义核(LSK)和复合方差核(ANOVA)构建了新的复合核(CLA核)用于计算文本相似度。此外提出一种新DIR融合方法,通过直接计算检索结果和提问之间相关度来对检索结果进行融合研究。将构造的新复合核用于DIR结果融合,实验结果表明:CLA核的融合精度和召回率分别仅略次于LSK和ANOVA核,但其综合评价指标Fl优于其它核;其融合精度比经典的算法Round.robin、CoHlMNz、Bayesian、Borda、SDM、MEM和reg

5、ressionSVM等分别提高了16.79%、30.73%、20.37%、24.17%、14.25%、13.50%和7.53%。CLA核具有较好的融合表现,适用于DIR结果融合。(3)构造全新的文本相似度计算核函数,并将其应用于DIR结果融合中。为了进一步提高文本相似计算的表现,构造了全新的核函数S_Wang核函数。结合文本相似计算过程中的具体实际,将待比对的文本表示成向量,考虑通过两向量间的乘积和欧氏距离来描述向量之间的相似程度,从而构造了适合文本相似度计算的新的核函数。并根据Mercer定理证明了所构造的函数可以作为核函数。实验验

6、证了新造的核函数在文本文档相似度计算中的表现,实验结果表明S_Wang核其相似度计算精度和综合指标均分别优二于Cauchy核,潜在语义核(LSK)以及CLA复合核。S_Wang核适II摘要用于文本相似度计算。(4)分布式信息检索评价方法研究。资源选择和结果融合是DIR研究的两个主要步骤。检索的时间开销、精准率和召回率是IR也是DIR检索的三个主要指标。本文提出一种基于多变量的偏微分方程模型,从拉普拉斯方程出发,提出针对DIR的资源选择和结果融合的时间开销、精准率和召回率三指标的评价方法。实验评价了多种现有的资源选择和结果融合方法,验证

7、了模型的有效性。,基于50个主题的TREC实验结果表明该多变量偏微分方程模型在DIR评价:方面有很好的表现和实际的应用。关键词:文本相似度,核函数,分布式信息检索,资源选择,结果融合江苏大学博士学位论文————————————————————————————————————————————————————————一_IVABSTRACTWithther印id黟owthoftllei11temet,di西tallibr撕esandotherinfonllationsource,dataitemsarespreadingacrossa11

8、thewo订dwidewithheterogeneousdatastmcturetonodalpoints.Theconnectionsofthosenodalpointsbuildthedistributedinfon

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。