欢迎来到天天文库
浏览记录
ID:30431746
大小:55.04 KB
页数:3页
时间:2018-12-29
《[计算机]搜索结果聚类论文:基于ontology的web文本聚类研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、搜索结果聚类论文:基于Ontology的Web文本聚类研究【中文摘要】随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网,2010年中国的网页数量高达336亿,其中87.8%的数据是以文本的形式存在。因此对文本信息的挖掘是从互联网上获取知识的重要途径。聚类技术在信息检索领域有着广泛的应用,有很多非常成熟的算法在各个方面承担着重要角色。传统的搜索引擎以列表的形式返回搜索结果,对于一个模糊的、语义不明确的、或者属于多个主题的查询词,不同语义、不同主题的搜索内容可能分散在长长的列表中,用户不得不花费大量的精力和时间从中查找符合
2、自己查询意图的目标结果。这种情况下,一方面降低了搜索结果的质量,另一方面也使用户的满意度大打折扣。研究人员为解决此类问题提供了许多方法,其中对搜索引擎返回结果进行聚类成为解决这一问题的有效途径,并在实践中被不断的完善。Vivisimo,InfonetwareRealTermSearch都是非常成功的商业聚类搜索引擎。搜索结果聚类系统的输入通常是由传统搜索引擎响应用户查询所返回的一个搜索结果集,其中每一个搜索结果由题目、文本摘要和原始页面链接组成。输出是对结果集进行聚类后得到的一组...【英文摘要】InthefirstannualORGforum,Beckst
3、rompointedthat25%oftheworldusestheinternetbycomputertoday~([1]),aconservativeestimateof1.75billion.AccordingstatecouncilinformationofficeministerChenWang’sspeech:OnChina’sInternetdevelopmentandmanagement,thenumberofWebpagesinchinahasreached33.6billionby2010and87.8%isintextformonthe
4、Internet~([2]).Obviously,internetsinfiltratespeople’slearning,workandplaywelleveryaspectoflifewithunimaginablespeed.Sote...【关键词】搜索结果聚类后缀树关联度计算本体聚簇标签【英文关键词】searchresultsclusteringsuffixtreeassociationcalculationontologyclusterlabels【目录】基于Ontology的Web文本聚类研究摘要4-6Abstract6-71绪论10-161.1
5、课题研究的背景和意义10-111.2国内外研究现状11-141.3本文的主要研究内容14-162Web文本聚类的背景知识16-222.1文本聚类16-192.1.1文本聚类的过程16-172.1.2文本聚类算法的分类17-192.2搜索结果聚类19-202.3搜索结果聚类引擎的结构20-222.3.1搜索结果获得模块212.3.2搜索结果预处理模块212.3.3搜索结果聚类模块212.3.4搜索结果可视化模块21-223中文网页的搜索结果聚类22-313.1后缀树聚类22-243.1.1后缀树22-243.1.2后缀树聚类243.2中文搜索结果后缀树模型的构
6、建24-303.2.1搜索结果预处理25-263.2.2识别具有较完整语义信息的短语263.2.3文本后缀树模型相关集合的定义26-283.2.4基类关联度的计算28-303.3本章小结30-314基于本体的聚类标签提取方法31-394.1本体的应用31-324.2基类贡献度计算32-364.2.1提取高频短语32-344.2.2基于基类中词语的词性进行权重分配34-364.3基于本体的提取方法36-374.4本章内容总结37-395实验39-545.1系统构建395.2实验过程39-505.2.1后缀树文本模型的演示39-435.2.2后缀树文本模型的构建
7、43-505.3结果分析50-545.3.1评价指标50-515.3.2对比策略51-525.3.3结果分析52-54结论54-56参考文献56-60攻读硕士学位期间学术论文及科研情况60-61致谢61-62
此文档下载收益归作者所有