试论文本聚类及其在web社区搜索中的应用

试论文本聚类及其在web社区搜索中的应用

ID:34799259

大小:1.88 MB

页数:62页

时间:2019-03-11

试论文本聚类及其在web社区搜索中的应用_第1页
试论文本聚类及其在web社区搜索中的应用_第2页
试论文本聚类及其在web社区搜索中的应用_第3页
试论文本聚类及其在web社区搜索中的应用_第4页
试论文本聚类及其在web社区搜索中的应用_第5页
资源描述:

《试论文本聚类及其在web社区搜索中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学院计算技术研究所硕士学位论文文本聚类及其在Web社区搜索中的应用姓名:刘务华申请学位级别:硕士专业:计算机软件与理论指导教师:王文杰20060601摘要随着Web的不断发展和数据量的增加,Web用户越来越依靠搜索引擎来检索信息。搜索引擎用户的行为分析表明不仅需要对结果进行排序,也需要为用户构造新查询提供帮助和提示。Web社区可以为组织之间的合作和交流提供一个环境,针对社区建立的搜索引擎可以提高社区用户检索信息的效率。本文的主要工作是利用文本聚类重新组织搜索结果以提高Web社区信息检索效率'并且利用聚类验证评估了文本聚类算法的性能.论文在研究Web搜索引擎现有技术的基础上

2、分析了Web社区网站内容的特点。指出只对结果进行排序的搜索技术在搜索结果较多的情况下不足以提供高效的检索。考虑到Web社区网站内容存在初步的分类体系和具有自组织的特点,利用文本聚类的方法对搜索结果进行重新组织,能够提高搜索结果的浏览效率,并且能够为Web用户构造新查询提供帮助和提示。在研究文本聚类的一般过程的基础上,论文深入分析了层次式'k-平均,基于蚁群智能和后缀树四种典型的聚类算法,提出用聚类验证评估文本聚类算法性能。分析了聚类验证的外部标准、内部标准和基于信息熵标准,选择外部测试标准,利用标准的分类测试集合Reuters-21578文本集合对k.平均、基于蚁群智能和后缀树

3、聚类算法进行了聚类验证。实验结果表明后缀树聚类算法由于在特征选择方面充分的考虑了文本特性,引入短语特征而产生了较好的效果。论文工作基于Web抓取器,Lueene全文索引部件构建了国家重点实验室(ch.啪l曲)社区的搜索引擎系统,并且实现了按搜索结果出现位置分组的功能。对Chinalab社区搜索的性能分析表明系统能够满足Web社区内的信息检索要求。论文工作还实现了搜索结果的聚类,并且对搜索结果聚类进行了初步的性能评估.系统性能评估表明搜索结果聚类提供了新的用户界面,能够为用户构造新的查询提供帮助和提示提高了Web社区内信息检索的性能。关键词:文本聚类搜索引擎信息获取VSM聚类验证

4、文本挖掘web挖掘后缀树聚类TextClusteringanditsApplicationinWebCommunitySearchEngineSearchengineservicesbcoomemoreandmoleimportantininformationretrievalbecauseofthedevelopmentoftheWorldWideWebandtheincreaseofdata.Searchengineuserbehaviorsurveyshowsthatitshouldhelpuse体constructnewqueriesaswellasranktheres

5、ultsproperly.Organizationsarelikelytojoininacommunitytocollaborateonsametask,andSOcomesthewebcommunit,/.SearchengiIlesconslructedforthecommunityCallhelpuserssearchinginformation.OnemainachicvemcmofthethesisiSaneffectivesearchenginetoservewebcommunitywithtextclusteringtechniques;theotherachie

6、vementliesinevaluatingperformanceofclusteringalgorithmsusingclusteringvalidationtechniques.Basedonthele$Cal-chofsearchenginesystems,weconcludethatsearchengineresultsrankingschemaisnotfeasibleinsomesituations.Textclusteringtechniquescouldbeadoptedtoimprovetheperformanceconsideringtheself-orga

7、nizationofwebcommunitycontents.Reorganizationofsearchresultsmakestheresultsmorebrows-able,and啪alsoassisttheUSCrsinconstructingne唧queries.Principlesofteaclusteringarepresented.AfterdeepanalysistoseveralclusteringalgorithmssuchasHierarchyClustering,k

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。