欢迎来到天天文库
浏览记录
ID:37037901
大小:3.10 MB
页数:89页
时间:2019-05-20
《面向购物的聚类搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、’.{。▲~劣皇未)户/矿l硕士学位论文面向购物的聚类搜索引擎的研究与实现ResearchandImplementationofClusteringSearchEngineforCommericalArea作者:戴雪梅导师:张树君北京交通大学2011年6月-、"∥、.心一白,r}}I.、l,^●~吩如■学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文
2、的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:裁雪桴签字日期:易f/年6月以、日翩躲讹亿签字日期:五//年占月扩曰■,I一0’●r“L中图分类号:TP391.3UDC:一●学校代码:10004密级:公开北京交通大学硕士学位论文面向购物的聚类搜索引擎的研究与实现.ResearchandImplementationofClusteringSearchEngineforCommericalArea作者姓名:.戴雪梅导师姓名:张树君学位类别:-r_学学科专业:计算机科学与技术学号:09120580职称:高级工程师学位级别:硕士研究方向:信号与信
3、息处理北京交通大学2011年6月一致谢本论文的工作是在我的导师张树君教授的悉心指导下完成的,张树君教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢二年来张老师对我的关心和指导。张树君教授悉心指导我们完成了实验室的科研工作,在学习上和生活上都给予了我很大的关心和帮助,在此向张树君老师表示衷心的谢意。张树君教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心的感谢。·在撰写论文期间,感谢对我论文中的校正和修订工作给予了热情帮助的朋友,在此向他们表达我的感激之情。另外也感谢家人,他们的理解和支持使我能够在学校专心完成我的学业●}f}i中文
4、摘要摘要:据统计目前互联网上电子商务网站提供的商品总数达到10亿以上,而目前已有的购物搜索引擎对用户的查询只是按相关性返回大量的结果,并没有对众多的结果进行有效的组织和归类,所以用户无法从搜索引擎的返回结果中快速找到有效信息。因此如何使搜索引擎的返回结果对用户更加有价值的研究成为一个热点课题。由于网页聚类技术可以对搜索结果进行自动组织和分类,所以可以使用户更加直观和方便的找到所需要的信息。因此本文设计和实现了一个面向购物领域的聚类搜索引擎来解决目前购物搜索引擎存在的难题。本文完成的主要工作任务如下:1、在分析了本系统功能需求的前提下,设计了本系统的整体架构。然后深
5、入研究了主题爬虫MetaSeeker工作流程、Lucene的检索原理和网页聚类技术等实现系统的相关技术。2、对K-Mealls算法进行优缺点分析。然后深入研究相似性传播算法(AffinityPropagation。AP算法),并针对该算法中的生成簇集的过程进行改进。最后通过实验分析K.MeaIIs、AP算法、改进的AP算法三者的运行时间、聚类效果、聚类纯度,实验证明改进的AP算法是最高效和最优的。3、在构建本系统的聚类模型的时候,根据本系统文本特征提出了一种适合本系统的相似度计算模型。4、实现了面向购物领域的聚类搜索引擎的整体开发,具体任务包括:首先用MetaSe
6、eker主题爬虫采集数据源,然后在Lucene上实现本系统的索引、搜索和聚类三个模块,最后用PHP实现了用户查询接口。通过对本系统的搜索结果与目前的购物搜索引擎、聚类搜索引擎的搜索结果进行对比,证实了本系统在搜索和用户体验方面的优越性。同时对系统进行了大量的性能测试和分析,分析结果证明本系统达到了预期目标。关键词:购物搜索引擎;K.Means算法;AP算法;聚类搜索引擎:Lucene;分类号:TP391.3;.TP301.6ABSTRACTABSTRACT:Thestatisticsshowthereareabove1billionproductsprovided
7、bye-vA)m/nercesiteontheintemet.Howevertheexistingsearchenginefore-commercesiteresenttotheUSerSasetofnon.classifiedwebpages.Soit'sdi衔cultforuserstofindoutwhattheyneed.Therefore,thesearchforproductsone-commercesitesstillbearsaconsiderablepotentialforimprovement.BecausethemethodofWebclus
8、terin
此文档下载收益归作者所有