基于Web挖掘的纺织专业搜索引擎设计

基于Web挖掘的纺织专业搜索引擎设计

ID:36804976

大小:2.24 MB

页数:64页

时间:2019-05-15

基于Web挖掘的纺织专业搜索引擎设计_第1页
基于Web挖掘的纺织专业搜索引擎设计_第2页
基于Web挖掘的纺织专业搜索引擎设计_第3页
基于Web挖掘的纺织专业搜索引擎设计_第4页
基于Web挖掘的纺织专业搜索引擎设计_第5页
资源描述:

《基于Web挖掘的纺织专业搜索引擎设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东华大学硕士学位论文基于Web挖掘的纺织专业搜索引擎设计基于Web挖掘的纺织专业搜索引擎设计摘要互联网上的信息以几何级数的速度膨胀,为了从纷繁芜杂的信息海洋中找到有用的信息,人们借助搜索引擎搜寻所需信息。Yahoo、Google、Baidu等就是比较有代表性的搜索引擎。可是这种通用搜索引擎无法满足人们对专题性信息的需求。因此需要研究开发面向特定领域的专业搜索引擎来对专业领域信息进行检索。本文设计了一个纺织专业搜索引擎系统,详细设计了系统中的重要模块并对模块中的关键技术进行了研究。本文的研究内容如下:

2、1、给出了纺织专业主题爬行器的详细设计提高主题爬行器的效率问题。一方面通过协调器对网络爬虫抓取的URL按照一定规则进行调度,避免了由于网络爬虫的负载不平衡造成的资源分配不均;另一方面在扫描网页源代码获取抓取的URL的同时,设计目标网页内容过滤/预测模型来确定待采页面,对网页所含的超链接进行剪切与分类,按照相关链接采集、不相关链接直接丢弃的原则进行剪枝处理,减少网络蜘蛛页面采集的工作量。2、针对主题爬行器中涉及的文本分类技术进行了改进。在向量空间模型表示网页文本时,特征项在文本集合中位置分布的不同会引

3、起权值的差异的问题。针对此问题本文改进了特征项权值东华大学硕士学位论文基于Web挖掘的纺织专业搜索引擎设计的计算公式以更好的体现网页的结构特征。传统的K最近邻分类方法存在一个很致命的问题就是如果训练集的数据量很大,该方法很难实现全局的最优搜索,为了加速K个最近邻的搜索,本文采用了一种基于K最近邻的快速文本分类方法,使在海量数据集中进行快速有效分类成为可能。3、对检索器中的网页排序算法进行了改进现在网页排序算法主要是围绕着PageRank算法和HITS算法进行研究的。在研究了这两种经典的排序算法后,本

4、文提出一种基于文本聚类的网页排序方法希望达到两点目标:一是越重要的网页在结果列表中的位置越靠前;二是前几页结果列表的信息覆盖面比较广,这样可以帮助用户在检索过程中明确自己的检索目标。关键词:主题爬行,向量空间模型,文本分类,K最近邻法,网页排序Ⅱ东华大学硕士学位论文基于Web挖掘的纺织专业搜索引擎设计TH匣DESIGNOFASEARCHENGINEFORTEXTILEBASEDON、阮B心INGABSTRACTNowadaysmoreandmoreinformationisexploredonthe

5、web.Itisdifficultforwebsurfertofindwhattheyneedwithoutthehelpofpowerfulsearchengines.Thosefamousuniversalsearchengines,suchasYahoo,Google,andBaidu,oftenoffermorethanyouwantwhenoneonlycaresforrelatedinformationoftextile,bygivingseveralkeywordstothosesea

6、rchengines.Becausetheyhavenoideaswhichfieldsyoucare,theygiveyouallthepagesinvolvingalltopics,whichcontainthesekeywords.Thatiswhywewanttodesignspecialty-orientedsearchenginetohelpthosewhowanttheretrievedpagestobetextilerelated.Inthisthesis,wepresentalla

7、rchitectureofaspecialty-orientedsearchenginefortextileindustry,andgivethedesignofitsessentialmodules,aswellasstudykeytechnologiesunderlyingthem.Ourworkincludes:III东华大学硕士学位论文基于Web挖掘的纺织专业搜索引擎设计(1)Designoftheframeworkofthetopicwebcrawler.Toraisetheefficie

8、ncyofthewebcrawler,thesystemusesthecoordinationtooltomanagethewebcrawlertoavoidunequalresourcedistributionarisingduetotheloadimbalance.Ontheotherhand,whilescanningthepagesourcecodeandgettingthe啦thesystemusesthesubjectlinkpredictionmodel

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。