web信息处理与应用：web crawling

ID：34489393

大小：2.88 MB

页数：59页

时间：2019-03-06

资源描述：

《web信息处理与应用：web crawling》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、WebCrawling金培权jpq@ustc.edu.cnWeb信息处理与应用金培权（jpq@ustc.edu.cn）课程知识结构Chp.1IntroductionChp.2CrawlerChp.8NERChp.10TextMiningChp.3TextProcessingChp.9RelationExtractionChp.11SocialNetworkChp.4IndexingAnalysisChp.5QueriesChp.12WebInformationApplicationsChp.6RankingChp.7EvaluationChp.13A

2、dvancedTopics*Web信息处理与应用1.2金培权（jpq@ustc.edu.cn）本章讨论的问题WebWeb网页如何获取？Crawler/SpiderTextProcessingQuery/RankingInfo.ExtractionIndexingWebMiningWeb信息处理与应用1.3金培权（jpq@ustc.edu.cn）本章主要内容IntroductiontoWebCrawlingSomeBasicSolutionsWeb信息处理与应用1.4金培权（jpq@ustc.edu.cn）网络爬虫基础TheInternetasaN

3、etofComputersWeb信息处理与应用1.5金培权（jpq@ustc.edu.cn）网络爬虫基础TheWebasaNetofDocumentsWeb信息处理与应用1.6金培权（jpq@ustc.edu.cn）网络爬虫基础Web的图模型网页为节点网页中的HyperLink为有向边Web信息处理与应用1.7金培权（jpq@ustc.edu.cn）网络爬虫基础WebCrawler的任务定义从一个种子站点集合（Seedsites）开始，从Web中寻

4、找并且下载网页，获取排序需要的相关信息，并且剔除低质量的网页Web信息处理与应用1.8金培权（jpq@ustc.edu.cn）网络爬虫基础基本过程WebWeb信息处理与应用1.9金培权（jpq@ustc.edu.cn）基本算法PROCEDURESPIDER(G)1LetROOT:=anyURLfromGInitializeSTACKLetSTACK:=push(ROOT,STACK)InitializeCOLLECTIONWhileSTACKisnotempty

5、,问题：URLcurr:=pop(STACK)•重复搜集？PAGE:=look-up(URL)curr•遇到回路会无限循环？STORE(,COLLECTION)curr•G如果不连通呢？ForeveryURLinPAGE,i•G如果大到STACK容不下呢？push(URL,STACK)i•如何控制搜集G的一部分呢？ReturnCOLLECTIONWeb信息处理与应用1.10金培权（jpq@ustc.edu.cn）改进的算法PROCEDURESPIDER(G,{SEEDS})4InitializeCOLLECTION

6、ofURL-pagepairs>InitializeVISITEDForeveryROOTinSEEDSInitializeSTACKLetSTACK:=push(ROOT,STACK)WhileSTACKisnotempty,DoURL:=pop(STACK)currUntilUntilURLURLcurrisnotinVISITEDcurrisnotinCOLLECTIONinsert-hash(URL,VISITED)currPAGE:=look-up(URL)currSTO

7、RE(,COLLECTION)currForeveryURLinPAGE,ipush(URL,STACK)iReturnCOLLECTIONWeb信息处理与应用1.11金培权（jpq@ustc.edu.cn）完备性问题Crawl==图遍历?Completenessisnotguaranteed假设从一个page出发能到达web上的任何一个page.实际情况并不一定这样Web信息处理与应用1.12金培权（jpq@ustc.edu.cn）网络爬虫的性能衡量数量覆盖率——“全”搜索引擎索引的网页（一次收集）占目标区域中所有可能网页

8、数量的百分比质量覆盖率——“好”搜索引擎索引的网页中“高质量”网页占目标区域中所有可能重要网页数量的百分比

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 59



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

web信息处理与应用：web crawling

web信息处理与应用：web crawling

相关文章

相关标签