欢迎来到天天文库
浏览记录
ID:34489393
大小:2.88 MB
页数:59页
时间:2019-03-06
《web信息处理与应用:web crawling》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、WebCrawling金培权jpq@ustc.edu.cnWeb信息处理与应用金培权(jpq@ustc.edu.cn)课程知识结构Chp.1IntroductionChp.2CrawlerChp.8NERChp.10TextMiningChp.3TextProcessingChp.9RelationExtractionChp.11SocialNetworkChp.4IndexingAnalysisChp.5QueriesChp.12WebInformationApplicationsChp.6RankingChp.7EvaluationChp.13A
2、dvancedTopics*Web信息处理与应用1.2金培权(jpq@ustc.edu.cn)本章讨论的问题WebWeb网页如何获取?Crawler/SpiderTextProcessingQuery/RankingInfo.ExtractionIndexingWebMiningWeb信息处理与应用1.3金培权(jpq@ustc.edu.cn)本章主要内容IntroductiontoWebCrawlingSomeBasicSolutionsWeb信息处理与应用1.4金培权(jpq@ustc.edu.cn)网络爬虫基础TheInternetasaN
3、etofComputersWeb信息处理与应用1.5金培权(jpq@ustc.edu.cn)网络爬虫基础TheWebasaNetofDocumentsWeb信息处理与应用1.6金培权(jpq@ustc.edu.cn)网络爬虫基础Web的图模型网页为节点网页中的HyperLink为有向边Web信息处理与应用1.7金培权(jpq@ustc.edu.cn)网络爬虫基础WebCrawler的任务定义从一个种子站点集合(Seedsites)开始,从Web中寻
4、找并且下载网页,获取排序需要的相关信息,并且剔除低质量的网页Web信息处理与应用1.8金培权(jpq@ustc.edu.cn)网络爬虫基础基本过程WebWeb信息处理与应用1.9金培权(jpq@ustc.edu.cn)基本算法PROCEDURESPIDER(G)1LetROOT:=anyURLfromGInitializeSTACKLetSTACK:=push(ROOT,STACK)InitializeCOLLECTIONWhileSTACKisnotempty
5、,问题:URLcurr:=pop(STACK)•重复搜集?PAGE:=look-up(URL)curr•遇到回路会无限循环?STORE(,COLLECTION)curr•G如果不连通呢?ForeveryURLinPAGE,i•G如果大到STACK容不下呢?push(URL,STACK)i•如何控制搜集G的一部分呢?ReturnCOLLECTIONWeb信息处理与应用1.10金培权(jpq@ustc.edu.cn)改进的算法PROCEDURESPIDER(G,{SEEDS})4InitializeCOLLECTION6、ofURL-pagepairs>InitializeVISITEDForeveryROOTinSEEDSInitializeSTACKLetSTACK:=push(ROOT,STACK)WhileSTACKisnotempty,DoURL:=pop(STACK)currUntilUntilURLURLcurrisnotinVISITEDcurrisnotinCOLLECTIONinsert-hash(URL,VISITED)currPAGE:=look-up(URL)currSTO7、RE(,COLLECTION)currForeveryURLinPAGE,ipush(URL,STACK)iReturnCOLLECTIONWeb信息处理与应用1.11金培权(jpq@ustc.edu.cn)完备性问题Crawl==图遍历?Completenessisnotguaranteed假设从一个page出发能到达web上的任何一个page.实际情况并不一定这样Web信息处理与应用1.12金培权(jpq@ustc.edu.cn)网络爬虫的性能衡量数量覆盖率——“全”搜索引擎索引的网页(一次收集)占目标区域中所有可能网页8、数量的百分比质量覆盖率——“好”搜索引擎索引的网页中“高质量”网页占目标区域中所有可能重要网页数量的百分比
6、ofURL-pagepairs>InitializeVISITEDForeveryROOTinSEEDSInitializeSTACKLetSTACK:=push(ROOT,STACK)WhileSTACKisnotempty,DoURL:=pop(STACK)currUntilUntilURLURLcurrisnotinVISITEDcurrisnotinCOLLECTIONinsert-hash(URL,VISITED)currPAGE:=look-up(URL)currSTO
7、RE(,COLLECTION)currForeveryURLinPAGE,ipush(URL,STACK)iReturnCOLLECTIONWeb信息处理与应用1.11金培权(jpq@ustc.edu.cn)完备性问题Crawl==图遍历?Completenessisnotguaranteed假设从一个page出发能到达web上的任何一个page.实际情况并不一定这样Web信息处理与应用1.12金培权(jpq@ustc.edu.cn)网络爬虫的性能衡量数量覆盖率——“全”搜索引擎索引的网页(一次收集)占目标区域中所有可能网页
8、数量的百分比质量覆盖率——“好”搜索引擎索引的网页中“高质量”网页占目标区域中所有可能重要网页数量的百分比
此文档下载收益归作者所有