资源描述:
《网络舆情采集系统的设计》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、网络舆情釆集系统的设计如果你是我的朋友,你可以在这里输入你的信息,你可以在这里输入你的信息吗?一个e,你有ng,也有n个g一个,一个,一个,一个,一个,一个,一个,一个,一个b箍ct:Aeeord的glowefie即neyndlow结构e涂redeontentof罗neralnetwrokp乌兰巴托谎言信息rmtioneo米歇尔etiosys-temp0卩erputsforwardnetworkpub身尚在formtionequisitionse他mebsedond愤怒etionrchofalsem己ti一我是。Impro
2、vebsDOM-^seDweb信息rmtio土石方unextretioghe0MbeDDOM—b和eDwithRe邵守护神ex公关essionsb,a,e,d,d……这是一种系统,它是一种菲erivextr,在输入输出的信息中The15ulti一Proee党卫军我说的是Keywords:NetworKp乌兰巴托身尚在formtion;在formioniil*rraction;Parleler1eraw:TeTex交易etion:doMtree网络舆情采集系统的设计梁勇,张文装备指挥技术学院,北京101416【摘要】针对通用
3、网络典情采集系统的效率低,内容结构化程度不够等不足,设计了基于定向搜索的多进程网络典情采集系统,采用构建D0M树与正则表达式结合的方式,改善了基于D0M的网页内容提取。通过测试,系统可以有效的提取结构化网络信息,多进程并发采集的效率有较大提高。【关键词】网络典情;信息采集;并行爬虫;正文抽取;D0M树的关键。1引言随着信息技术的迅速发展,网络成为人们获取信息的重要途径和当今社会重要的舆情载体,网络资源的迅速膨胀对社会的影响巨大,不论是国内外重大事件还是社会生活中的敏感话题,都能迅速的形成网络舆论,在社会中产生强大的影响力。
4、因此,网络舆情越来越受到政府,军队和企事业单位等机构的密切关注。由于网络开放性和虚拟性,网络舆情具有自由性,突发性等特点(‘1,对网络舆情的监控显得十分重要。网络舆情采集主要基于网络爬虫实现,如全文的网络爬虫['),主题网络爬虫等。文章“4)提出网络信息采集系统,文章L,~J提出了对网页正文信息的提取方法。然而,在海量的网络信息中,存在着大量用户不关心的信息,用户关注的舆情信息只占整个互联网中很小的一部分。如何高效、准确的采集用户关心的信息成为网络舆情采集系统设计通用的网络信息采集存在一定的局限性,如釆集的信息非结构化,采
5、集目标局限性强,采集效率不高等。针对以上问题,本文研究r定向的网络舆情采集系统,采用多进程并发采集的方式对冃标网站进行信息米集,较大的提高了采集效率O在内容抽取上改进了基于D0M的网页信息抽取,提高了网络信息抽取的结构化程度。2系统概述2oTheselectionofcontentThevast,diversenetworkresourcesarenotallInformationiscollectedinthetown.Therearetwomainoptionsforcollect!ngcontentOneaspect
6、:oneischoicerange,twoisthecollectionfrequency.OnlinepublicopiniongatheringTheidentificationofthescopemainlyincludesthecomprehensivecollection,selectionandmixingThreeLlv).Theoverallcollectionofpatternsisabigdrainonsystemresources,SotheInternet'scollectionofonlinepu
7、blicopinionisusuallytakenbyselectingthemodelType・SelectingacollectionrequirestheusertofirstselectaparticularindustrytofocusonThefourthcommunicationtheoryandtechnology1,20,1Somewebsitesserveasasourceofinformation,withinformationsourcesaspopulationpointsInformationa
8、cquisition.Page・TogatherandupdateinformationaboutspecifictargetsinrealtimeUsetheparallelcrawlersystem・_Itis.2webcrawlerprinciple2.3pagetextextractionThe