欢迎来到天天文库
浏览记录
ID:28135220
大小:17.65 KB
页数:4页
时间:2018-12-08
《基于python的web信息获取方法研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。基于Python的Web信息获取方法研究 摘要:随着大数据和云计算等新一代互联网技术的迅速发展,Web信息量逐日海量递增。从海量数据中提取有效信息,挖掘有潜在价值的关系成为当前的研究热点,这对揭示已知规律、预测未知结果有极大的辅助作用。对当前Web信息获取方法、原理和关键技术进行研究分析,重点阐述了数据采集相关技术中网络爬虫算法的分类与应用。提出一
2、种以Python和相关库为主要工具,结合模块化方法,构建Web文本信息获取系统框架与流程的策略。案例中通过定义采集函数,实现对给定的维基百科词条,快速搜索与该词条相关信息,对词条内链接和外链接进行有效爬取。结果表明,Python在数据采集方面具有较高的有效性和可扩展性。 关键词:Python;信息获取;网络爬虫;正则表达式 DOIDOI:/ 中图分类号:TP301 文献标识码:A文章编号文章编号: Abstract:Asthedevelopmentofbigdataandcloudcomputing,anincre
3、asingnumberofinformationhasbeenboostedsignificantly.Extractingtheinformationandextractusefulinformationfromhugeamountsofdataeffectivelyhasbeenbecomingthecurrenthotspot.Moreover,ithascontributedto为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、
4、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。revealingtheknownregulationsandpredictingunknownresults.Inthispaper,thecurrentWebinformationretrievalmethod,theprincipleandkeytechnologyhasbeenanalyzedan
5、dthealgorithm,classificationandapplicationofWebcrawlerindataacquisitiontechnologyareemphasized.ThispaperpresentsamethodofconstructingWebtextinformationacquisitionsystembasedonPythonandrelatedlibraries.Inthecase,bydefiningtheregularexpressionsandcrawlingfunction,itr
6、ealizedsearchingfortherelevantinformationoftheentry,andeffectivelyretrievalingtheinternallinksandtheexternallinks.TheresultsshowthatPythonhassignificantefficiencyandexpansibilityindataretrieval. KeyWords:Python;informationaccess;Webcrawler;regularexpression 0引言为了
7、充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。 互�网提供了大量数据集,但是由于网站本身的多样化和异构性以及网页文档结构的复杂性,很多数据都被嵌入到网页结构与样式中。Web信息获取,也称为基于Web的知识发现。We
8、b数据获取技术分为:基于本体的数据获取、基于自然语言的数据获取、基于网站查询的数据获取、基于规则和地理位置的数据获取。利用行之有效的方法,将可用的信息从海量数据中抽取出来,挖掘潜在价值,将在金融、电信业、舆情监控、数据分析以及其他科学领域发挥重要作用。由此可见,获取Web信息的技术显得尤为
此文档下载收益归作者所有