基于python的web信息获取方法研究

基于python的web信息获取方法研究

ID:28135220

大小:17.65 KB

页数:4页

时间:2018-12-08

基于python的web信息获取方法研究_第1页
基于python的web信息获取方法研究_第2页
基于python的web信息获取方法研究_第3页
基于python的web信息获取方法研究_第4页
资源描述:

《基于python的web信息获取方法研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。基于Python的Web信息获取方法研究  摘要:随着大数据和云计算等新一代互联网技术的迅速发展,Web信息量逐日海量递增。从海量数据中提取有效信息,挖掘有潜在价值的关系成为当前的研究热点,这对揭示已知规律、预测未知结果有极大的辅助作用。对当前Web信息获取方法、原理和关键技术进行研究分析,重点阐述了数据采集相关技术中网络爬虫算法的分类与应用。提出一

2、种以Python和相关库为主要工具,结合模块化方法,构建Web文本信息获取系统框架与流程的策略。案例中通过定义采集函数,实现对给定的维基百科词条,快速搜索与该词条相关信息,对词条内链接和外链接进行有效爬取。结果表明,Python在数据采集方面具有较高的有效性和可扩展性。  关键词:Python;信息获取;网络爬虫;正则表达式  DOIDOI:/  中图分类号:TP301  文献标识码:A文章编号文章编号:  Abstract:Asthedevelopmentofbigdataandcloudcomputing,anincre

3、asingnumberofinformationhasbeenboostedsignificantly.Extractingtheinformationandextractusefulinformationfromhugeamountsofdataeffectivelyhasbeenbecomingthecurrenthotspot.Moreover,ithascontributedto为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、

4、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。revealingtheknownregulationsandpredictingunknownresults.Inthispaper,thecurrentWebinformationretrievalmethod,theprincipleandkeytechnologyhasbeenanalyzedan

5、dthealgorithm,classificationandapplicationofWebcrawlerindataacquisitiontechnologyareemphasized.ThispaperpresentsamethodofconstructingWebtextinformationacquisitionsystembasedonPythonandrelatedlibraries.Inthecase,bydefiningtheregularexpressionsandcrawlingfunction,itr

6、ealizedsearchingfortherelevantinformationoftheentry,andeffectivelyretrievalingtheinternallinksandtheexternallinks.TheresultsshowthatPythonhassignificantefficiencyandexpansibilityindataretrieval.  KeyWords:Python;informationaccess;Webcrawler;regularexpression  0引言为了

7、充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  互�网提供了大量数据集,但是由于网站本身的多样化和异构性以及网页文档结构的复杂性,很多数据都被嵌入到网页结构与样式中。Web信息获取,也称为基于Web的知识发现。We

8、b数据获取技术分为:基于本体的数据获取、基于自然语言的数据获取、基于网站查询的数据获取、基于规则和地理位置的数据获取。利用行之有效的方法,将可用的信息从海量数据中抽取出来,挖掘潜在价值,将在金融、电信业、舆情监控、数据分析以及其他科学领域发挥重要作用。由此可见,获取Web信息的技术显得尤为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。