欢迎来到天天文库
浏览记录
ID:53732799
大小:218.91 KB
页数:3页
时间:2020-04-20
《一种基于网络爬虫解析HTML的网络热词获取方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、电脑编程技巧与维护一种基于网络爬虫解析HTML的网络热词获取方法钟春琳,司方豪(大连理工大学软件学院,辽宁大连116600)摘要:介绍了基于网络爬虫的网页HTML解析给出网络热词和数据挖掘的过程,总结了该方法的应用前景。关键词:网络;网络爬虫;HTML解析;数据挖掘AMethodofGettingNetworkHotWordsBasingontheWebCrawlerParsingHTMLZHONGChun-lin,SIFang-hao(CollegeofSoftware,DalianUniversityofTechnology,LiaoningDalian1
2、16600,China)Abstract:ThispaperdescribestheprocessofgivingthenetworkhotwordsbasingonthetheWebcrawlerparsingHTMLandtheDataMining.ThesummarizinganddiscussingofthemethodStheprospectsFinally.圜1臼『Keywords:Network;Webcrawler;HTMLparsing;DataMining1引言URL存储在有序的数据结构中,按序取得URL进行页面下自从网络诞生以来,以其无与
3、伦比的便捷、高效等特性,载.将得到的新的URL存入先前的数据结构中,如此重复,极大改变了人们的生活。“网络热词”所具有的草根文化特直到所有URL都被查询结束,如图1所示。网络爬虫通常分质已经成为一种文化形态,通过对当前心态的表达反映着社为:通用网络爬虫(GeneralPurposeWebCrawler)、聚焦网络会群体的生活理想和态度,这已经成为共同话语体系中的一爬虫(FocusedWebCrawler)、增量式网络爬虫(Incremental种最佳交流媒介。然而,由于网络信息资源的庞大基础,要WebCrawler)深层网络爬虫(DeepWebCrawler)
4、,而实际的想通过人工方法实现复杂的词频统计以及“热词”判断,显网络爬虫技术通常是综合了几种爬虫技术来实现的(J.Cho,得有些吃力。所以,通过利用网络信息搜索与数据挖掘技术2001)。为解决该问题提供了一种方法。2.2程序设计与实现2网络爬虫解析HTML的设计与实现本系统以解析大连理工大学软件学院学生周知为例,通过网络爬虫技术获得网页文本数据。系统结构主要分为网页下2.1概述载、HTML解析、数据存储、数据统计4大模块,如图2所示。2.2.1网页下载模块根据具体的实际需要,完成系统文件配置,设置系统初始URL数据集。依次取出数据记录,通过网络爬虫开源代码,下载
5、HTML页面信息。这部分负责抓取页面,作为整个系统的关键部分。直接影响爬行的效果。伪代码如下:ProgramDownloadPage(Url,ENCODING)//网页内容//下载函数//Url:网页地址链接,ENCODING:网页编码方式圈国IFUrl参数无效THEN//判断参数是否有效//OUTPUT数据参数无效提示RETURNNULL图1爬虫工作流程图2系统模块图ENDIF随着网络技术的不断发展,网络数据呈指数形式增加,DimStrBufAsStringBuffer//用于保存网页信息而不同领域、不同背景的用户往往具有不同的检索目的和需DimFlagAs
6、Boolean,/用于条件判断求.通用搜索引擎的局限以及其有限的资源与无限的网络数Flag=TRUED0WHILEFLAG据的矛盾导致了网络爬虫的出现。网络爬虫(WebCrawler)又DimpageAsURL称为网络蜘蛛(WebSpider)或Web信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。网络爬虫一般从一个或集合URL开始,首先将这些收稿日期:2014—03—25与NETWORKANDCOMMUNICAT10N网络与通信page=new申请资源,/仓0建连接请求超时的异常处理DimconnectionAsURLCon
7、nection,/回收系统资源connection=由page获得Connection//获得与网页的连接RETURNarticlesDiminputStreamAsInputStream2.2.3数据存储模块,/实现数据的封装,方便调用系统运行前,根据所需存储的文本属性进行分析,确定DimInputReaderAsInputStreamReader数据存储格式.提前建立好数据库。由于网页解析是对相应DimBuffReaderAsBufferedReader的网页标签内容的提取过程.所以结果的数据结构是规整的。inputStream=page.openStre
8、am0//具体封装过程//(标准)应用
此文档下载收益归作者所有