一种基于网络爬虫解析HTML的网络热词获取方法.pdf

ID：53732799

大小：218.91 KB

页数：3页

时间：2020-04-20

资源描述：

《一种基于网络爬虫解析HTML的网络热词获取方法.pdf》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、电脑编程技巧与维护一种基于网络爬虫解析HTML的网络热词获取方法钟春琳，司方豪(大连理工大学软件学院，辽宁大连116600)摘要：介绍了基于网络爬虫的网页HTML解析给出网络热词和数据挖掘的过程，总结了该方法的应用前景。关键词：网络；网络爬虫；HTML解析；数据挖掘AMethodofGettingNetworkHotWordsBasingontheWebCrawlerParsingHTMLZHONGChun-lin，SIFang-hao(CollegeofSoftware，DalianUniversityofTechnology，LiaoningDalian1

2、16600，China)Abstract：ThispaperdescribestheprocessofgivingthenetworkhotwordsbasingonthetheWebcrawlerparsingHTMLandtheDataMining．ThesummarizinganddiscussingofthemethodStheprospectsFinally．圜1臼『Keywords：Network；Webcrawler；HTMLparsing；DataMining1引言URL存储在有序的数据结构中，按序取得URL进行页面下自从网络诞生以来，以其无与

3、伦比的便捷、高效等特性，载．将得到的新的URL存入先前的数据结构中，如此重复，极大改变了人们的生活。“网络热词”所具有的草根文化特直到所有URL都被查询结束，如图1所示。网络爬虫通常分质已经成为一种文化形态，通过对当前心态的表达反映着社为：通用网络爬虫(GeneralPurposeWebCrawler)、聚焦网络会群体的生活理想和态度，这已经成为共同话语体系中的一爬虫(FocusedWebCrawler)、增量式网络爬虫(Incremental种最佳交流媒介。然而，由于网络信息资源的庞大基础，要WebCrawler)深层网络爬虫(DeepWebCrawler)

4、，而实际的想通过人工方法实现复杂的词频统计以及“热词”判断，显网络爬虫技术通常是综合了几种爬虫技术来实现的(J．Cho，得有些吃力。所以，通过利用网络信息搜索与数据挖掘技术2001)。为解决该问题提供了一种方法。2．2程序设计与实现2网络爬虫解析HTML的设计与实现本系统以解析大连理工大学软件学院学生周知为例，通过网络爬虫技术获得网页文本数据。系统结构主要分为网页下2．1概述载、HTML解析、数据存储、数据统计4大模块，如图2所示。2．2．1网页下载模块根据具体的实际需要，完成系统文件配置，设置系统初始URL数据集。依次取出数据记录，通过网络爬虫开源代码，下载

5、HTML页面信息。这部分负责抓取页面，作为整个系统的关键部分。直接影响爬行的效果。伪代码如下：ProgramDownloadPage(Url，ENCODING)／／网页内容／／下载函数／／Url：网页地址链接，ENCODING：网页编码方式圈国IFUrl参数无效THEN／／判断参数是否有效／／OUTPUT数据参数无效提示RETURNNULL图1爬虫工作流程图2系统模块图ENDIF随着网络技术的不断发展，网络数据呈指数形式增加，DimStrBufAsStringBuffer／／用于保存网页信息而不同领域、不同背景的用户往往具有不同的检索目的和需DimFlagAs

6、Boolean，／用于条件判断求．通用搜索引擎的局限以及其有限的资源与无限的网络数Flag=TRUED0WHILEFLAG据的矛盾导致了网络爬虫的出现。网络爬虫(WebCrawler)又DimpageAsURL称为网络蜘蛛(WebSpider)或Web信息采集器，是一个自动下载网页的计算机程序或自动化脚本，是搜索引擎的重要组成部分。网络爬虫一般从一个或集合URL开始，首先将这些收稿日期：2014—03—25与NETWORKANDCOMMUNICAT10N网络与通信page=new申请资源，／仓0建连接请求超时的异常处理DimconnectionAsURLCon

7、nection，／回收系统资源connection=由page获得Connection／／获得与网页的连接RETURNarticlesDiminputStreamAsInputStream2．2．3数据存储模块，／实现数据的封装，方便调用系统运行前，根据所需存储的文本属性进行分析，确定DimInputReaderAsInputStreamReader数据存储格式．提前建立好数据库。由于网页解析是对相应DimBuffReaderAsBufferedReader的网页标签内容的提取过程．所以结果的数据结构是规整的。inputStream=page．openStre

8、am0／／具体封装过程／／(标准)应用

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 / 3



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

一种基于网络爬虫解析HTML的网络热词获取方法.pdf

一种基于网络爬虫解析HTML的网络热词获取方法.pdf

相关文章

相关标签