基于htmlparser视频信息抽取系统的设计与实现

基于htmlparser视频信息抽取系统的设计与实现

ID:9129756

大小:64.00 KB

页数:9页

时间:2018-04-18

基于htmlparser视频信息抽取系统的设计与实现_第1页
基于htmlparser视频信息抽取系统的设计与实现_第2页
基于htmlparser视频信息抽取系统的设计与实现_第3页
基于htmlparser视频信息抽取系统的设计与实现_第4页
基于htmlparser视频信息抽取系统的设计与实现_第5页
资源描述:

《基于htmlparser视频信息抽取系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于LParser视频信息抽取系统的设计与实现H前视频网站成为人们上网时不可或缺的娱乐途径,但现在的视频网站对视频的分类以及描述参差不齐,其主要原因就是没有构建统一的视频信息知识库,而构建知识库的核心技术就是网络爬虫的设计。本文针对视频类网站进行了详细研究。通过深入分析视频类网站页面的树形结构的构架,并基于LParser的信息提取方法,从种子页面中提取出相关的视频信息用于视频信息知识库的构建。关键词网络爬虫;视频爬取;LParserTP39A1674-6708(2011)55-0207-02随着互联网的普及

2、,越来越多的人们把自己的娱乐时间投入到网络视频上,而面对海量的视频人们只能通过视频网站的介绍决定自己是否感兴趣,而往往各个视频网站对同一视频的描述以及分类会存不同,这使得用户不能得到关于视频的准确描述信息,为了应对这样的挑战,我们需要构建一个统一的视频信息知识库,而构建知识库的核心技术就是网络爬虫的设计。视频信息抽取系统在这样的研究背景下产生,目前信息抽取的关键技术有:命名实体识别,句法分析,篇章分析与推理,知识获取。针对视频网站页面的特点,我们需要直接抽取相关标签中的视频信息。1LParser与Node1

3、.1LParser爬虫程序中,对于L网页的处理是核心的一个环节。对于Java来说,LParser是比较著名并且得到广泛应用的一个。LParser的主页是http://lparser.sourceforge.,最后的更新是2006年9月的1.6版。LParser具右小巧,快速的优点,缺点是相关文档比较少,很多功能需要自己摸索。LParser的核心模块是org.lparser.Parser类,这个类实际完成了对于L页面的分析工作。这个类有下面几个构造函数:publicParser();publicParser(

4、Lexerlexer,ParserFeedbackfb);publicParser(URLConnectionconnectionParserFeedbackfb)throwsParscrExccption;publicParser(Stringresource,ParserFeedbackfeedback)throwsParserException:publicParser(Stringresource)throwsParserException;publicParser(Lexerlexer);publ

5、icParser(URLConnectionconnection)throwsParserException:和一个青争态类publicstaticParsercrcatcParscr(Stringl,Stringcharset):对于大多数使用者来说,使用最多的是通过一个URLConnection或者一个保存存网页内容的字符串来初始化Parser,或者使用静态函数来生成一个Parser对象。ParserFeedback的代码很简单,是针对调试和跟踪分析过程的,一般不需要改变。1.2NodeLParser将

6、解析过的信息保存为一个树的结构。Node是信息保存的数据类型基础。它的定义如下:publicinterfaceNodeextendsCloneable;具体对节点的操作就是通过Node的成员函数实现。2系统的结构及实现本系统首先利用LParser递归抽取各视频URL信息,然后再利用得到的URL抽取对应视频的详细信息。2.1抽取网站内视频信息算法输入:某一视频网站播放页面地址(URL)。输出:此网站内视频的详细信息。算法:1)提取页面视频UKL(n个);2)递归处理页面的n个视频URL,分别提取各URL对应页

7、面上的n个视频的URL信息;3)将抽取到的视频URL保存至数据库;4)分析URL对应页面并提取相关视频信息,并将其保存至数据库。2.2系统结构1)抽取网站内部所有视频URL模块该模块实现的主要功能是利用LParser包通过递归抽取各页面中的视频URL。2)抽取各URL对应页面视频信息模块该模块的功能是首先从之前抽取到的URL获得该URL对应视频页面的字符流,然后通过解析这些字符流从中得到此页面对应视频的详细信息。3)存储模块该模块利用mysql保存抽取的视频信息,并不断更新检查是否有重复。2.3系统实现2.

8、3.1抽取网站内部所有视频URL抽取URL算法为extractLinks(StringURL)该算法实现了速归获取网站内所有视频的URL,并存于movieLinks中。算法所需全局变量及所用到的函数定义如下:AarrayListmovieLinks=newArrayList();//存放视频URLbooleanIsMovieUrl(StringUrl);//判断次url是否是正确的视频url递归搜索部分代码如下:

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。