基于块文本长度的网页主题信息抽取算法

ID：36807264

大小：4.03 MB

页数：98页

时间：2019-05-15

资源描述：

《基于块文本长度的网页主题信息抽取算法》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、摘要摘要随着Intemet的飞速发展，WEB已经发展成为一种巨大的、分布式和共享的信息资源。目前WEB数据大多以HTML页面的形式出现。由于HTML语言的半结构化特征，以及嵌入网页的各种广告信息等原因，给基于网页内容的应用——搜索引擎带来很多困难。因此，需要研究一种有效的获取网页信息的方法。本文通过对大量主题型网页的分析，发现主题型网页一般采用大段的文本来描述一个或多个主题。在HTML的DOM树形结构中，这些描述主题的文本信息通常分布在一些离得比较近的块节点下。通过对现有的各种网页信息抽取算法分析基础上，结合主题型网页的特点，本文提出了一种基于HTML块文本长度的网页主题信息抽取算法。然

2、后在用于解析HTML的开源项目HTMLParser基础上实现了这个算法。具体地，本文的主要工作有：1．完善了关于网页分块的理论与相关概念，提出了块文本的概念。2．通过分析不同类型网页的特征，提出了一种用于辨别网页类型的网页统计模型。通过编程获取大量的基准网页，然后经过统计实验获得一种判断主题型网页的方法。3．通过分析WEB全文搜索引擎的分析子系统和查询子系统中与网页数据直接或间接关联的关键功能模块，提出了一种方便实用的网页结构化模型。4．在网页分块理论的基础上，提出了一种基于块文本长度的网页主题信息抽取算法。使用Java语言编程实现了这个算法，并通过实验证明该方法切实可行，具有较高的准确

3、率。5．在本文提出的的网页信息抽取算法、网络蜘蛛程序Heritrix、索引工具Lucene、MVC框架Struts2以及njax等基础之上实现了一个全文搜索引擎一东南大学校园搜索引擎。关键词：网页分块，HTMLParser，网页类型，网页统计模型，网页结构化模型，信息抽取conceptofblocktext．2．Byanalyzingthecharacteristicsofdifferentkindofwebpages，proposesaweb-pagestatisticalmodelwhichisusedtoidentifypagetype．Accesstoalargenumberof

4、basepages，andthroughthestatisticalexperimenttoobtainamethodtodeterminethetheme—basedpages．3．Throughtheanalysisofthekeyfunctionmoduleswhichrelatedtothewebpagedatadirectlyorindirectly,proposesaconvenientandpracticalweb-pagestructuralmodel．4．Analgorithmisproposedbasedonthelengthofblocktextafterpageb

5、locktheoryisanalyzedinthispaper．UseJavalanguageprogrammingrealizedthisalgorithm，andexperimentalresultsshowthatthismethodisfeasibleandhashighaccuracy．5．Baseonthewebpagesinforamtionextractalgorithm，IntemetArchive’SwebcrawlerHeritrix，indexingtoolLucene，MVCframeworkStruts2andAjaXthispaperimplementsaf

6、ull-textsearchengine—SEUSearching．KeyWords：web—pagesegmentation，blocktext，HTMLParser,web—pagetype，web—pagestatisticalmodel，web—pagestructuralmodel，informationextraction，II目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．IABSTRACT⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．1目j录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

7、⋯⋯．．⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．⋯⋯⋯⋯⋯⋯⋯⋯．．⋯．．III第1章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11．1搜索引擎介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11．1．1搜索引擎的发展历史⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．11．1．2WEB全文搜索引擎的框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11．2本文的研究背景与主要工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 98



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于块文本长度的网页主题信息抽取算法

基于块文本长度的网页主题信息抽取算法

相关文章

相关标签