基于web的新闻信息抽取系统设计与实现

ID：34850210

大小：4.51 MB

页数：52页

时间：2019-03-12

资源描述：

《基于web的新闻信息抽取系统设计与实现》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、沦义题U：坫t二Web的新n日价息抽取系统设计。j实现第一章绪论WorldWideWeb(缩写为：WWW)作为⋯个全球化信息空I’llJ，蕴含管人量的新闻信息和知识；但对于用户来说有用的新闻内容可能只是其中极小的一部分，然而对于这一部分却难于获得。一般用户只能通过一些新闻门户网站或基于关键字的搜索引擎方式来获得所需信息，但是搜索所得的庞大结果对于用户来说己经到了无法使用的地步，从而导致WWW上新闻信息的闲置与浪费。为了解决对Web新闻信息资源的需求问题各大搜索引擎均推出了专门针对新闻信息的搜索服务。但是，仅仅依靠传统的浏览器和搜索引擎很难帮助人们找到符合自己所需

2、要的特定的新闻信息资源也很难扩展利用。基于Web的信息挖掘和信息抽取技术的提出，有效地解决了准确获取Web页面中的新闻信息资源的难题。1．1Web挖掘概述1．1．1Web挖掘的定义Web挖掘是-I"1交叉性学科，涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。Web挖掘⋯是指从大量非结构化、异构的Web信息资源中发现有效的、新颖的、潜在可用的及最终可理解的知识(包括概念(Concept)、模式(Patterns)、规贝．1](Rules)、规律(Regularities)、约束(Constraints)及可视化

3、(Visualizations))等形式的非平凡过程。即就是使用数据挖掘技术在Web文档内容、同志信息或其他描述数据中发现潜在的、有用的知识的过程。如果把大量的Web文档结构和使用的集合c作为输入，发现的隐含模式P作为输出，那么Web数据挖掘的过程就是从输入到输出的一个映射【2】：，：C—p1．1．2W曲挖掘的分类目前，根据数据源形式的不同，可以将Web数据挖掘分为三类：Web内容挖掘(WebContentMining)、Web结构挖掘WSM(W．ebStructureMining)、Web使用挖掘(WebUsageMining)13l。如下图1．1所示：论文题

4、I：1：肚J二Web的新n日竹息抽取系统垃计’j实J见图1-1Web数据挖掳f{的分类图WCM是对半结构化的Web页面，包括Web页面上的文本、图片、声音、视频、元数据等进行挖掘，从Web数据中发现信息。由于Web文档绝大部分内容是以文本形式存在，所以Web内容挖掘t要针对Web文档的文本部分。文本挖掘主要包括直接对Web页面文档内容以及搜索引擎的查询结果进行文本的总结、分类、聚类、关联分析等。除此之外，还有针对Web上图片、声音、视频等多媒体数据的挖掘。WCM有两种策略：直接挖掘文档的内容和在其他工具搜索的基础上进行改进。采用第一种策略的有针对Web的查询语言

5、WebLOG，利用启发式规则来寻找个人主页信息的AHOY等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理，得到更为精确和有用的信息。属于该类的有WebSQL，及对搜索引擎的返回结果进行聚类的技术等。根据挖掘处理的数据可以将Web内容挖掘分为文本挖掘和多媒体挖掘两个部分。WSM是对W曲页面之间的结构进行挖掘，主要针对研Web页面的超链接结构进行分析。根据超链接的拓扑结构，Web结构挖掘可以对页面进行分类，取得不同网站网页之问的关系；也能发现Web文档自身的结构。这种方法能够通过网页之问的比较，更有助于用户浏览。WUM是通过挖掘相关的Web同志记录

6、，束发现用户访问Web页面的模式和相关信息。WWW中的每个服务器都保留了访问同．志(WebAccessLog)，记录了关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为，从而改进站点结构，为用户提供个性化服务。2论义题I

7、：肚fWeb的gil',ltf．‘i息{IIIll)c系统i筻汁。，实J砚1．2Web信息抽取数据挖掘是从大量的、有噪卢的、模糊的、随机的数执：集中识别出有效的、新颖的、潜在有用的、以及最终可理解的信息的一个过程。数据挖掘的前提是大量相关数据的采集抽取，从这些大量的相关抽取结果信息中研究分析出事件发展的各种念势。大量的数据和相关信息足

8、进行研究分析的琏础，fⅡ这螳信息和数据从何处而来?信息抽取提供了一条进行大规模数据及信息挖掘的思路。通过信息抽取，能够从自由文本中抽取出数值数据和结构化的信息，进而实现大胤模的数据挖掘和信息分析。1．2．1W曲信息抽取的定义信息抽取的目标【4】是从文本中抽取出特定的事实信,皂,(FactualInformation)。比如，从书店的货品栏记录中抽取出书名，类别，价格，作者，出版商等等。通常，被抽取出的信息以结构化形式描述，可以直接存入数据库，供用户查询以及进一步进行集成分析。Web信息抽取【4J，就是将Web作为信息源的一类信息抽取。它的主要任务就是如何将分散在

9、Internet上的半结

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 52



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于web的新闻信息抽取系统设计与实现

基于web的新闻信息抽取系统设计与实现

相关文章

相关标签