web信息智能获取若干关键问题研究

web信息智能获取若干关键问题研究

ID:33289677

大小:6.86 MB

页数:131页

时间:2019-02-23

web信息智能获取若干关键问题研究_第1页
web信息智能获取若干关键问题研究_第2页
web信息智能获取若干关键问题研究_第3页
web信息智能获取若干关键问题研究_第4页
web信息智能获取若干关键问题研究_第5页
资源描述:

《web信息智能获取若干关键问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要因特网(Internet)为人们开辟了一个共同的、全新的天地。人们在这个虚拟的世界里,以一种全新的方式进行交流。任何人在任何时间、任何地点都可以通过网络发布任何信息,这使得网络成为最重要的信息来源。但是面对潮水般涌来的电子文献,人们变得无所适从。所以研究Web信息智能获取技术以帮助用户快速、准确地定位到自己需要的信息,具有广泛的应用背景和实用价值,已经成为近年来的研究热点。基于这样一个前提,本文对Web信息获取若干关键问题,包括信息采集、信息抽取、事件探测和追踪、以及事件来龙去脉等方面,从模型、算法和应用二个层次上进行了深入细致的研

2、究,主要贡献和创新点包括如卜儿个方面:(1)通过对Web信息采集过程及其实例系统分析,基于主体的基本理论与技术,提出了一种网络信息采集的多主体模型,并在实验室研制的多主体环境MAGE下完成了建模和实现。同时针对用户的个性化信息需求,通过分析研究Web主题页面的特点,提出三种主题相关性计算模型:基于链接关系的URL主题相关性计算模型、墓于URL描述信息的主题相关性计算模型、基于网页内容语义的相关性计算模型,并且基于三种主题相关性计算模型实现了专题跟踪采集模式。实验结果验证了基于多主体的信息采集模型的灵活性、开放性、高效性、易于实现性以及二

3、种土题相关性计算模型的有效性。(2)通过分析Web噪音数据存在的特点,提出了三种噪音数据判别模型:荃于URL标记信息的噪音判别模型、基于噪音数据冗余特点的判别模型、基于URL标记文本信息嫡的噪音数据判别模型,并且基于这三种判别模型实现了Web噪音数据去除算法。实验结果验证了三种噪音去除模型的可行性和有效性。Web噪音去除算法可以有效解决数据质量问题,从而可以提高后续文本分类、聚类、事件探测和追踪、事件来龙去脉的生成等文本挖掘算法的性能。(3)提出了一种基于概率统计和规则相结合的新词/短语发现算法。该算法首先对语料库进行分词和词性标注,然

4、后基于“二元语法”统计模型对分词和标注后的语料库进行共现分析得到原始的二元统计结果,并且基于统计公式进行选词,但是结果不是很理想。为此,通过大量分析汉语组词规律,提出了多种选词规则:词性、词长、禁用词等规则,然后利用这些规则对统计选词后的结果进行层层过滤,最后只需很少的人工干预就可得到质量很高的新词/短语。实验结果验证了基于概率统计和规则方法相结合的新词发现算法的有效性,它有效地结合了统计方法速度快和规则方法质量高的特点.(4)通过分析网络新闻的特点,借鉴Single-Pass聚类思想提出了一种基于动态模型的新闻事件探测和追踪算法。动态

5、模型可有效地改善新闻事件探测和追踪算法的效率,它包括:基于时间距离的相似度计算模型、动态闲值设置和事件模板进化思想。为了提高算法执行的速度,我们还提出了“类间距离”的思想及其两种计算“类间距离”的方法。实验结果验证了基于时间距离的相似度计算模型的有效性以及引入“类间距离”后算法执行的高效性。(5)提出了一种事件来龙去脉生成算法。该算法是基于时间要素和新颖性计算模型,将报导Web信息智能获取若干关键问题研究:摘要同一事件的所有新闻文档的摘要进行组织,然后根据粒度要求对组织结果进行处理最后生成事件来龙去脉。为了保证事件来龙去脉的质量,提出了

6、段落主题相关性判别模型用来保障单篇摘要与事件主题的相关性:同时提出了一种新颖性计算模型用来保证事件来龙去脉信息的非冗余性。借鉴已有的白动摘要评测方法,提出了一种事件来龙去脉评测模型。实验结果显示了主题相关性判别模型,新颖性计算模型和事件来龙去脉评测模型的有效性。事件来龙去脉为事件信息的概括描述提供了一条思路,是网络新闻智能化服务的有益探索。科学研究的最终目的是研究成果能够在实际中得到应用。基于此目的,我们将本文的研究结果和实验室其他同学的研究成果有机地结合起来,实现了一个完整的网络信息智能获取和处理系统GHunt。本文给出了系统的功能框

7、架和体系结构,提出了GHunt对信息获取过程和获取知识的元数据管理模型,并用实验结果验证了系统的性能。GHunt是我们多年来研究成果的结晶,是研究成果走向产品化的重要环节,同时也为后续研究开发提供了一个很好的平台和检验环境。如果想详细了解GHunt系统,可访问地址htp://www.intsci.ac.cn/GHuntWeb/o关键词:信息获取,信息抽取,知识发现,数据挖掘,文本挖掘,Web挖掘,信息采集,主题采集,噪音去除,信息检索,文本分类,聚类,自动摘要,多篇摘要,事件探测,事件追踪。事们来龙去脉,概念语义空间,新闻专题。Rese

8、archontheKeyTechniquesofWebInformationIntelligentAcquisitionJiaZiyan(ComputerSoftware&Theory)DirectedBy

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。