关于互联网文本数据挖掘的一些关键技术研究

关于互联网文本数据挖掘的一些关键技术研究

ID:33679466

大小:2.09 MB

页数:83页

时间:2019-02-28

关于互联网文本数据挖掘的一些关键技术研究_第1页
关于互联网文本数据挖掘的一些关键技术研究_第2页
关于互联网文本数据挖掘的一些关键技术研究_第3页
关于互联网文本数据挖掘的一些关键技术研究_第4页
关于互联网文本数据挖掘的一些关键技术研究_第5页
资源描述:

《关于互联网文本数据挖掘的一些关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级UDC学位论文关于互联网文本数据挖掘的一些关键技术研究(题名和副题名)徐德(作者姓名)指导教师姓名章毅教授电子科技大学成都(职务、职称、学位、单位名称及地址)申请学位级别硕士专业名称计算机软件与理论论文提交日期2011年3月论文答辩日期2011年5月学位授予单位和日期电子科技大学答辩委员会主席评阅人年月日万方数据独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它

2、教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期:年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期:年月日万方数据摘要摘要随着互联网的普及与发展,互联

3、网文本成为信息的主要载体及人们生活中获取信息的主要来源,如何从这些信息中获取有价值的信息和知识成为亟待解决的问题。由于互联网文本数据的非结构化、分布式、多样性、含个人感情色彩等特点,使得传统的数据挖掘技术无法应用于互联网文本的挖掘,人们充分利用互联网文本也变得越来越困难。文本表示模型的改进,自然语言处理技术和挖掘分析算法的发展,为解决这些问题带来希望,互联网文本挖掘也应运而生,成为互联网挖掘中的一个重要研究方向。互联网文本挖掘是互联网内容挖掘的一个重要分支,主要包括数据预处理、数据挖掘分析技术和可视化研究。本文以互联网上的新闻

4、文本数据作为载体,研究互联网文本挖掘。主要工作有以下几个方面:1.系统地探讨了文本挖掘和互联网文本挖掘的基本理论,详细地阐述了文本挖掘的内容和流程,提出了文本挖掘的问题和互联网文本的结构特征。2.系统地探讨了网页数据的抽取技术,实现了一种基于HtmlParser的网页数据自动抽取方法,能够快速准确地抽取出网页中的文本数据。3.将聚类引入新闻检索中,对检索结果进行聚类,方便用户快速查找到自己所需的信息。本文系统研究了能应用于文本聚类的分析算法,实现一种改进的基于频繁项集的文本聚类分析方法,重点介绍了聚类的相关模块,主要包括关键短

5、语抽取、索引建立、聚类方法和类标签提取等。4.设计并搭建了一个互联网新闻数据在线挖掘服务系统。该系统主要分为数据准备,离线挖掘和在线挖掘三个模块,实现新闻数据的分类、摘要、聚类等挖掘分析。关键词:文本挖掘,数据抽取,关键短语,检索结果,文本聚类I万方数据ABSTRACTABSTRACTWiththepopularityanddevelopmentoftheInternet,thetextonInternetbecomesthemaincarrierandmainsourceofinformationinpeople’slive

6、s.Howtoextractvaluableinformationandknowledgefromthesetextsbecomesanurgentproblem.However,beingunstructured,distributed,diverse,personalandsoon,thetextdataonInternetmakesitimpossiblefortechnologyoftraditionaldataminingtobeappliedtotheminingofthetextonInternet,andit’

7、smoreandmoredifficultyforpeopletousethetextonInternetadequately.Theimprovementoftextrepresentationmodel,thedevelopmentofnaturallanguageprocessingtechnologyandmininganalysisalgorithm,bringhopetoaddresstheseissues.ThenthetextonInternetminingbringsoutandbecomesanimport

8、antresearchorientationintheInternetmining.ThetextminingonInternetisanimportantbranchoftheminingoncontentoftheInternet,includingdatapreproc

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。