欢迎来到天天文库
浏览记录
ID:32657800
大小:11.34 MB
页数:106页
时间:2019-02-14
《基于文本挖掘定向性信息分析地地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、ADissertionSubmittedtoHefeiUniversityofTechnologyfortheDegreeofDoctorofPhilosophyTheResearchofDirectionalInformationAnalysisBasedonTextMiningByWenjuanChengHefeiUniversityofTechnologyHefei,Anhui,PRChinaNovember,2012合肥工业大学本论文经答辩委员会全体委员审查,确认符合合肥工业大学博士学位论文质量要求。主
2、席:委员:答辩委员会签名(工作单位、职称)印嚼i2f般心、j7闽槲扳衣否奴帆丢恨、彗夫喜敬技7m铷钞饥芬捌殳伤留尚铷肜≯叙恐刷矾膨昌鹨搿¨纠刊参肥z移式孑矽良梁棵熊焰糜仲春蒋翠清任明仑匿名华中生吴杰蒋翠清刘心报任明仑同行通讯评议专家名单教授、博导管理科学与工程计算机科学与技术管理科学与工程中国科学技术大学合肥工业大学同行通讯评阅专家名单教授、博导答辩委员会名单管理科学与工程中国科学技术大学管理学院合肥工业大学管理学院答辩委员会主席华中生教授、博导管理科学与工程中国科学技术大学管理学院独创性声明本人声明所呈交的学
3、位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得金胆』=!二些叁堂或其他教育机构的学位或证”f5而使用过的材料。与我一同一作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。潍燃⋯:毋塌铆期:舻,灿日学位论文版权使用授权书本学位论文作者完全了解金月曼互些杰堂有关保留、使用学位论文的规定,有权保留并向国家有关部l、J或机构送交论文的复Epf,I:利磁盘,允许论文被奈阅利借阅。本人授权佥
4、月墨:工些厶堂可以将学何论文的全部或部分内容编入有关数据J车进行检索.可以采刚影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:咖三确签字日期:为乞年I明1cf日学位论文作者毕业去向:l-.作单位:通讯地址:导师签名:签字日期:乡町缉f工月I吁日电话:邮编:摘要随着网络技术的应用和普及,越来越多的信息充斥在网络之上。如何在众多的资源中找剑适合自己需求的信息,成为众多学者、专家和网络用户关心的核心问题之一。如何帮助信息相关主体及时了解、追踪自身或行业相关信息及社
5、会评价对其宣传、决策、发展及危机管理至关重要。定向性信息分析是解决这一问题的有效方案,定向性信息分析指在挖掘个人用户或单位用户K期关注的领域信息或主题信息,针对个人或机构用户长期关注的兴趣点,对互联网信息进行分析和追踪,从中筛选出一个与用户兴趣相关的信息子集。本文针对定向性信息分析中的信息选择、主题分类、文本聚类等问题展开深入研究,提出能够有效解决这些问题的相应方法和模型,为推动定向性信息分析更好的发展发挥积极的作用。本文通过搜索引擎关键字检索获取的文档来源信息,据此利用爬虫技术得到分析的文档,根据定向性信息分
6、析任务的特点,对定向性信息分析过程每个阶段的技术和相关算法进行了深入研究和探讨,并提出一系列有效、适崩的模型或算法,最终构建了一个高效、实用的定向性信息分析任务框架。本文重点研究了以下问题:1、基于搜索引擎返同文本的启发式信息抽取模型检索返同的结果包含了标题,内容摘要等信息,仅以返同结果为分析对象是远远不够的。为了得到全面的文档分析要素,本文构建了包含文档正文、点击量、发布时间、引用次数等文档的XML结构,对如何获取每个文档XML结构中的元素给出了具体方法,重点研究了文档正文的抽取,基T-DOM树结构,在调查统
7、计在基础上,根据标点符号和链接在止文分析中的提示作州,提出布局标签权重的计算办法,利用搜索引擎返同摘要确定止文的中心标签,描述了中心标签及其权重的聚合过群,将权重最人的标签作为正文抽取标签。2、J{j户参与的主题聚类与分类框架描述了主题分类的困难,针对定向性信息挖掘任务的特点,分析用户参与主题分类的必要性禾l可能性,引入文本分类的监督特征,提出定向性信息挖掘任务的完整主题聚类、分类框架。3、基于不确定概率逻辑的文本分类模型在对文本分类技术进行了较全面的研究基础上,详细分析了文本分类的特征,深入讨论造成分类器偏差
8、的原冈,引入基于不确定概率逻辑的主观逻辑理论及模型,特征对类别的信任关系作为文本分类的证据,提出基丁^不确定概率逻辑的文本分类模型。通过观念空间计算特征的分布权值,并将分布权值作为参数调1j.基础权重得到特征权重,利用特征权重实现简单的线性分类器。通过在通用分类评测语料集上比较实验显示,本文模型相对NB、KNN、LLSF、NNet比照算法性能(分类准确率)有显著提高,相对SVM,性能相
此文档下载收益归作者所有