面向领域的文本分类与挖掘关键技术研究

面向领域的文本分类与挖掘关键技术研究

ID:33139355

大小:5.20 MB

页数:138页

时间:2019-02-21

面向领域的文本分类与挖掘关键技术研究_第1页
面向领域的文本分类与挖掘关键技术研究_第2页
面向领域的文本分类与挖掘关键技术研究_第3页
面向领域的文本分类与挖掘关键技术研究_第4页
面向领域的文本分类与挖掘关键技术研究_第5页
资源描述:

《面向领域的文本分类与挖掘关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、博士学位论文面向领域的文本分类与挖掘关键技术研究导师:研究生:于戈胡明涵永,k夕、学二00九年五月l73620r}《摹分类号UDC密级肿JrllflIIIIIIIIIIIflI#rY1717248学位论文面向领域的文本分类与挖掘关键技术研究作者姓名:胡明涵指导教师:于戈教授东北大学信息科学与工程学院计算机软件研究所申请学位级别:博士学科类别:工学学科专业名称:计算机软件与理论论文提交日期:2009年5月20日论文答辩日期:2009年6月28日学位授予日期:答辩委员会主席:彝菠酱评阅人:多k毛等.王I蜀仁永Jk大学2009年5月鼍∥一l。嚣~fflADissertation

2、fortheDegreeofDoctorin.ComputerSoftwareandTheoryStudiesonKeyTechniquesofTextClassificationandMiningforSpecificDomainsbyHuMinghanSupervisor:ProfessorYuGeNortheasternUniversityMay2009鼍0∥p瓢l譬举0●l\独创性l声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与

3、我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢二也思。学位论文作者签名:稍1柏冯日期:加罗.皇,≥l学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年口一年口学位论文作者签名:书RI响鸨签字日期:为吁.多、>I一年半口两年口导师签名:于戈签字日期:为听,妒、≯JP瞻q◆0嚆f∥~‘f一东北大学博士学位

4、论文摘要面向领域的文本分类与挖掘关键技术研究摘要大量文本以电子形式存在,人们需要对大量的文本信息资源进行有效的组织和管理,因此文本分类引起人们的高度重视。近年来,关于文本分类技术的研究取得了很大进展,并被应用于众多领域。本文深入研究了文本分类与挖掘中的一些关键技术,同时在对政府公文分类、文本观点极性分析以及专利挖掘任务进行深入分析的基础上,将文本分类与挖掘技术应用到上述领域,提出了相应的解决方案,并通过大量实验证明了这些方案的有效性。主要工作包括:(1)特征独立性假设在文本处理领域被普遍应用,它虽然能大大简化文本计算,但与实际情况不符。本文首次将独立分量分析技术应用到文本

5、处理领域,进行面向文本分类的独立特征抽取,并对其中遇到的由于数据稀疏和维数过高造成的收敛速度慢,稳定性差的问题进行了解决;将独立分量分析技术与传统的特征选取方法相结合,在通用数据集上进行了文本分类实验,实验结果验证了这种技术的优越性。(2)政府公文均带有主题词,而主题词携带了大量的类别信息。如何利用这些信息帮助文本分类?首先本文针对主题词不足的问题,根据Bootstrapping学习框架构建了一个主题词相关词的自动获取模型—_KwB模型,用于对政府公文主题词集合的扩展;然后运用随机关键词产生技术,将公文文本表示成主题词空间的条件概率,这样也同时实现了文本特征空间的降维;将

6、KWB模型与随机关键词产生技术相结合进行了公文文本分类实验,结果证明该方法能充分利用主题词的类别信息,提高分类性能。(3)针对主观句子判别正确率不高的问题,应用文本分类技术,提出了三类训练、两类判别的分类框架。并在公开语料MPQA上进行了实验,结果证明在语料中间接主观句子极少的情况下,该框架也能有效提高主观句子判别的准确率。针对训练语料不足以及对实体多方面的观点极性分析的需要,提出了一种基于弱指导学习的分析技术,实现句子级的实体方面特征识别和实体多方面观点的极性分析。实验证明该方法取得了较好的准确率。(4)通过深入分析NTCIR.7中专利挖掘任务的训练数据及任务难点,提出

7、kNN分类框架是完成此任务的很好选择;针对训练数据分布极端不均衡的问题,提出在Ranking决策时加惩罚因子的方法解决该问题;研究了多种相似度计算方法,并在此基础上提出、改进了多种Ranking决策方法:如带有大类惩罚因子的Weak方法、NVote方法等。为东北大学博士学位论文摘要了提高系统性能,应用机器学习中的Log.1inear和Rank.SVM模型提出了基于系统融合的结果链表二次调序方法。该方法使系统性能得到了很大提升,在NTCIR-7的评测中取得了第一名的好成绩。总之,本文面向一些特殊领域,对文本分类中的特征抽取、分类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。