宋词风格的计算机辅助分析研究

ID:32603398

大小:1.77 MB

页数:51页

时间:2019-02-13

宋词风格的计算机辅助分析研究_第1页
宋词风格的计算机辅助分析研究_第2页
宋词风格的计算机辅助分析研究_第3页
宋词风格的计算机辅助分析研究_第4页
宋词风格的计算机辅助分析研究_第5页
资源描述:

《宋词风格的计算机辅助分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、厦门大学学位论文著作权使用声明本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。本学位论文属于1.保密(),在年解密后适用本授权书。2.不保密()(请在以上相应括号内打“√’’)作者签名;昊苍疹刷币签轹(日期:弘。8年j月乡oEt日期:硼年9月)∥日第一章绪论1.1前言诗词作为中国文学史上的瑰宝之一,因其

2、恒久不衰的魅力而流传千古。这种受到普罗大众和文人骚客青睐的文学形式经过不断的成长、演变以及传播,在唐代和宋代达到了发展的顶峰。对唐诗宋词的研究一直是广大学者和文学爱好者的一个研究热点。自古以来,无数专家学者前仆后继,从文学的角度对唐诗宋词进行了广泛而深入的研究。然而,随着信息科学技术的不断发展,人们开始尝试利用信息科学技术来处理工作生活中遇到的语言方面的一些问题。自然语言学在近年来得到了飞速的发展。面对自然语言处理在现代汉语中取得的一个又一个的胜利,本文尝试着将某些自然语言处理的方法运用到古代诗词中。同时针对古代诗词区别于现代汉语的不同之处,从计算机的角

3、度出发,综合数据挖掘、遗传算法等技术和知网等资源,着重阐述了文本分类技术在宋词风格分类方面的应用。1.2研究背景文本的自动分类始于50年代末,H.P.Lulm在这一领域进行了开创性的研究【l】。早在1961年,Maron发表了第一篇关于自动分类技术的文章,之后国际上许多著名的学者都对这一问题进行了深入的研究,如:K.Sparch[21、GSlaton[3】以及BuckleyC14】等都在这一领域取得了卓有成效的研究成果。我国的自动分类工作始于80年代初期,大体上经历了:可行性探讨——辅助分类系统——自动分类系统三个发展阶段。所谓的自动分类系统产生于上世纪

4、90年代,其特点是将基于统计的方法和机器学习的方法引入到文本自动分类中。其中,基于统计的方法考虑了文档上下文的相关信息,而机器学习的方法较少考虑文本的语义信息.因此将语义分析和概念网络等方法与机器学习方法相结合会取得较好的分类效果。基于机器学习的文本分类方法主要由三个部分组成:文本的表示(representation),分类方法以及效果(effectiveness)评估【5】。也就是说文本分来词风格的计算机辅助分析研究类首先关心的是项(term)或者特征的向量空间表示模型(VSM)以及特征选择(selection)与特征提取(extraction)两种表

5、示空间降维(dimensionalityreduction)的策略;其次应考虑分类算法的构造或模型的挖掘学习过程;最后是分类效果评估指标的选择,如正确率(precision)、召回率(recall)、均衡点(BEP)、FI(常用FI)和精度(accuracy)等【6】。在文本分类开始之前,需要将非结构化的文档数据表示成计算机能够理解的数据形式,这就要求先对文档进行相应的预处理和特征表示,将非结构化或半结构化的数据形式转化成计算机能够处理的结构化数据形式。这包括了分词、低频词和禁用词过滤、特征表示、特征提取等一系列过程。所谓分词,就是在中文文档中的各词条间

6、加入分隔符,将中文文档的连续字符流形式转化成离散的词流形式。目前采用的分词方法主要有:正向、逆向最大匹配法,逐词遍历法,最佳匹配法,词频统计法,此外还有二次扫描法,邻接约束法等【_兀。特征表示是指用一定的特征项来表示文档,在文本分类时只需对这些特征项进行处理,进而实现对非结构化的文本的处理。目前常用的特征表示模型有:布尔模型(BooleanModel)、概率模型(ProbabilisticModel)【8】和向量空间模型(VectorSpaceModel)。其中向量空间模型是常用的特征项表示模型。特征提取是通过高维数据变换将数据映射到低维空间,以此来降低

7、文档特征表示模型的空间维数,达到简化计算以及防止过度匹配的目的。目前常用的特征提取方法主要有:文档频率DF(DocumentFrequency)、互信息MI(MutualInformation)、贮统计和信息增益IG(InformationGain)【9】。目前常用的分类算法可以分为以下三种类型:第一,基于统计方法的分类算法,如:Bayes算法【loJ、KNN(K-NearestNeighbor)fIIJ算法、类中心向量、回归模型、支持向量机【121、最大熵模型等方法;第二,基于连接的方法,如:人工神经网络算法;第三,基于规则的方法:如决策树、关联规则等

8、方法。三种不同的分类技术在方法上各有不同的侧重点,因此具有各自的优缺点。基于统计

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
正文描述:

《宋词风格的计算机辅助分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、厦门大学学位论文著作权使用声明本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。本学位论文属于1.保密(),在年解密后适用本授权书。2.不保密()(请在以上相应括号内打“√’’)作者签名;昊苍疹刷币签轹(日期:弘。8年j月乡oEt日期:硼年9月)∥日第一章绪论1.1前言诗词作为中国文学史上的瑰宝之一,因其

2、恒久不衰的魅力而流传千古。这种受到普罗大众和文人骚客青睐的文学形式经过不断的成长、演变以及传播,在唐代和宋代达到了发展的顶峰。对唐诗宋词的研究一直是广大学者和文学爱好者的一个研究热点。自古以来,无数专家学者前仆后继,从文学的角度对唐诗宋词进行了广泛而深入的研究。然而,随着信息科学技术的不断发展,人们开始尝试利用信息科学技术来处理工作生活中遇到的语言方面的一些问题。自然语言学在近年来得到了飞速的发展。面对自然语言处理在现代汉语中取得的一个又一个的胜利,本文尝试着将某些自然语言处理的方法运用到古代诗词中。同时针对古代诗词区别于现代汉语的不同之处,从计算机的角

3、度出发,综合数据挖掘、遗传算法等技术和知网等资源,着重阐述了文本分类技术在宋词风格分类方面的应用。1.2研究背景文本的自动分类始于50年代末,H.P.Lulm在这一领域进行了开创性的研究【l】。早在1961年,Maron发表了第一篇关于自动分类技术的文章,之后国际上许多著名的学者都对这一问题进行了深入的研究,如:K.Sparch[21、GSlaton[3】以及BuckleyC14】等都在这一领域取得了卓有成效的研究成果。我国的自动分类工作始于80年代初期,大体上经历了:可行性探讨——辅助分类系统——自动分类系统三个发展阶段。所谓的自动分类系统产生于上世纪

4、90年代,其特点是将基于统计的方法和机器学习的方法引入到文本自动分类中。其中,基于统计的方法考虑了文档上下文的相关信息,而机器学习的方法较少考虑文本的语义信息.因此将语义分析和概念网络等方法与机器学习方法相结合会取得较好的分类效果。基于机器学习的文本分类方法主要由三个部分组成:文本的表示(representation),分类方法以及效果(effectiveness)评估【5】。也就是说文本分来词风格的计算机辅助分析研究类首先关心的是项(term)或者特征的向量空间表示模型(VSM)以及特征选择(selection)与特征提取(extraction)两种表

5、示空间降维(dimensionalityreduction)的策略;其次应考虑分类算法的构造或模型的挖掘学习过程;最后是分类效果评估指标的选择,如正确率(precision)、召回率(recall)、均衡点(BEP)、FI(常用FI)和精度(accuracy)等【6】。在文本分类开始之前,需要将非结构化的文档数据表示成计算机能够理解的数据形式,这就要求先对文档进行相应的预处理和特征表示,将非结构化或半结构化的数据形式转化成计算机能够处理的结构化数据形式。这包括了分词、低频词和禁用词过滤、特征表示、特征提取等一系列过程。所谓分词,就是在中文文档中的各词条间

6、加入分隔符,将中文文档的连续字符流形式转化成离散的词流形式。目前采用的分词方法主要有:正向、逆向最大匹配法,逐词遍历法,最佳匹配法,词频统计法,此外还有二次扫描法,邻接约束法等【_兀。特征表示是指用一定的特征项来表示文档,在文本分类时只需对这些特征项进行处理,进而实现对非结构化的文本的处理。目前常用的特征表示模型有:布尔模型(BooleanModel)、概率模型(ProbabilisticModel)【8】和向量空间模型(VectorSpaceModel)。其中向量空间模型是常用的特征项表示模型。特征提取是通过高维数据变换将数据映射到低维空间,以此来降低

7、文档特征表示模型的空间维数,达到简化计算以及防止过度匹配的目的。目前常用的特征提取方法主要有:文档频率DF(DocumentFrequency)、互信息MI(MutualInformation)、贮统计和信息增益IG(InformationGain)【9】。目前常用的分类算法可以分为以下三种类型:第一,基于统计方法的分类算法,如:Bayes算法【loJ、KNN(K-NearestNeighbor)fIIJ算法、类中心向量、回归模型、支持向量机【121、最大熵模型等方法;第二,基于连接的方法,如:人工神经网络算法;第三,基于规则的方法:如决策树、关联规则等

8、方法。三种不同的分类技术在方法上各有不同的侧重点,因此具有各自的优缺点。基于统计

显示全部收起
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭