汉语语体的计量特征在文本聚类中的应用

汉语语体的计量特征在文本聚类中的应用

ID:5297985

大小:273.95 KB

页数:4页

时间:2017-12-07

汉语语体的计量特征在文本聚类中的应用_第1页
汉语语体的计量特征在文本聚类中的应用_第2页
汉语语体的计量特征在文本聚类中的应用_第3页
汉语语体的计量特征在文本聚类中的应用_第4页
资源描述:

《汉语语体的计量特征在文本聚类中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ComputerEngineeringandApplications计算机工程与应用2009,45(29)25汉语语体的计量特征在文本聚类中的应用黄伟1,2,刘海涛21,2,LIUHai-tao2HUANGWei1.北京语言大学汉语水平考试中心,北京1000832.中国传媒大学应用语言学研究所,北京1000241.ChineseProficiencyTestCenter(HSK),BeijingLanguageandCultureUniversity,Beijing100083,China2.InstituteofAppli

2、edLinguistics,CommunicationUniversityofChina,Beijing100024,ChinaE-mail:huangwei@blcu.edu.cnHUANGWei,LIUHai-tao.ApplicationofquantitativecharacteristicsofChinesegenresintextclustering.ComputerEngi-neeringandApplications,2009,45(29):25-27.Abstract:Themethodofapplying

3、thefindingsinquantitativestudyonlinguisticstoresearchontextclusteringispresented.16linguisticstructures,whichdistributedistinctivelybetweenoralandwrittenChinese,areinvestigatedbasedontwosamplecorporawithsizeofhalfmillionwordsforeach.Testtextsrepresentedbyusing7ofth

4、oselinguisticstructuresarecorrectlyclusteredintospoken(similarity=89.84%)andwritten(similarity=86.93%)classesinatextclusteringexperiment.Themethodofrepresentingtextswithquantitativecharacteristicsoflinguisticstructuresenhancestheinterpretabilityoftheresults,andisfe

5、asibleandtheoreticallyandpracticablysignificativeintextclusteringandtextclassification.Corpusandstatisticsaremethodologicallysignificantinde-scribingstudyonChinesegenres,thetheoreticalfoundationsofwhicharealsoincluded.Keywords:textclustering;genrecharacteristics;li

6、nguisticstructure;spokenChinese;writtenChinese摘要:提出了将语言计量研究成果应用于文本聚类研究的方法。通过两个50万词的语料样本发现了在现代汉语口语体和书面语体中具有显著分布差异的16个语言结构特征;以其中7个作为文本表示特征准确地将实验文本聚类为口语体(相似度89.84%)和书面语体(相似度86.93%)两类。以语言结构的计量特征表示文本的方法加强了聚类/分类研究的可解释性,具有较高的理论和应用价值。以语料库和统计方法进行语体特征计量研究是汉语语体描写研究的重要方法,阐述了其理

7、论基础。关键词:文本聚类;语体特征;语言结构;汉语口语;汉语书面语DOI:10.3778/j.issn.1002-8331.2009.29.007文章编号:1002-8331(2009)29-0025-03文献标识码:A中图分类号:TP391.11引言生文本关于语言结构方面的数据,就有可能以此为基础对这些在目前的文本聚类和文本分类技术中,文本特征通常用字、文本进行聚类。根据这些语言结构在语体计量特征方面的信词、N元结构、语义或概念等来表示[1-3]。这些特征的获取基本上息,也可以对陌生文本进行鉴别和分类。都是基于统计和决策算

8、法实现的,需要通过计算互信息、卡方通过各种特征对文本进行统计分析的思想最早见于数学统计量或熵等进行特征抽取和优化[4-7]。且不说计算过程复杂,家Morgan在1851年的猜想和建议。1935年Zipf有关语言统如此提取的文本特征与分类结果的优劣都很难从语言学角度计的著作的出版标志着一个新

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。