基于语义过滤的文本和文本流聚类研究

基于语义过滤的文本和文本流聚类研究

ID:35192567

大小:1.86 MB

页数:64页

时间:2019-03-21

基于语义过滤的文本和文本流聚类研究_第1页
基于语义过滤的文本和文本流聚类研究_第2页
基于语义过滤的文本和文本流聚类研究_第3页
基于语义过滤的文本和文本流聚类研究_第4页
基于语义过滤的文本和文本流聚类研究_第5页
资源描述:

《基于语义过滤的文本和文本流聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中山大学硕士学位论文基于语义过滤的文本和文本流聚类研究专业名称计算机软件与理论学位申请人导师姓名蔡嘉荣印鉴教授研究方向信息处理与数据挖掘答辩委员会主席(签名)答辩委员会委员(签名)一曼蕴掐——中山大学信息科学与技术学院二oo七年五月基于语义过滤的文本和文本流聚类研究论文题目专业硕士生指导教师计算机软件与理论蔡嘉荣印鉴教授,刘玉葆讲师摘要文本聚类是信息索91.信息检索以及WEB挖掘中一个重要的步骤,是数据挖掘的重要领域之一.在许多实际应用中,如新闻组过滤、主题跟踪等,文本是以连续的流数据形式出现,这给传统的基于静态文本数据集的聚类算法带来巨大的挑战.但无论是离线静态

2、文本聚类还是在线动态文本流聚类,现有的算法往往因为不能有效处理文本中复杂的语义,导致聚类精确度不高。具体来说,这主要是由于现实文本常常包含过多的“通用词”和过少的“核心词”而造成的。最近,信息检索领域中的语义过滤技术被提出来解决这一问题,并取得了不错的效果。它运用多词短语作为主题签名,并使用翻译转换模型来引入文本中没有的核心词,从而达到减少通用词的影响并增强核心词的作用的目的。在文本聚类领域具有广阔的应用前景。我们对现有的语义过滤模型进行了研究,首先针对现有模型通用词削弱能力不够强的问题,提出一种改进模型,并把该模型与基于静态文本集的聚类算法相结合,实验表明该算法

3、能大幅度提高现有静态文本聚类算法的聚类精确度。然后在语义过滤技术基础上,提出了一种包含文本语义的聚类信息结构即聚类轮廓(clusterprofile),并给出了一种有效的适用于大规模动态文本流环境的在线聚类算法。该算法能有效解决文本流中的语义问题,能极大提高语义文本流的聚类精确度和稳定性。通过多组实验数据比较,进一步证明了算法的有效性和高效性。关键词:语义过滤,文本聚类,文本流聚类第1贞基于语义过滤的文本和文本流聚类研究TitleClusteringStaticCorpusandDynamicTextStreamsbasedonSemanticSmoothingM

4、ajorComputerSoftwareandTheoryNameCaiJiarongSupervisorProf.YinJianandLect.LiuYubaoABSTRACTClusteringtextdocumentsintodifferentcategorygroupsis∞importantstepinindexing,retrieval,managementandminingofabundanttextdataontheWeborincor-porateinformationsystems.Manytextminingapplicationssucha

5、snewsgroupfiltering,topicdetection,textcrawling,anddocmnentorganizationrequirerealtimeclustering,inwhichtextdataCOme∞acontinuousstream.Thispresentsmanychallengestotradi-tionaltextmining.However,nomatterstatictextordynamictextstreams,theexistingmethodsfailtogethighclusteringaccuracybec

6、auseofthecomplexsemanticsofthetext.Inapplication,thisisbecausemostdocumentsareoftenfullofclass-independent‘'general”wordsandshortofclass-specific"core"words.Recently,semanticsmooth-ing,whichhasbeenwidelystudiedinthefieldofInformationRetrieval,isproposedasanefficientsolution.Context-se

7、nsitivesemanticsmoothingapproachemploysmul-tiwordphraseastopicsignatureandllsestranslationmodeltodiscountgeneralwordsandassignreasonablecountstounseenCorewords,whichmakesitpromisingfortextclustering.Basedontheresearchoftheexistingmodel,thispaperproposesanimprovedsemanticsmoothingmodel

8、forcl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。