CCAE项目中标签云模块的设计与实现

CCAE项目中标签云模块的设计与实现

ID:37322808

大小:3.62 MB

页数:67页

时间:2019-05-21

CCAE项目中标签云模块的设计与实现_第1页
CCAE项目中标签云模块的设计与实现_第2页
CCAE项目中标签云模块的设计与实现_第3页
CCAE项目中标签云模块的设计与实现_第4页
CCAE项目中标签云模块的设计与实现_第5页
资源描述:

《CCAE项目中标签云模块的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、CCAE项目中标签云模块的设计与实现作者:王娇指导教师:骆斌教授贝佳副教授南京大学研究生毕业论文(申请工程硕士学位)南京大学软件学院2011年5月TheDesignandImplementationofTagCloudModuleInCCAEWang,JiaoSubmittedinpartialfulfillmentoftherequirementsforthedegreeofMasterofEngineeringStpervisedby:SupervisedbyProferofessor⋯LUO,BinU。bmAssociateProfessorBEI,J

2、iaSoftwareInstituteNANJINGUNlVERSITYNanjing,ChinaMay,2011摘要标签云是一系列使用权重来标注的相关标签。标签代表着用户关心的文本空间中的热门关键字,而权重代表了标签在文本空间中的热门程度。标签云模块提供了对文本集合关键内容的整体概括性的显示,用户可以通过标签云的视图对文本内容有大概而直观的了解。现有的提供标签云功能的软件普遍把标签云做为一种前端的展示技术,大多数都采用静态设置标签内容的方式来管理作为标签的关键词。而具有对文本标签进行提取的功能的软件也大多只能提供对英文文本的分析,由于中文和英文语法的不同使

3、得两种语言的文本标签在提取上存在着很大差异,英文的标签提取方法并不适用于中文文本。因而现有的提供标签云功能的软件不能满足CCAE项目的标签云模块的需求。本文提供了一种方法对中文文本文件进行分析处理,使用基于统计学的方法对文本进行中文分词以及关键词的提取,使用词汇出现的次数做为分析处理的最重要标准,把提取到的关键词做为文本的标签。在应用中使用Lucene做为底层构造用于实现标签的索引和搜索,并利用javascript和Dojo建立界面实现标签云的显示以及与用户的交互。本文实现的标签云模块做为对IBM的企业级搜索软件OmniFind的扩展,提供了对OmniFin

4、d所搜索的文本空间中的标签云显示,并使用户可以利用标签来做为对OmniFind文本内容的搜索入口。同时该标签云模块也可做为独立模块单独运行。本文实现的标签云模块提取出的标签可以有代表性的反映出文本集合的关键性内容,给予用户明确直观的关于文本集合内容的展示。该模块的引入使得OmninFind对文本处理的运行速度稍有减缓,但是仍在可接受范围之内,而标签的索引文件所占空间很小,能在最大程度上满足用户对于功能和性能的需求。关键词:标签云,中文分词,关键字提取,LuceneAbstractlagcloudisasetoftagsmarkedbyweight.Tagis

5、thekeywordoftheuserconcernedtextcollection.Andtheweightrepresentsthepopularityofthetag.Thetagcloudprovidesanoverallviewofthistextcollection.UserscangetageneralunderstandingofthecontentinthetextcollectiondirectlyfromthesetagsSoftwaresprovidingthefunctionoftagcloudthesedaysusuallyuse

6、itasafront-enddisplaytechnology_Theymanagethekeywordsbyseffingthemstatically.SeveralsoftwareswhichCanextracttagsf内mtextsonlyprovideEnglishtextanalysis.DuetothedifferencesbetweenChineseandEnglishgrammar,thewaythatextractstagsfromEnglishtextsCannotbeusedintheChinesesituation.Thefunct

7、ionoftagcloudthatthesesoftwaresprovidecannotmeettheCCAE’SneedsThisarticleprovidesawaytoanalyzeChinesetextfiles,andextractthekeywordsfromthetextsbasedonthestatistics.Thismethodusesthefrequencyofwordsasthemostimportantcriterion.ItusesLucenetoindexandsearchthetags,andjavascripttosetup

8、theinterfacetodisplaytagsa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。