商务智能结课论文-文本挖掘方法研究

商务智能结课论文-文本挖掘方法研究

ID:9176461

大小:319.56 KB

页数:20页

时间:2018-04-20

商务智能结课论文-文本挖掘方法研究_第1页
商务智能结课论文-文本挖掘方法研究_第2页
商务智能结课论文-文本挖掘方法研究_第3页
商务智能结课论文-文本挖掘方法研究_第4页
商务智能结课论文-文本挖掘方法研究_第5页
资源描述:

《商务智能结课论文-文本挖掘方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、题目:文本挖掘方法研究目录摘要3一、概述5二、国内外研究现状与动态5三、主要研究内容81、文本挖掘流程82、文本特征表示83、文本相似度度量114、改进的文本挖掘方法155、文本挖掘方法评估17四、总结与建议18五、主要参考文献19摘要如今互联网世界大数据日益发酵,各种数据一起奔涌而出,其中半结构化和非结构化数据所占比例明显增加,这是由于在信息传递的载体中文本发挥着越来越重要的作用。与之相对应,文本处理得到了众多学者和商业应用的关注。通过文本挖掘可以让用户在浩如烟海的文档中找到隐藏的信息,完成文本分类和聚类等各项功能,通过机器学习

2、等自动化方法简化处理流程提高准确率和精确率。本文首先介绍了向量空间模型的文本表示和基于统计学及信息量的特征选择方法,然后介绍了基于本体的文本语义相似度度量方法,主要有基于信息量的概念相似度计算方法和基于本体结构的概念相似度计算方法,紧接着针对文本分类和聚类两个领域的机器学习方法进行分析,对其存在的问题提出了改进意见。最后介绍了这两类挖掘方法的评估标准,并提出了文本挖掘存在的问题及建议。关键词:文本挖掘,特征选择,本文相似度,文本分类,文本聚类AbstractNowadaysbigdataisincreasinglyacrossth

3、eentireInternet.Variousdatasurgesuptogetherofwhichtheproportionofhalfstructuredandunstructureddatahasincreasedbecausetextsplayanmoreandmoreimportantroleintheinformationtransferprocess.Asaresult,thetextprocessingattractstheattentionofmanyresearchersandenterprises.Witht

4、hehelpoftextmininguserscanfindvoluminousinformationhiddeninthedocument,finishthetextclassificationandclusteringandotherfunctions.Bythemeansofautomationsuchasmachinelearningmethodcansimplifyprocessandimprovetherateofaccuracyandprecision.Firstpartofthepaperintroducesthe

5、vectorspacemodeloftextrepresentationandfeatureselectionmethodbasedonstatisticsandinformation,secondlyintroducesthetextsemanticsimilaritymeasurementmethodbasedonontology,whicharemainlybasedontheconceptofinformationsimilaritycalculationmethodandbasedontheconceptofontolo

6、gystructuresimilaritycalculationmethod.Thenthepaperanalyzetwomethodsofmachinelearningoftextclassificationandclusteringtofindouttheexistingproblemsandputforwardtheimprovementopinion.Finallyintroducesthecriteriafortheassessmentofthetwotypesofminingmethod,andputsforwardt

7、heproblemsexistinginthetextminingandsuggestion.Keywords:textmining,featureselection,textsimilarity,textcategorization,textclustering一、概述互联网的发展给人们提供了更快捷地了解世界,更高效地完成工作,更科学地进行组织的方式,用户通过文本、音频、视频等显性的表达形式完成与互联网的交互,尤其以文本为主。但由于文本的非结构化特征,有用信息需要进行深度挖掘与过滤才能为人们所用。随着数据挖掘领域的发展,机器学习

8、方法开始探索在文本挖掘的应用。由于数据挖掘的对象是以数据库的结构化数据为主,并利用关系表等存储结构来发现知识,而由于文本是半结构化或非结构化的,形式多变且缺乏机器可理解的语义,因此有些数据挖掘技术并不适用文本挖掘,即使可用也需要对文本集进行预处理,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。