文本挖掘的方法及应用研究.pdf

文本挖掘的方法及应用研究.pdf

ID:52359609

大小:169.63 KB

页数:2页

时间:2020-03-26

文本挖掘的方法及应用研究.pdf_第1页
文本挖掘的方法及应用研究.pdf_第2页
资源描述:

《文本挖掘的方法及应用研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、采用文本挖重点集}_提取出来的量的电子信息,如电子文档、电子出版物、万维网等,其中以关键词、标记或语义信息,其中最卜要使用的法:天联分文本形式的信息占比最大。这些文本信息存储在文本数据库析、文本分类和文本聚类。中,属于半结构化数据。文档挖掘技术可帮助用户比较非结构3.1关联分析化的文本信息,确定文档的重要性和相关度,找出多个文档的关联分析首先要对文本数据进行分析、词根处理、去除停共通模式或趋势,成为数据挖掘中的一个重要研究方向。用词等预处理,再调用关联挖掘算法,如Apriori算法。关联挖掘算法多使用支持度一置信度框

2、架,最小支持度和置信度闽2.文本挖掘的处理过程值可排除大量尢益的规则。存文本数据库中,视每个艾档为文本挖掘从数据挖掘发展而来,但面向的是半结构化或个事务,文档中关键词的集合视作是事务中的项集。所以丈小非结构化的文本数据,无确定形式并且缺乏机器叮理解的语数据库中关键词关联挖掘的问题就映射为事务数据库【fJ项的义;因此除采用数据挖掘的一些常见方法之外,还涉及到文本关联挖掘。关联挖掘过程有助于找出复合关联,即领域卡闩关的分析、模式识别、统计学、数据可视化、数据库、机器学习等技术语或短语,如[西红柿,蔬菜】,也可找非复合天联

3、,[慕术的运用。金,银行,证券,投资1。这样的关联挖掘也被称为“术语级天联文本挖掘的处理过程主要包括对含有大量文档集合的内挖掘”,便于找出术语和关键词间的关联。具有尢人j:标容进行文本预处理、特征提取、结构分析、文本摘要、文本分文本、极大减少算法的执行时间和无意义结果的优点。类、文本聚类、关联分析、质量评估、模式生成、结果输出等,如3.2文本分类图l所示。F}{t存存人草的文本,自动对这些义本分类组纵以使检索和分析,是文本挖掘至关重要的仟务。义本分类足种“有教师”的机器学习方法。首先要取一组预处的文小特亡二二毂单二}

4、‘倦?卫^!tL翱本舒锄壤}髓向量集作为训练集,每个训练集有个类别编号;然后选择分类方法分析训练集并导出分类模式;再检验这个分类模式以求t艇竹/一●精;最后用训练好的分类模型对其它待分类文小进行分类。常\/6用的文本分类方法有:图1文本挖掘的处理过程(1)最邻近分类法。将全部训练文本进行简索引,嘶个文本部关联到对应的类别编号。当提交一个榆验文本时,把它文本预处理的目的是选取任务相关的文本并将其转化成当作查询提交,并从训练集中检索查询最相似的11个l殳文本挖掘:I具可以处理的中问形式。特征提取一般会构造档。检验文档的类

5、别编号由它的1个最邻近的类别编号的分个评价函数,对每个特征进行评估,按分值高低排列,预定数布决定。这种方法需要相对其它分类方法会占用史多的存储日分数最高的特征被选取。接着将进行系列分析挖掘步骤,训练信息的空间和查找倒排索引所消耗的时间。利用机器学习、数据挖掘以及模式识别等方法提取面向特定(2)特征选择分类法。向量空间模型可能会将大权重赋应用目标的知识或模式。在最后挖掘结果输出前,需根据已经某些稀有词,而不管它的类分类特征如何,这些稀有侧的仔定义好的评估指标对获取的知识或模式进行质量评估。如果可能会导致无效的分类。此时

6、可以使用特征选择分类法删除不符合要求,则要返回到前面的环节重新调整和改进。训练文本中与类别编号不相关或冗余的训,其H的是找f{j直支作者简介:张晓艳,女,江苏苏州人,硕士,讲师,工程师。主要研究方向:数据挖掘技术~68—经验交流小特征集,使得数据类的概率分布尽可能接近使用所有特征用户查询,在文本集合时定位相关文档。信息检索系统的一般得到的原分布。使用特征选择删除非特征词后,产生的训练文流程为:对文本集合建立倒排索引、分析用户查询请求、匹配本分类结果更有效。文档与查询请求、对查询结果进行排序以及用户相关度回馈。(3)贝

7、叶斯分类法。这是一种统计学分类方法,因为文本(2)自定义组织联机文档。对于联机文档,可以自行制定分类可以看作是计算文本在特定类中的统计分布。贝叶斯分组织方案,利用文本分类对这些文档进行自动编目。方便用户类器首先通过对每个类X计算文本Y的生成的文本分布不仅能够浏览文档,并且还可以通过限制搜索范围提高查找P(xly)来训练模型,然后测试哪个类最可能产生检验文:本。贝叶效率。斯分类可以预测类成员关系的可能性,适用于处理高维的数(3)改进搜索引擎的检索结果。利用文本聚类方法,把搜据集,准确率和速度均较高。索引擎的检索结果分为

8、若干簇,加以标注,改善用户查看检索3.3文本聚类结果的方式,帮助用户从无关联的线性文档列表转为查看有文本聚类是一种“无教师”的机器学习方法。依据著名的规律的分类结果。聚类假设:同类的文本相似度较大,不同类的文本相似度较(4)提升商务电子化的管理效率。实施电子商务的企业可小。它从给定的文本本身出发,根据文档特征词向量,将相关通过对客户访问信息、商

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。