web文本挖掘在智能分类中应用

web文本挖掘在智能分类中应用

ID:25053022

大小:79.78 KB

页数:6页

时间:2018-11-18

web文本挖掘在智能分类中应用_第1页
web文本挖掘在智能分类中应用_第2页
web文本挖掘在智能分类中应用_第3页
web文本挖掘在智能分类中应用_第4页
web文本挖掘在智能分类中应用_第5页
资源描述:

《web文本挖掘在智能分类中应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Web文本挖掘在智能分类中应用【摘要】Web文本挖掘是指使用中心词汇来表示文档的方法,利用给出求取中心文档和中心词汇的算法,对Web上大量文档集合的内容进行总结、分类、聚类和关联分析,亦可利用Web文档进行趋势预测。Web文本挖掘采用向量空间模型和语义检索技术表示文本。文本分类的算法有很多种,其中最常用到的是TFIDF算法和NaiveBayes算法。本文采用NaiveBayes算法实现对专利的智能分类。【关键词】文本挖掘;NaiveBayes算法;分类ApplicationofWebtextminingintheIntelligentClassi

2、ficationZHANGLi-li(ChangchunInstituteofTechnology,ChangchunJilin,130012)[Abstract]Webtextminingreferstotheuseofcenterwordstoexpressthedocumentmethod,usingthegivenalgorithmofobtainingthecenterdocumentandcenterwords,summary,classification,clusteringandassociationanalysisofWebon

3、thecontentsofthedocuments,itcanuseWebdocumentforthetrendpredictionaswell.Webtextminingusingthevectorspacemodelandsemanticretrievaltoexpressthetext.Therearemanykindsoftextclassificationalgorithm,oneofthemistheTFIDFalgorithmandtheNaiveBayesalgorithm.ThispaperusesNaiveBayesalgor

4、ithmtorealizetheintelligentclassificationofpatent.[Keywords]Textmining;NaiveBayesalgorithm;Classification1文本挖掘概述文本挖掘,又称为“文本数据挖掘”或“文本知识发现”,是从文本数据中抽取隐含的、未知的、潜在且有用信息的过程。它是个分析文本数据、抽取文本信息,进而发现文本知识的过程。文本挖掘的出现为文本信息的整理、分析、挖掘提供了有效手段[1]。文本挖掘的主要目标是获得文本的主要内容特征,如文本的主题、文本主题的类属、文本内容的浓缩等。文本挖

5、掘主要有特征抽取、文本分类、聚类等技术。从提取特征值作为起始点,将自然语言文本自动分配给预定义的类别,利用文本特征向量对文本进行分类,再将一个数据对象的集合分组成为多个类或簇,从而产生类标记。2Web文本挖掘Web文本挖掘是指使用中心词汇来表示文档的方法。利用给出求取中心文档和中心词汇的算法[2],对Web上大量文档集合的内容进行总结、分类、聚类和关联分析,亦可利用Web文档进行趋势预测。Web文本挖掘过程中[3],关注的是信息元素本身的内容与意义,是以文本、图片、音频、视频或者结构记录等信息内容为对象,从中挖掘知识内容和语义关联模式。Web文本

6、挖掘是通过HTML文档进行信息的采集,将分布在Web服务器上的待挖掘文档集成在本地文本库中提取有用的Web文本信息。然后,采用基于词典的逐字二分查找方法自动分词。采用向量空间模型和语义检索技术表示文本,采用评估函数X2统计法对文本的名称、类型、大小等特征进行提取。Web文本挖掘流程如下图所示:Web文本挖掘的基本流程3文本分类常用算法文本分类的算法有很多种,其中最常用到的是TFIDF方法和NaiveBayes算法。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力。

7、TFIDF方法倾向於过滤掉常见的词语,保留重要的词语。NaiveBayes算法是以阙值大小对文本数据进行划分[4]o利用:c)Pr:argmaxlog■■+HPr(xId)logPr(x(xHd)其中,X■指c类文档第i个特征,Pr(x^d)是从C类文本中得到特征词x■的概率,Pr(xBd)是从文本d中得到特征词x■的概率,n指d中词的个数,m是系统词典的大小。若所得阙值大于预先设定的值,则认为文本d属于C类别,否则不是。从概率的大小来研究,NaiveBayes算法可描述为:设文档d的文档向量的分量为相应的特征词在该文档中出现的频度,则d属于C类

8、文档的概率公式为:p(cd)=■p(xHe)=■p(x«c)是特征词x■在C类文档中出现的条件概率的拉普拉斯概率估计,TF(xH,c)是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。