欢迎来到天天文库
浏览记录
ID:5318098
大小:186.72 KB
页数:2页
时间:2017-12-08
《web文本挖掘在智能分类中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、ShandongIndustrialTechnology第11期山东工业技术2013焦Web文本挖掘在智能分类中的应用张黎黎(长春工程学院,吉林长春130012)【摘要lWeb文本挖掘是指使用中心词汇来表示文档的方法,利用给出求取中心文档和中心词汇的算法.对Web上大量文档集合的内容进行总结、分类、聚类和关联分析,亦可利用Web文档进行趋势预测。Web文本挖掘采用向量空间模型和语义检索技术表示文本文本分类的算法有很多种,其中最常用到的是TFIDF算法和NaiveBayes算法。本文采用NaiveBayes算法实现对专利的智能分类I关键词】文本挖掘;NaiveBayes算法;分类Appl
2、icationofWebtextminingintheIntelligentClassificationZHANGIJi_Ii(ChangchunInstituteofTechnology,Changchunin,130012)【Abstract]Webtextminingreferstotheuseofcenterwordstoexpressthedocumentmethod.usingthegivenalgorithmofobtainingthecenterdocumentandcenterwords,summary,classification,clusteringandasso
3、ciationanalysisofWebonthecontentsofthedocuments,itcRnuseWebdocumentforthetrendpredictionaswel1.Webtextminingusingthevectorspacemodelandsemanticretrievaltoexpressthetext.Therearemanykindsoftextclassificationalgorithm,oneofthemistheTFIDFalgorithmandtheNaiveBayesalgorithm.,I11ispaperusesNaiveBayesa
4、lgorithmtorealizetheintelligentclassificationofpatent.【Keywords]Textmining;NaiveBayesalgorithm;Classification1文本挖掘概述c=argm[1。+mPr)l。lPr(X,/dc)1)]文本挖掘.又称为“文本数据挖掘”或“文本知识发现”.是从文本数据中抽取隐含的、未知的、潜在且有用信息的过程。它是个分析文本其中指C类文档第i个特征,Pr/d)是从C类文本中得到特数据、抽取文本信息.进而发现文本知识的过程。文本挖掘的出现为文征词的概率,Pr)是从文本d中得到特征词的概率,n指d中本信息
5、的整理、分析、挖掘提供了有效手段【q词的个数,m是系统词典的大小。若所得阙值大于预先设定的值.则认文本挖掘的主要目标是获得文本的主要内容特征.如文本的主为文本d属于C类别.否则不是题、文本主题的类属、文本内容的浓缩等。文本挖掘主要有特征抽取、从概率的大小来研究.NaiveBayes算法可描述为:设文档d的文文本分类、聚类等技术。从提取特征值作为起始点.将自然语言文本自档向量的分量为相应的特征词在该文档中出现的频度.则d属于C类动分配给预定义的类别,利用文本特征向量对文本进行分类.再将一文档的概率公式为:个数据对象的集合分组成为多个类或簇.从而产生类标记=2Web文本挖掘∑ip(c)nP
6、(。/c)⋯reb文本挖掘是指使用中心词汇来表示文档的方法利用给出求p/c)=取中心文档和中心词汇的算法日.对web上大量文档集合的内容进行总结、分类、聚类和关联分析,亦可利用Web文档进行趋势预测。P(/c)是特征词蕾在C类文档中出现的条件概率的拉普拉斯概Web文本挖掘过程中[31,关注的是信息元素本身的内容与意义.是率估计,TF(x,c)是C类文档中特征词出现的频度,d)是d类以文本、图片、音频、视频或者结构记录等信息内容为对象.从中挖掘文档中特征词蕾出现的频度,Ivl是文档表示中所包含的不同特征的知识内容和语义关联模式总数目Web文本挖掘是通过HTML文档进行信息的采集.将分布在
7、Web服务器上的待挖掘文档集成在本地文本库中提取有用的Web文4实例说明本信息。然后,采用基于词典的逐字二分查找方法自动分词采用向量利用NaiveBayes算法.通过对用户提交信息的关键字的提取.对空间模型和语义检索技术表示文本,采用评估函数xz统计法对文本专利信息进行智能归类。的名称、类型、大小等特征进行提取。web文本挖掘流程如下图所示:现假设已经对用户提交信息提取完毕.形成的样本为:发明、请求、权利。且已事先给定一组分好类的文本作为训练数
此文档下载收益归作者所有