资源描述:
《基于机器学习的web文本分类技术及算法new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第30卷第3期长春工业大学学报(自然科学版)Vol130No.32009年06月JournalofChangchunUniversityofTechonology(NaturalScienceEdition)Jun12009基于机器学习的Web文本分类技术及算法3金春霞,周海岩(淮阴工学院计算机工程系,江苏淮安223003)摘要:提出了一种基于机器学习的Web文本自动分类的信息检索解决方案。采用层次约束法完成文本自动抓取功能,文本频度与词条频度相结合的文本特征选择算法实现特征提取,并采用特征加权
2、技术进一步提高文本分类性能。该算法不仅实现中文文本的自动分类,有效地提高Web信息检索的精度,而且能大大降低人工二次浏览筛选的工作量,还可用于电子政务和电子商务信息的自动分类。关键词:网络蜘蛛;特征选择;文本分类;特征加权;朴素贝叶斯中图分类号:TP391.1文献标识码:A文章编号:167421374(2009)0320347205StudyonWebtextcategorizationandalgorithmbasedonmachinelearning3JINChun2xia,ZHOUHai2
3、yan(DepartmentofComputerEngineering,HuaiyinInstituteofTechnology,Huai’an223003,China)Abstract:Asolutionforwebtextcategorizationinformationretrievalbasedonmachinelearningisputforward.Weadoptlevelconstrainttorealizetext2crawledfunction,andapplythefeatu
4、reselectionsfromthecombinationofdocumentfrequencyandtermfrequencytofulfillthefeatureextraction.Thefeaturesareweightedtoimprovetheperformanceoftextcategorization.ThealgorithmcanrealizeautomaticChinesetextcategorization,improvetheprecisionofwebinformat
5、ionretrievalandgreatlydecreasetheamountofworkforbrowsingandfiltering.ItcanalsobeusedfortheautomaticcategorizationofE2governmentandE2commerceinformation.Keywords:networkspider;featureselection;textcategorization;featureweight;NaiveBayes.信息检索领域急需解决的关键问
6、题。而搜索引擎0引言是实现网络信息检索的有效工具,因此,提高搜索随着因特网的快速发展,网上信息浩如烟海,引擎的智能化程度和搜索效率,降低人工二次搜互联网上的中文网页信息数以亿计,如何利用计索的工作量,就成为当前智能检索的研究热点。算机技术快速有效地获取有价值的信息已是中文中文文本分类技术为此类问题提供了一个切实可收稿日期:2009202210基金项目:江苏省科技攻关项目(BE2006357)作者简介:金春霞(1973-),女,汉族,陕西兴平人,淮阴工学院讲师,硕士,主要从事计算机应用、信息处理、
7、数据挖掘方向研究,E2mail:jcxbzn@163.com.3联系人:周海岩(1957-),男,汉族,河南虞城人,淮阴工学院教授,主要从事信息安全、数据挖掘、人工智能、智能决策等方向研究,E2mail:zhy_5703@163.com.©1994-2009ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net348长春工业大学学报(自然科学版)第30卷行的解决途径,即通过构造文本自动
8、分类器,依据于Web文本内容的分类来讲并无价值,而有价值文本的内容对待定文本进行分类,以此实现Web的信息仅限
⋯
之间的文本内容。[122]信息的检索。2.2中文分词主要问题是中文分词的准确性和词条切分的1Web文本的自动抓取速度。词条是信息表达的最小单位,中文不同于网络蜘蛛是当前搜索引擎从互联网上抓取西文,中文句子的词条之间没有分隔符,而且分词Web网页普遍使用的工具。网络蜘蛛遍历Web时还要考虑汉语的词法、句法以及语义,因此中文空间,抓取Web文本,对抓取的Web文本进行解分词比