欢迎来到天天文库
浏览记录
ID:54367123
大小:388.21 KB
页数:9页
时间:2020-04-29
《基于潜在语义分析的BBS文档Bayes鉴别器.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第27卷第4期计算机学报Vol.27No.42004年4月CHINESEJOURNALOFCOMPUTERSApr.2004基于潜在语义分析的BBS文档Bayes鉴别器l)l)l)2)l)刘昌钰唐常杰于中华杜永萍郭颖l)(四川大学计算机科学系成都6l0064)2)(山西大学计算机科学系太原030006)摘要电子公告栏(BBS)的滥用是一种以信息污染为特色的社会问题,对BBS文档进行鉴别已成为信息安全重要内容之一.该文融合了数据挖掘技术、数理统计技术和自然语言理解技术,提出了基于潜在语义分析与Bayes分类的BBS文档鉴别方法:利用自然语言处理技术从训练文档中抽取典型短语集;通过潜
2、在语义分析进行典型短语同义归约,应用关联规则采掘技术提高典型短语间的独立性;用Bayes分类器对BBS文档进行鉴别.该文还对影响系统的关键参数进行了大量的讨论和测试,实验表明该方法对于BBS文档的鉴别是可行而有效的.关键词数据挖掘;关联规则;Bayes分类;潜在语义分析;BBS中图法分类号TP3llBayesDiscriminatorforBBSDocumentsBasedonLatentSemanticAnalysisl)l)l)2)l)LIUChang-YuTANGChang-JieYUZhong-HuaDUYong-PingGUOYingl)(DepartmentofCom
3、puterScience,SichuanUniuersity,Chengdu6l0064)2)(DepartmentofComputerScience,ShanxiUniuersity,Taiyuan030006)AbstractWiththerapiddevelopmentofInternet,theabuseandmisuseofBBSbecomeasocialprob-lemofinformationpollutionandcallonthedemandtothediscriminationtechniguesforBBSdocument.Borrowingthetechn
4、iguesfromdatamining,probability-statisticsandNaturalLanguageUnderstanding,thispaperproposesanewdiscriminationmethodforBBSdocument,calledBayesDiscriminationbasedonLatentSemanticAnalysi(sBDLSA).Themainstepsofthenewmethodincludesfollowingsteps:(l)Makestypicalphrasesetbyextractingthetypicalsenten
5、cesfromtrainingdocumentsinpreprocessingstagewithnaturallanguageunderstandingtechnigues.(2)AppliessynonymyreductionontypicalphrasesbyLatentSemanticAnalysis.(3)DiscoverstheassociationrulesbetweentypicalphrasestoincreasetheindependencyofphrasessothatthetraditionalBayesdiscriminatorworksefficient
6、ly.(4)DiscriminatesBBSdocumentbyBayesclassifier.Thealgorithmstoconstructtypicalphrasesetandtoreducesynonymyareproposedandimplemented.TheexperimentisbasedonrealdocumentformWeb,withtrainingdataof583documentsandtest-dataof308documents,thecorrectnessisupto75%.Thisshowstheeffetive-nessandvalidatio
7、nofthenewmethod.Keywordsdatamining;associaterule;Bayesclassifier;latentsemanticanalysis;BBS收稿日期:200l-07-ll;修改稿收到日期:2003-09-ll.本课题得到国家自然科学基金(60073046)和高等学校博士学科点专项科研基金(200206l0007)资助.刘昌钰,男,l977年生,硕士,主要研究方向为数据库、数据挖掘.唐常杰,男,l946年生,教授,博士生导师,研究方向为数据
此文档下载收益归作者所有