基于潜在语义分析的BBS文档Bayes鉴别器.pdf

基于潜在语义分析的BBS文档Bayes鉴别器.pdf

ID:54367123

大小:388.21 KB

页数:9页

时间:2020-04-29

基于潜在语义分析的BBS文档Bayes鉴别器.pdf_第1页
基于潜在语义分析的BBS文档Bayes鉴别器.pdf_第2页
基于潜在语义分析的BBS文档Bayes鉴别器.pdf_第3页
基于潜在语义分析的BBS文档Bayes鉴别器.pdf_第4页
基于潜在语义分析的BBS文档Bayes鉴别器.pdf_第5页
资源描述:

《基于潜在语义分析的BBS文档Bayes鉴别器.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第27卷第4期计算机学报Vol.27No.42004年4月CHINESEJOURNALOFCOMPUTERSApr.2004基于潜在语义分析的BBS文档Bayes鉴别器l)l)l)2)l)刘昌钰唐常杰于中华杜永萍郭颖l)(四川大学计算机科学系成都6l0064)2)(山西大学计算机科学系太原030006)摘要电子公告栏(BBS)的滥用是一种以信息污染为特色的社会问题,对BBS文档进行鉴别已成为信息安全重要内容之一.该文融合了数据挖掘技术、数理统计技术和自然语言理解技术,提出了基于潜在语义分析与Bayes分类的BBS文档鉴别方法:利用自然语言处理技术从训练文档中抽取典型短语集;通过潜

2、在语义分析进行典型短语同义归约,应用关联规则采掘技术提高典型短语间的独立性;用Bayes分类器对BBS文档进行鉴别.该文还对影响系统的关键参数进行了大量的讨论和测试,实验表明该方法对于BBS文档的鉴别是可行而有效的.关键词数据挖掘;关联规则;Bayes分类;潜在语义分析;BBS中图法分类号TP3llBayesDiscriminatorforBBSDocumentsBasedonLatentSemanticAnalysisl)l)l)2)l)LIUChang-YuTANGChang-JieYUZhong-HuaDUYong-PingGUOYingl)(DepartmentofCom

3、puterScience,SichuanUniuersity,Chengdu6l0064)2)(DepartmentofComputerScience,ShanxiUniuersity,Taiyuan030006)AbstractWiththerapiddevelopmentofInternet,theabuseandmisuseofBBSbecomeasocialprob-lemofinformationpollutionandcallonthedemandtothediscriminationtechniguesforBBSdocument.Borrowingthetechn

4、iguesfromdatamining,probability-statisticsandNaturalLanguageUnderstanding,thispaperproposesanewdiscriminationmethodforBBSdocument,calledBayesDiscriminationbasedonLatentSemanticAnalysi(sBDLSA).Themainstepsofthenewmethodincludesfollowingsteps:(l)Makestypicalphrasesetbyextractingthetypicalsenten

5、cesfromtrainingdocumentsinpreprocessingstagewithnaturallanguageunderstandingtechnigues.(2)AppliessynonymyreductionontypicalphrasesbyLatentSemanticAnalysis.(3)DiscoverstheassociationrulesbetweentypicalphrasestoincreasetheindependencyofphrasessothatthetraditionalBayesdiscriminatorworksefficient

6、ly.(4)DiscriminatesBBSdocumentbyBayesclassifier.Thealgorithmstoconstructtypicalphrasesetandtoreducesynonymyareproposedandimplemented.TheexperimentisbasedonrealdocumentformWeb,withtrainingdataof583documentsandtest-dataof308documents,thecorrectnessisupto75%.Thisshowstheeffetive-nessandvalidatio

7、nofthenewmethod.Keywordsdatamining;associaterule;Bayesclassifier;latentsemanticanalysis;BBS收稿日期:200l-07-ll;修改稿收到日期:2003-09-ll.本课题得到国家自然科学基金(60073046)和高等学校博士学科点专项科研基金(200206l0007)资助.刘昌钰,男,l977年生,硕士,主要研究方向为数据库、数据挖掘.唐常杰,男,l946年生,教授,博士生导师,研究方向为数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。