基于向量空间模型的文本过滤系统

基于向量空间模型的文本过滤系统

ID:33326792

大小:475.99 KB

页数:8页

时间:2019-02-24

基于向量空间模型的文本过滤系统_第1页
基于向量空间模型的文本过滤系统_第2页
基于向量空间模型的文本过滤系统_第3页
基于向量空间模型的文本过滤系统_第4页
基于向量空间模型的文本过滤系统_第5页
资源描述:

《基于向量空间模型的文本过滤系统》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1000-9825/2003/14(03)0435©2003JournalofSoftware软件学报Vol.14,No.3∗基于向量空间模型的文本过滤系统+黄萱菁,夏迎炬,吴立德(复旦大学计算机科学与工程系,上海200433)ATextFilteringSystemBasedonVectorSpaceModel+HUANGXuan-Jing,XIAYing-Ju,WULi-De(DepartmentofComputerScienceandEngineering,FudanUniversity,Shanghai200433,China)+Correspondinga

2、uthor:Phn:86-21-65642192,E-mail:xjhuang@fudan.edu.cnhttp://www.fudan.edu.cnReceived2001-09-14;Accepted2002-04-10HuangXJ,XiaYJ,WuLD.Atextfilteringsystembasedonvectorspacemodel.JournalofSoftware,2003,14(3):435~442.Abstract:Textfilteringistheprocedureofretrievingdocumentsrelevanttotherequ

3、irementsofspecificusersfromalarge-scaletextdatastream.First,theTREC(textretrievalconference)aswellasitstextfilteringtrackareintroduced,whichisthemostauthoritativeinternationalevaluationconferenceontextretrieval,fromtheaspectsoftasks,topics,corpusandevaluationmetrics.Thenatextfilterings

4、ystembasedonvectorspacemodelispresented.Thissystemiscomposedoftwophasesoftrainingandadaptivefiltering.Duringthetrainingphase,featureselectionandpseudofeedbackareusedtoselecttheinitialfilteringprofilesandthresholds.Duringthefilteringphase,userfeedbackisutilizedtomodifytheprofilesandthre

5、sholdsadaptively.Thissystemtookparticipateinthe9thTextRetrievalConferencein2000,andrankedhighamongallthe15systemsfrommanycountries.Goodperformancehasbeenachieved,wheretheaverageprecisionsofadaptiveandbatchfilteringare26.5%and31.7%respectively.Keywords:textretrieval;textfiltering;textca

6、tegorization;machinelearning;vectorspacemodel摘要:文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成

7、绩,在来自多∗SupportedbytheNationalNaturalScienceFoundationofChinaunderGrantNos.69873011,69935010,60103014(国家自然科学基金);theNationalHighTechnologyDevelopment863ProgramofChinaunderGrantNo.863-306-ZD02-02-4(国家863高科技发展计划);theNationalHigh-TechResearchandDevelopmentPlanofChinaunderGrantNo.2001AA114

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。