欢迎来到天天文库
浏览记录
ID:46627709
大小:1.31 MB
页数:6页
时间:2019-11-26
《基于子空间优化的潜在语义标引技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第30卷第2期2013年4月沈阳航空航天大学学报J0umalofShenyangAerospaceUIliVers埘V01.30No.2Apr.20l3,’+”+”+。+。+。、{计算机工程}k+。+一+.+。+—_文章编号:2095一1248(2013)02—0060一06基于子空间优化的潜在语义标引技术研究季铎,常利伟,蔡东风(沈阳航空航天大学知识工程研究中心,沈阳110136)摘要:潜在语义标引是一项无监督的特征抽取技术,并且其有效性在信息检索等多个研究领域得到证明。由于该技术的特征抽取效果完全依赖于数据的特征分布,因此对数据的优化能够较好改善技术的有
2、效性。提出了一种潜在语义标引的优化技术一增广空间模型,同时提出了基于文档长度和特征DF分布状态的数据分割策略,该策略的提出能够使子空间尽可能继承原始空间的良好结构。实验证明合理的子空间分割策略,不但保证了正确率,同时极大地缩短了算法的运行时间。最后,采用增广空间模型,将不同子空间进行融合,并获得较好的性能。在分类实验中分类正确率已达85.92%。关键词:潜在语义标引;文档频度(DF)值分布分割;增广空间模型;系统融合中图分类号:TP391.1文献标志码:Adoi:10.3969/j.issn.2095一1248.2013.02.014ResearchofLa
3、tentSemanticInde】
4、【ingbasedonsubspaceoptimizationⅡDuo,CHANGLi·wei,CAIDong—feng(shenyangAemspaceunivers时,KnowledgeEn百needngResearchcenter,shenyaJlg,Lia0Ning,110136,cllina)Abstract:LatentSemanticIndexingisaIlunsupervisedfeatIlreextractiontecllnology,a11ditsef艳ctiVenesshasbeenproVenin
5、seVeralresearchfieldssuchasinfomationindexing.Becausetlleef&ctreliesen廿relyonmecharact碰sticdis仃ibutionofdata,op蛳zingmedatacanimproVetlletecllIlology7sef艳ctiVeness.Anop—tiIllizedtechn0109yofmeLatentSemaIlticIndexing—AugmentedSpaceModelhasbeenproposed,aIldanewstrategybasedonmedocumen
6、ts’1engtllsaIlddistributionofmefeatIlres’DFisalsopresentedinmispaper,whichcanensurematmefaVorablestrIlctureofbigscaleco叩uscanbeinheritedbymetWosubspacesasfaraspossible.ExperimentsproVet11atprecisionaIldashortertimeofmealgoritllmcanbeobtainedbyanap—propriatesubspacediVidings廿ategy.1
7、11tlleend,t11ispapershowsabe讹rpe哟姗aIlce-tlleprecisioninmeclassificationexpe曲lentis85.92%.byadoptingnleAugmentedSpaceModeltointegratedifferentsub-SDaCeS.Keywords:LatentSemallticIIldexing;DFdistributionsegIIlentation;augmentedspacemodel;systeminte-gration潜在语义标引(LatentsemanticIndexing
8、,LsI)技术是信息检索领域中的一个有效的潜在概念分析技术,该技术基于经典的向量空间模型(VectorspaceModel,VsM)发展而来。但是潜在语义标引技术摒弃了特征的独立性假设,认为特征不像向量空间模型中的假设是相互独立的,LsI技术认为特征之间是有语义信息关联的。1989年Dee刑ester、Dumains等人在向量空间模型的基收稿日期:2012一09—16基金项目:国家自然科学基金(项目编号:61073123)作者简介:季铎(198l一),男,辽宁葫芦岛人,副教授,主要研究方向:机器翻译,E_mail:jiduo-1@163.com。第2期季铎,
9、等:基于子空间优化的潜在语义标引技术研究61础上提出
此文档下载收益归作者所有