概率潜在语义分析及其应用.pdf

概率潜在语义分析及其应用.pdf

ID:52427022

大小:2.20 MB

页数:65页

时间:2020-03-27

概率潜在语义分析及其应用.pdf_第1页
概率潜在语义分析及其应用.pdf_第2页
概率潜在语义分析及其应用.pdf_第3页
概率潜在语义分析及其应用.pdf_第4页
概率潜在语义分析及其应用.pdf_第5页
资源描述:

《概率潜在语义分析及其应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、ADissertationSubmittedtoZhejiangUniVersityfortheDegreeofMasterofEngineering’-,■-,TITLE:P!Q鱼坐i!i煎i鱼L丛星坠兰S叟堡坌旦主iQ△壁垒!Y墨i墨垫亟△Pp!iQ丛iQ旦璺Author:SenLiu3UperVlSOr:天laOnOngJlangloo。。‘。。_‘‘。-。__‘。___·_-·_-oJ■■■o__·-______·o●■■■--●____-__●__-_____●____●-_---·_____________·_-一Subject:Co

2、llege:H丛蓟旦n£h曼ngQm旦旦!曼£△卫卫!i堡垒!iQ堕!曼曼h堕Q!QgYgQ!!曼g曼Q££Q旦!墅丛!曼!S堡i星nQ曼SubmittedDate:』亟n丛垦碰,2Q!l}\掣掣I掣磐磐型1蚶l攀f\㈣剐㈣浙江大学研究生学位论文独创性声明本人声明所呈交的学位论文是本人在导师的指导r卜.进行的研究上作及取得的研究成果。除了文中特别加以标注和引用的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得逝姿查堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表

3、示谢意。学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解逝姿查堂有权保留并向国家有关部门或机构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本文授权浙江大学可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后使用本授权书)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日浙江大学硕上学位论文摘要信息检索的很多应用都需要探究隐藏在字、词背后的涵义,简单的字面匹配由于广泛存在的同义词多义词现象,往往得不到能够和查询在含义上精

4、确匹配的检索结果。概率潜在语义分析(即PLSA,ProbabilisticLatentSemanticAnalysis)通过概率的形式建立了将隐含变量与共现数据对(如词汇与文档)联系起来的模型,使用统计的方法建立了“文档一潜在语义一词语"三者之间概率分布关系,并利用这种概率进行基于统计的语义分析,从中得到同一个主题下不同词的分布参数以及同一篇文档下不同主题的分布参数,从而能够从语义的层面上而不再是以往的单纯的字面意义上去表达和理解文档。在语义空间上,能够对文档做出更精准的匹配,排序,相关性查询等操作。本文主要研究概率潜在语义分析的稀疏表达框架以及

5、并行化扩展,主要贡献有:·提出了一种在PLSA框架下高效地引入稀疏表达的方法,通过添加稀疏度控制在两个模型参数上以解决传统的PLSA存在的过拟合以及无法提取局部特征的问题。本文实验证实本文所述方法在准确度上超越了已有的PLSA算法,并且在性能有杰出表现。·提出了在分布式处理框架下高效地训练PLSA模型的方法,分别设计实现了基于多核处理器的多线程PLSA算法,以及基于Hadoop和基于MPI的的并行化PLSA算法,讨论了在实际应用中的具体细节和问题,最后在集群上进行了实验和性能评估。·探索尝试了将PLSA用于个性化RSS文章排序的方法,通过记录用户

6、阅读文章所消耗的时间评估用户对文章的兴趣。关键词:主题模型,稀疏表达,语义分析,分布式系统,矩阵分解浙江大学硕士学位论文Abstr扯t’AbstractM觚yofthe印plicationsrelatedtoinfomationre仃ieVaJrelyondiscoveringthehiddenmeaIlingsbellindthetextitsel£Ho、ⅣeVer,duetotheexistenceofpolysemyaIldsynonym,thematchofqueriesmaynotbeaccurateon1iteraltems.Prob

7、abiliSticLatentSemaIlticAnalysisisatopicmodelingtecllIliquetodiscoverthehiddens仃Ilcturebybuildingtherelationbe帆eenobserVeddataaIldtheassumed王liddenVariables,Whichis‘‘doc啪ent-topic—tenIl’’foftextco印us.ItuSesastatisticalle锄ingtecllIliquet0estimatethemodelparameters,includingmem

8、ultinomialdistributionofthete加sbelongingtoatopic,aIldthemultinomiald

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。