欢迎来到天天文库
浏览记录
ID:50397687
大小:6.02 MB
页数:61页
时间:2020-03-05
《基于LDA主题模型的TFIDF算法改进及应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、’'..'.j.t'-'"(.^.^;拍^;亩—.:,;若;方.n:v;钓n:部j,%與;以苗v...(‘.了-'.‘.才想為..‘勢J综聲:.誓嘴V.U苗乎叫若‘、、./;-心’人、.--.:和為一.V.V乂V'..户錫'去.、''.;.’^兴读、%/>^YV护.礎氏.'.”.工租硕女‘‘j:.暫人备.户-^、异鸣^n..iV句_u.'‘单化论文^;站化识W讯.;;>矣的為娘祐.I、'''^'^‘?*-'‘:.^■vS/乂.:;*^.'->
2、’'’:;.、":、:\-.;l.令媒,v.错V.漫卷知.-?■?己,..'?■i‘**.,一..^基y^于LDA主题模型的TFIDF算法/';j',..争改进及应用,磯7^孤.,撫多爽.萬.-、?一■‘一".:-少-与'、会^争户这少V、%V:V?:.:-’.'.‘>.v.一:,聲秦巧iV,>n冷嗦察.n苗,\.片跋Yv\/呼V.■.'■.'.户-‘':.护-./.^'.一.'.-:X\:KV<:;今於
3、,^若h餐.?‘.';‘、’’打;'參方心矣!侣鞠V榮7鸿槪户片1:/难'-巧.‘?^??''..!-<r'.r.一f,我卷、:/fi'户)产心皆'靖’.'..‘-?、,,.V;V霉致.i.^霄,V;'恥f’’;巧’巧‘乂-丐.V.、;:、.%蘇辕品:沒乂,VrV1—.,、'^、.、-;身’、作長,乃V带7H.^4?苗拓N商扬f%扣;..、’‘.MA父女去,巧vSh娩巧;’、‘-..v,.聲,V:?,.备拱敏鶴,><v%'以—.、^’户ft;,:-
4、^\-巧亩,.這.以雜n違rvc;异與皆乂,普牺请、,、?/、弓:节:與,知V苗誤备,癸..f’.、矣;/的;%jV等‘'''/丐靴斯-.次%fer.,衣,擬荀私達難:矜:.鄭、一打、令心奠声节护帯扣養年苗少獲语/則咸靜J..-’立-.今'-与r;;费今、.VA句气若輝、辦..,.?....〇'五年+冷'.:見.A.^i讀.,/知悼―每谋.Vj蜂V祭巧苗^八^一^靖钟驾旋帝苗I、'八电賢非游吝省助心矜辦/V苗方帘iV^麥辕f巧?‘'’".八..黨.谋;為^.叫:
5、.聲媒.璋筹接、^荷私藥挺节;分类号密级_UDC工程硕±学位论文基于LD乂主题模型的TFIDF算法改进及应用高扬学科专业软件工程一丹指导教师苏(教授)--论文答辩日期201511-11学位授予日期201512-30答辩委员会主席陈友初教授级高级工程师广西大学学位论文原創性和使用授权声明本人声明所呈交的论文,是本人在导师的指导下独立进行研究所取得的研巧成果。除己特别加W标注和致谢的地方外,论文不包含任何其他个人或集体已经发表或撰写的研巧
6、成果,也不包含本人或他人为获得广西大学或其它单位的学位而使用过的材料一。与我同工作的同事对本论文的研究工作所做的贡献均已在论文中作了明确说明。本人在导师指导下所完成的学位论文及相关的职务作品,知识产权归属广西大学。本人授权广西大学拥有学位论文的部分使用权,目P:学校有权保存并向国家有关部口或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅,可将学位论文的全部或部分内容编入有关数据库进行检索和传播,可采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文属于;□保密
7、,在年解密后适用授权。胡%密。""(请在上相应方框内打V)论文作者签名:^场日期:心指导教师签名日期鹏.作者联系电话:基于LDA主题模型的TFIDF算法改进及应用摘要话题发现中常用的VSM向量空间模型将语言学的文本内容转化为数学上的空间向量坐标,进而把抽象的文本间相似性问题转换为空间向量坐标间的距离问题,直观且易于理解,但存在的问题是:语义缺失,即忽视了文本中包含的语义信息。本文考虑改进VSM模型中权值算法TFIDF,通过引入LDA主题模型的主题概念来增
8、加特征词权重的主旨语义信息,W期达到对文本的空间向量坐标增加语义信息(因为坐标值即是权重值)。算法的改进策略分为两种:首先,通过构建LDA模型,得出概率分布函数0和巧值,计算出语义影响-ITFIDF-力S,提出SI算街其次,主题词的概率分布9值中,判定最大的前的9值对应的特征词属于该主题,用yU十算主题分布频率TDF即:^JV-TDF算法语义分布,提出了TFIDF。实验采用
此文档下载收益归作者所有