欢迎来到天天文库
浏览记录
ID:50073927
大小:5.56 MB
页数:56页
时间:2020-03-04
《基于语义的网络流行语趋势分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、、'X一:,占:輪^.户Vr.峨年、心於巧种百‘.;>::-於.—心,;:,,説1:,每爲^&;参歌护嘆導題嶋羣蕉夺裝茲敏論誦攀蘇VM,乂乂於薄瞧雜靡‘議’^J.;々%护硕丈研巧生学位论支.气'''''方-治二T>::繁劈:#沿沪黃;r沪;猎'■'.占■心巧---'■躬::..■、巧T2\'K节實y.矜穀^f準豕'-’'、.巧;金粹皆;心,;苦^巧碱獻二\^雜、輪绩义书每^:幾^、;、.謂譯麵齡或‘殘館纖釋鈍桑為..'.一''护.’:,v味心,:;知如雄早
2、键睹冷.严:基于语义的网络流行语趋势分柄;普劳巧反:f,—^.::■'‘'’':-.:''-取'^命'1::苗馬绣拓迄< ̄读等衰更巧-議養靡讓編戀挈網’峰学'挣等付请子常键義霉難崇議誦賺義m-,爾‘学争2〇141104010^务方誇;.?輪品;苗,,唉\苗£;皆遠杂雀娩触辨);,^苗發雜辦績資荀韦:’;软件工程V./^八巧教S向V.v,心说葬逼單.-、.段建勇:山,編部设:;取辦一八嘴夢瑪賴觀藏I‘'。.';.''.、.^’、'^^/V.'切、;;^:'钟;>:皆声码.
3、V巧兵‘r.:?v;::打:3^;域為始,而,呼;;;2蚊案6月12鼻辦麗義薪.纖烫I.私龍職該:辨響巧乂.皆3敎婷舞;巧沪f爾蜡訟兴V;與私祥琪斬茂读為挺誤議緯麵議議議騎藝攀‘:議猶論議接論論變變卿,雜蕊權額屬置擁我"'■-■\:^r;V^KV..北方工业大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行硏究工作所取得的成果。除文中己经注明引用的内容外,本论文不含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集
4、体,均己在文中W明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:2>0/)年月作日学位论文使用授权书学位论文作者完全了解北方工业大学有关保留和使用学位论文的规定.即:研究生在校攻读学位期间论文工作的知识产权单位属北方工业大学。学校有权保留并向国家有关部口或机构送交论文的复印件和电子版,义许学位论文被查阅和借阅;学校可W公布学位论文的全部或部分内容可W允许采,用影巧、缩印或其它复制手段保存、汇编学位论文(保密的学位论文在解密.后适用于本授权书)。□保密论文注
5、释;经本乂申请批准,学校,本学位论文定为保密论文,密级:期限:曰起至年月曰.年,自年月止后适用本授权书。,解密^非保密论文注释:本学位论文不属于保密范围.适用本授权书。<本人签名:付末〇日期:WA/心■、导师签名;日期:I。!—!叫、户I基于语义的网络流行语趋势分析摘要在自然语言处理方面,构建可计算的词语、文本语义特征是多数自然语言一处理任务的基础。本文提出种词语语义相似度计算方法,通过结合文本之外的先验知识,提高在特征稀疏情况下的模型准确率;同时结合词语语义相似
6、度entn-Mean计算与LDA(LatDirichletAllocatio定义文本间的语义距离,通过Ks聚)类获取语料中的事件。两个方法可W结合外部知识改进对词语、文本向量化的过程,提升基于向量的相似度计算的效果。论文的两个主要方面分别为:。改进词语语义相似度计算:向量化是词语的语义可计算的关键本文提出一了种结合词语关系的改进词语语义向量计算法。该方法基于Word2Vec的思路,在通过当前词语预测上下文词语的基础上,同时预测词语在词语关系中的邻接位置。模型将词语经过编码矩阵得到语义向量,再经过
7、解码矩阵得到对上下文词语与词语关系等稀疏特征的预测。通过模型参数对误差的梯度来迭代调整模型,最终得到词语到语义向量的映射方法。该方法可W用过添加额外的词语关系网来缓解文本本身的特征稀疏情况,提高词语语义相似度计算的准确性。改进基于LDA的事件发现:基于LDA的事件发现是通过LDA模型得到文本。的主题词向量,并通过主题词向量之间的余弦距离聚类得到文本簇的方法本文提出了一种融合了词语语义相似度计算与词语在频域特征的文本语义距离计算方法,进而改进了基于LDA的事件发现算法。首先将文本根据时间窗分割后进
8、行LDA计算得到文本的主题词向量,并根据融合词语语义相似度的距离定义进行K-Mean聚类得到时间窗粒度的事件后根据主题词的词频特征合并时间s;然。>窗粒度的事件,最终得到事件该方法可^1通过融合1额外文本中的词语语义相似度信息,改善对短文本事件发现的准确性。
此文档下载收益归作者所有