基于自然语言处理的歌词信息挖掘

基于自然语言处理的歌词信息挖掘

ID:37380601

大小:861.58 KB

页数:11页

时间:2019-05-22

基于自然语言处理的歌词信息挖掘_第1页
基于自然语言处理的歌词信息挖掘_第2页
基于自然语言处理的歌词信息挖掘_第3页
基于自然语言处理的歌词信息挖掘_第4页
基于自然语言处理的歌词信息挖掘_第5页
资源描述:

《基于自然语言处理的歌词信息挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于自然语言处理的歌词信息挖掘郑亚斌刘知远孙茂松(清华大学计算机科学与技术系,智能技术与系统国家重点实验室北京100084){zhengyb06,zy-liu02}@mails.tsinghua.edu.cnsms@mail.tsinghua.edu.cn摘要:我们在歌词上做了一些传统的自然语言处理相关的实验。大部分的歌曲都具有与其相匹配的歌词,歌词也是歌曲语义上的重要表达,因此,对歌词的分析可以作为歌曲音频处理的互补。我们利用齐夫定律对歌词语料库的字和词进行考察,实验表明,其分布符合齐夫定律。利用向量空间

2、模型的表示,我们可以找到比较相似的歌词集合。另一方面,我们探讨了如何利用歌词中的时间标注信息进行进一步的分析,利用时间标注信息可以找到歌曲中重复的片段,并且可以对歌曲的节奏进行划分,初步的实验表明,我们的方法具有一定的效果。关键字:歌词;齐夫定律;向量空间模型;k-近邻;节奏InformationMiningofSongLyricsBasedonNaturalLanguageProcessingTechniquesZhengYabinLiuZhiyuanSunMaosong(StateKeyLabofInt

3、elligentTechnologyandSystems,Dept.ofComputerScienceandTechnology,TsinghuaUniversity,BeiJing,100084)Abstract:Wereportexperimentsonsonglyricsbasedonstandardnaturallanguageprocessingtechniques.Asignificantamountofmusicsongshavesuitedlyrics,whichplayaimportant

4、roleofthesemanticsofasong,therefore,analysisoflyricsmaybeacomplementofacousticmethods.WeinvestigatethelyricscorpusbasedonZip’fLawusingbothcharacterandwordasaunit,resultsroughlyobeyZip’fLaw.Also,bythemeansofvectorspacemodel,wecanfindasetoflyricsthataresimil

5、artoeachother.Moreover,wediscusshowtousethetimeannotationforfurtherstudy;wecandetecttherepeatedpartofsongsaswellascategorizationofrhythms.Preliminaryexperimentshowstheeffectivenessofourproposedmethod.Keyword:SongLyrics;Zipf’sLaw;VSM;k-NN;rhythm1前言随着全球信息化进程

6、的加快发展,Web信息呈现出爆炸式增长的趋势,其中音频数据占一定的比重,如何挖掘这些音频数据并使之服务于用户成为一个热门的研究方向[1,2]。通过现有的搜索引擎,例如Google、Baidu等,人们可以利用歌手或者歌曲的名称挖掘出自己想要的音频信息,但是我们更着重于考虑类似于协作性过滤的歌曲推荐系统,例如:用户喜欢听X,也很有可能喜欢听Y这首歌,X和Y在音频上具有某种程度的相似性,已经有一些音频处理的技术用来解决这方密的问题[3]。而对于每一首歌来说,人们可能还会关心表达其语义的部分——歌词[4,5],和音

7、频处理的技术相比,在歌词层面上的处理有一定的优势:首先,在Web上,大部分的歌曲都有对应的歌词信息,且容易收集;其次,和歌曲相比,歌词的数据量要小很多,通常情况下来说,一首歌的大小大约为4M,而其对应的歌词一般只有2KB左右,在面对海量数据的情况下,对于存储空间的要求低;再次,歌词具有很丰富的语义信息[5],可以解决一些在音频上比较难处理的问题,例如:歌曲语种识别[4]等。而且这也使得一些传统的自然语言处理技术可以应用在歌词上;最后,一些特殊格式的歌词文件具有时间标注信息,我们可以从文本处理的角度解决音频切

8、割划分的问题。本文利用自然语言处理的技术对歌词进行了一些实验,分别统计歌词语料库和通用语料库在字、词单位上的频率分布,发现两个语料库都近似符合齐夫定律[6](Zipf’sLaw),和通用语料库相比,歌词语料库的高频词分布有略微的差别。在文本分类领域,经常用向量空间模型[7]来表示文本,我们在歌词语料库上也做了类似的处理,结合K-近邻[8]算法找到和当前歌词在语义上比较相似的样本,并给出了结果的示例。另外,如何利用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。