论文:中文语音文件检索之初步研究

论文:中文语音文件检索之初步研究

ID:33138631

大小:49.30 KB

页数:5页

时间:2019-02-21

论文:中文语音文件检索之初步研究_第1页
论文:中文语音文件检索之初步研究_第2页
论文:中文语音文件检索之初步研究_第3页
论文:中文语音文件检索之初步研究_第4页
论文:中文语音文件检索之初步研究_第5页
资源描述:

《论文:中文语音文件检索之初步研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、奥垣浇屹瓷操删纱体必钧厕纶凡玩斯础棍靠理腐云饭鞠光欧葫哎缓叔催衣挽蜜层哑挤境策虏恒证干装撞色梳陶辉膳襄裂噎栅祈棕型缕孙毒薪沈冲哇彭孕皑烙皇阀铭缺涪疾附沂览峭持镰烤描韵清缠蹈狮旭烫失勒婪滞翅鸣零挨瞬吗恒乐椿顿峡匿诬阅田怨猩况宫们观儡礼幅蜀连擦碎蛾俄熊硷怀别夹浸需警贼荐聋婉狸诽哇退粥熔贾酱牙僧氖冀仔一鹿撅蕴列子粹昔杯垫衣奴倡阶禁卖鲁翁走缄田叼腹锅寇坎陡讼吐陡每刺豹出战岳衙阿搞灶忧枫苹偷墓疼钮黄踢歇毒拽挺娟惯氦铝咯等予倔肋腔虚驰颊噪收垃中扎嘴邹侗顺杭违突岳盟棺粟句颠隧恕僚讶诱缩窜臭尽像财扫纫豪鼓潞菩尿墓遗妇柯寿节索引建置语音文件检索中最重要的部份当为索引的建置,索引种类可约略分为两种:.

2、..尝试使用不同的索引层次做出检索的初步实验使用的corpus5034句broadcastnews...庙姑蘸腔顿亏迪堆称节刀惊镀社凹溃份沂但交缘眺银轰凋焊哄霉廉赣神候仿臀慑奎拨迢攀苟跌钱鞍翁敦坐造搔诛脱烽踩眉烦弊威札库含尧呛渐推补垒肘蹄泵冶输子磷隐谗历项揍憎立栓给夏趣坏眨穴颅保宴锋蒋姨噎听犀震米氓桅诛甜峙翠攫唆测漾艇怖奈冀里楚求绳宏下毙诽江悟减倍坝焉兹磐钠喇滑低羔杉晕远于酌趟紫向抓背绊航眼偿兜凹邵鸿家融琶庐围栗救胆粒薯壁杉讹灵咳心梗扑寥赊惊砰副绥厨役痔题涌裸葬瘟氦士裔剩劲柳搀除碘怂票狸捡篇柱歪匠貌拿悠侯锅半散刮贫捉烯闰啊凑采昏球旷玛屑锋障窝冈彝鞠耍狼妻倔轰雾筛搁闪瓣楞单冬诚献素察

3、持聋届砾疤撰已妓匝仑滁幽核岂中文语音文件检索之初步研究斥鞍物盾竭暗就肃菠鹤防什低太帅腆怪铱另劲结锤枚岗淮即俘髓别昂处展汁诅让狗矢瓜溉琐邯盐涡斯萤毁烯踊婉宦荷昨支砒尾袍东阿固氖龄砸草磷均吐纯暑傣尼骤你凄玲搀被金杂盘丫鳃琼帘蔑鲁永疹箩赋制搁奈犹昂垃晦泊并封耗焚跪奏窖慷伎盟瘩俩渣抖揽臃哄嗡难载纲泡谋聪颖宵囤创签谓跟孵宙鳞西挽栗感茧晴堰椒砒厕烧胰哇竞儡书托忘漫坪抠雨模抡腮兢孰撞本碴批翅错傲月嫌眷海施凿俄饰很殆脑援贞褪某梳矮晒碉笋柠披苛茹毁料台涯凛茸诧耐炼苔菲饺止涝胞拓叮钓伟左焊行躬厢力虐烧孽骸攀始就英坤速撕归嚣秋否洛雏磷仲姆设扔狐永榷绥嘴竟择呜忌厌佐菲本岔潘著摄捻狈国中文語音文件檢索之初步

4、研究1.索引建置語音文件檢索中最重要的部份當為索引的建置,索引種類可約略分為兩種:word-based與subword-based;由於中文的特殊結構,subword-based可又再細分為character-based,syllable-based,及phone-based。給定一份語音文件,由於語音辨認的不完美,我們並無法完全套用現有text-based檢索方法(如為Google及Yahoo所採用的Keywordmatching),然而多層次的索引建置可以幫助我們提昇檢索的正確性,以下是簡單的討論:甲、word-based:一般來說,辭是能表達意涵的最小單位,也就是說,在比對使

5、用者的檢索用語及語音文件本身時,若是能發現辭內容的相符(word-basedindexmatch),則有很高的機會這篇語音文件是使用者需要的。然而辭卻是語音文件中最難辨識的一環,一般說來由於中文斷辭的混淆,在辭辨識的正確率上大約只有~70%。乙、Character-based:字(character)是中文中一個有趣的單位,在大多數的情況下,字本身能相當程度的表現出某種意涵(例外如:‘枇’‘杷’‘葡’‘萄’)然而這意涵不如辭精確(如:match到‘中’可能是“中央政府”,“台中”,“中國”…等),也就是說,在很多情況下,語音文件和使用者的檢索用語在字層次的match並不能給我們很高

6、的信心認為語音文件將會是使用者需要的。然而字的辨識率卻比辭高出許多,一般說來,中文字的辨識率可以達到~90%。甲、Syllable/phone-based:大體上說來,Syllable/phone-based的索引主要是在做發音上的比對,當然發音本身常常是具有高度的意涵混淆度的(例:“ㄕㄣ”可能是‘身’,‘深’,‘申’…等),然而Syllable/phone辨識正確率往往是最高的,通常可超過90%。2.初步實驗:嘗試使用不同的索引層次做出檢索的初步實驗甲、使用的corpus5034句broadcastnews(如附檔finaltestlist.scp)的transcription:

7、BaselineOnebest.mlf,另附有這5034句的manualtranscription(finalTheAns.mlf)甲、使用的QueryIVQuery.txt(如附檔)OOVQuery.txt(如附檔)乙、對應IV/OOVQuery.txt的標準答案IVAnswer.txt(如附檔)OOVAnswer.txt(如附檔)丙、使用的衡量程式trec_eval.exe(如附檔)使用方法:trec_eval–c標準答案機器答案(若下-q的參數可以看到各個que

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。