巨量资料环境中的语言研究

巨量资料环境中的语言研究

ID:46431981

大小:75.50 KB

页数:5页

时间:2019-11-23

巨量资料环境中的语言研究_第1页
巨量资料环境中的语言研究_第2页
巨量资料环境中的语言研究_第3页
巨量资料环境中的语言研究_第4页
巨量资料环境中的语言研究_第5页
资源描述:

《巨量资料环境中的语言研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、巨量資料環境中的語言研究近年來各地古今書籍上網,建構成大量的語文資料。網路上也有報導說美國國會圖書館總共有10,995,116,277,760字節的圖書。這樣的巨量,已經超出你我個人所能操作數字的能力,對我們有意義嗎?這是本報告所要討論的語言研究所需的資料數量問題。-・大量資料有用大量的資料,讓我們了解一個語言的詞語的用法,例如“溺愛”,在句子裡都和類似“孩子”的語義的詞語一起出現。我們提出“針對一詞廣泛閱讀”的教學,建構網站,讓使用者輸入所要查詢的詞語,使用中央研究院五百萬詞的現代漢語平衡語料庫,呈現使用該詞語的句子,讓使用者從整句的閱讀中

2、發現“溺愛”是家庭長輩過度寵愛晚輩的意思,就不會說“學生溺愛老師”這類語義不合適的句子。我們從二十五史的數位資料看到學海無涯,但是統計各本書所用的字種,發現每本書所使用的數量都不超過八千,因此提出“詞涯八千”的理論來解釋人的語言符號認知能力。這些是從大量資料論證出來的論點。二・大量資料沒用1講者現為中央研究院院士;國立臺灣師範大學講座教授;國立中央大學國鼎講座教授;國立中山大學榮譽講座教授大量資料也有無用武之地的情況,例如《紅樓夢》有這樣一段文字:賈母見秦鐘形容標緻,舉止溫柔,堪陪寶玉讀書,心中十分歡喜,便留茶留飯,又命人帶去見王夫人等。誰心

3、中歡喜?懂中文的讀者當然知道是前頭所說的賈母,因為這一段開始提到的是賈母,不是秦鐘也不是寶玉。這麼說來,堪陪寶玉讀書的人也是賈母咯?不對,應該是秦鐘。那麼,既然這裡的主語是秦鐘,下面說的心中十分歡喜的人也應該是秦鐘咯?不對,應該是賈母。最後兩句誰留誰喝茶?留誰吃飯?誰命誰帶誰去見王夫人?要回答這些問題,用大量的資料也很難找出答案來,只有用人工智慧的語言分析才能的到解答。《紅樓夢》還有一個值得深思的問題。我們都知道《紅樓夢》寫的是的賈寶玉和林黛玉的情懷。我們怎麼知道是他們兩個?全本書裡具體寫出“賈寶玉”和“林黛玉”兩個名字的只有第三回的標題“賈

4、雨村竇緣復舊職林黛玉拋父進京都”和第六回的標題“賈寶玉初試雲雨情劉姥姥一進榮國府”,全書文字裡只用“寶玉”和“黛玉”,沒有冠上姓氏。只有語言分析才能建立起名字的關聯。這兩段的問題,如果真要用巨量資料來解決,也不是不可能,例如,從《紅樓夢》發表後很多論述或從人們的談論也許可以找到,但是,殺雞焉用牛刀?這裡顯然需要有智能的語言分析,不是巨量資料。三・探索有用的語言定性資料量如果任何問題的解決都需要靠巨量資料的話,那是蠻幹,没有智能。現在來思考什麼數量的資料適合發掘出語言的特性,我們以詞彙特性舉例來演繹。先看下列文本的數量:(1)上古漢語:論語、孟

5、子、大學、莊子、老子等古籍,約门萬詞(2)唐詩三百首:約11,300詞(3)宋詞三百首:約13,300詞(4)現代漢語平衡語料庫前期:文本多數出現於1990-1997年,5百萬詞(5)現代漢語平衡語料庫後期:文本多數出現於2001-2003年,5百萬詞(6)現代漢語平衡語料庫前後兩期共1千萬詞(7)中央通訊社新聞報導:1991-2002年,1千萬詞(8)北京大學人民日報新聞報導"998—月,約1百萬詞這些語料庫的詞語數量從一萬多詞語到一千萬詞語,他們的詞語出現的最高15中央社新聞報導1512.392詞的累積頻次如下:語料庫高頻15詞累積頻次百

6、分比宋詞三百首153.327唐詩三百首153.431北京大學人民日報新聞報導現代漢語平衡語料庫後期現代漢語平衡語料庫兩期現代漢語平衡語料庫前期近代漢語上古漢語1513.8271515.7821516.7051517.7121518.0781528.757累積詞頻百分比可以立即分出這些文本的類別,百分比是3左右的是唐詩與宋詞,唐詩和宋詞不是口語,是韻文體裁。詩詞造句遣詞都要避免重複,因此詞語的出現就不會集中在某些字詞上,這就可以解釋唐詩宋詞15個高頻詞的累積百分比只有3o累積百分比12.13的是現代漢語新聞報導,即使臺灣的中央社新聞稿內容上和大

7、陸人民日報內容上有不少差異,因為同是新聞報刊體裁,兩者的累積數很接近。現代漢語平衡語料庫前期和後期取材時間有早晚之別,累積數前期是15,後期是17,而兩期一起計算得出16,並非偶然。近代漢語累積百分比18,上古漢語的值是28,因此,我們認為最高頻15個詞語的累積頻次百分比可以當作詞語在文本中的集中度,這集中度可以當作文本的詞語分佈特性。以這個特性來看,語言差異的研究並不需要巨量資料。因此我們的研究是在於發掘能用來決定語言特性的語料數量,這樣,就不必任何研究都以巨量資料來蠻幹。從這個嘗試開始,我們今後要更精細研究的問題包括:1.詞語可以分為能夠

8、繁衍的開放性和不易隨時增加的封閉性兩類,現代漢語的文本的數量最低是多少就能包含不是任意繁衍的封閉式的詞語如“把'「從”等?這是語料數量的最低要求。2.漢語作為母語的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。