本章将介绍本论文之背景

本章将介绍本论文之背景

ID:37836345

大小:83.56 KB

页数:10页

时间:2019-06-01

本章将介绍本论文之背景_第1页
本章将介绍本论文之背景_第2页
本章将介绍本论文之背景_第3页
本章将介绍本论文之背景_第4页
本章将介绍本论文之背景_第5页
资源描述:

《本章将介绍本论文之背景》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第一章緒論本章將介紹本論文之背景、研究動機、研究假定、研究方法與論文貢獻。1.1背景隨著電腦科技的進步,搜尋引擎的興起,人們取得資訊的習慣漸漸轉移到網際網路上,無論何種資料,都有被數位化的趨勢,在網路上以數位化的方式呈現內容,而搜尋引擎、電子報與數位圖書館等數位化資訊查詢系統便是為了方便民眾透過網路查詢資訊而興起。現今的數位化資訊查詢系統,大多以全文檢索的方式檢索使用者所需的資訊,也就是使用者在查詢資料時,下一檢索詞彙,接著系統便自動在資料庫中,全文檢索具有此一檢索詞彙之資料提供給使用者。但這樣的

2、方式較為耗時,且無法反應使用者所需要的主題,因此,研究者欲提出一套機制,能讓搜尋引擎或電子報如圖書館分類圖書一般,組織資料,將資料轉換為資訊,使得數位化資訊查詢系統不再只具有全文檢索的功能,而能提供題名(標題)、主題、作者、關鍵字、編輯日期等等檢索功能之加值服務,讓數位化資料不再只是資料,而能提供使用者一定的資訊與訊息,將資料整理成資訊,為文件自動生成標題。而在資訊檢索部分,使用者在查詢資料時,亦可直接以題名檢索的方式檢索資訊,也就是如圖書館線上書目查詢系統(webpac),以書/刊名來查詢圖書,

3、在資訊系統中,1增加以標題來檢索文件的功能,檢索速度將比以全文檢索方式快速許多,且如附加主題項目一併搜尋,那麼在主題明確的情況之下,也能增加使用者檢索出正確資訊的機率。而研究者在本論文著重的部分在於為文件分析內容並自動為其產生文件標題,研究者盼推廣以圖書館檢索書名之方式應用在網路之資訊檢索系統上,提供如標題(書名)、作者與關鍵字等等之加值服務,明確的類別檢索,相信將能提升檢索效率。分析文件內容並產生標題首重文章之自然語言分析,國內自然語言處理正蓬勃地發展,自然語言處理的研究範圍包括資訊檢索、機器翻

4、譯、語音辨識、論域分析、光學字元辨識等等,處理對象含括各種形式的媒體,各種型態的語言,如各國語言之純文字檔、XML檔或語音檔。語言是由時間文化長期累積而成,具有文化與地域的特殊性,人類在閱讀一篇文件時,都是藉由人類智慧經驗的累積去辨識每一個字詞的意義,若能讓電腦分析文件並自動產生正確的標題,無非是一件具有挑戰性的研究課題。自然語言處理屬於人工智慧(ArtificialIntelligence,簡稱AI)領域。人工智慧的包涵很廣,其最主要的目的是希望電腦能瞭解人類需求,簡化繁瑣的程序,協助提供最佳的

5、效能,如機器人或智慧型系統經由訓練能幫助人類做繁雜的工作,自動判斷工作內容,並執行任務。自然語言處理則希望電腦能夠分析人類的語言,並進而讓人類語言與電腦直接溝通,美國麻省理工學院2001年一月/二月的科技評論便將自然語言處理列為未來改變世界十大資訊科技之一。目前文件標題自動生成的研究正在一個初始的階段,國外已有一些相關的研究,處理的文件語言為英文,其研究方法大多是將機器翻譯或自動摘要的研究方法應用於標題自動生成之研究,而中文文獻部分,迄今尚未有標題生成之正式研究。由於中文的語言特性非常複雜,諺語、

6、成語、俗語等與文化、歷史、地域密切相關的用語極多,使得文件標題自動的生成更為困難。然而,相對於數位文件越來越多的情況下,引入自動化處理技術的需求益形迫切,本論文將在這樣的背景下,嘗試提出中文文件標題自動生成的2初步解決方案。1.2問題陳述許多主題不明確的網站標題與一般新聞文件標題相似,目的僅是為了吸引讀者注意,而使用醒目或聳動的標題,但卻與其內容毫不相干,這樣的標題,站在資訊檢索的角度上,會誤導使用者,而其資訊檢索系統,站在企業服務的角度來看,也不盡理想,因為它並沒有站在讀者的角度,為讀者建立一個

7、完整性的資訊服務。因此,研究者期盼能發展文件標題自動生成之機制,增加題名檢索之加值服務,以期能改善搜尋引擎檢索的效益。由於目前許多網站標題並不與網站主題內容相吻合,網頁、文件若能標題化,內容相似的文件標題詞彙一致化,在整理與蒐集資訊上,可以省下不少精力。因此,研究者認為標題自動生成機制若應用於網際網路,則可以為各個網站首頁產生一至多個標題,若網站中每個網頁的主題或文章如果太長,主題不一,則盼能為每個網頁或每份文件,設定多個標題,在題名檢索時,將能搜尋特定網頁或段落,使搜尋結果更加準確。1.3研究動

8、機本論文的研究動機是為了因應龐大的網路資訊而衍生的,希望運用自然語言處理的技術於資訊檢索的領域上,以期資訊檢索的結果更符合使用者需求,讓使用者能以資訊系統自動生成之標題直接檢索資訊,這也就是圖書館線上書目查詢系統(webpac)所使用的題名檢索。目前網際網路上的檢索多數是利用全文檢索的方式,將使用者輸入的檢索詞彙與全文比對,再根據不同的排序演算法(RankingAlgorithm),呈現符合使用者資訊需求的文件,例如,排序演算法的排序順序為計算曾經使用同樣檢索詞彙的使用者,檢索後所

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。