欢迎来到天天文库
浏览记录
ID:52955515
大小:956.22 KB
页数:30页
时间:2020-04-03
《知识工程应用案例知识工程应用案例.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、知識工程應用案例知識工程應用案例龍捲風科技沈政傑大綱e-DiscoveryServiceEmailDiscoveryPortableSearchee--DiscoveryDiscovery大綱簡介資料處理工作流程技術服務簡介e-Discovery目的為保存及提供證據,供法律訴訟中使用因法律規定,目前此領域在美國較為活躍歐盟、日本陸續制訂類似法律資料處理(1/2)資料收集(RestoringandExtracting)資料篩選(CullingandDe-duplication)包括根據檔案metadata、日期、目錄等屬性篩選,以及去
2、除重複性文件資料過濾(Search-basedFiltering)根據文件內容篩選,挑選出有用的文件資料處理(2/2)資料處理(Processing)將有用的文件處理成可進行線上瀏覽,並可進行全文檢索資料產生(Production)根據法院規定的格式標準,產生ESI,在訴訟程序中使用工作流程技術(1/3)文件擷取(Extract)從壓縮檔,例如.zip.rar從archive,例如.nsf.pst從磁碟映象檔,例如.gho文件轉換(Conversion)支援的檔案格式轉換為tiff/pdf從其他檔案格式轉換為支援的檔案格式轉換郵件為
3、html或rtf格式,並保留或轉換附件為支援的檔案格式技術(2/3)文件內容萃取(Capture)一般檔案(DOC、XLS、PPT、PDF、EML)圖檔文件(JPG、TIF、BMP)檔案metadata的讀取處理儲存(Archive)技術(3/3)全文檢索(Index)ConceptFolder搜尋(Search)篩選重複文件(De-duplication)檔案檢視(Viewer)服務專案管理、客製的服務資料處理的服務複製、轉換、資料上線資料中心的服務Hosting、儲存、維護、備份、還原EmailDiscoveryEmailDi
4、scovery大綱背景資訊目標POC驗證結果系統架構及擴充能力背景資訊R公司將寄進公司及寄出公司之電子郵件,以每月為期間單位,分為IN、OUT兩個資料庫,儲存於MicrosoftSQL2000Server平均而言,每月所儲存之郵件總量約為50~70萬封(部份另內含不定數量之附件檔),使用磁碟空間約120~150GB目前以195組產品或公司相關之共通性關鍵字條件詞組查詢篩選5年歷史資料時,約需4~5週運行時間以產生供法務部門Review之歸檔資料目標利用全文檢索搜尋引擎技術及效率,使用關鍵字條件詞組對儲存於MicrosoftSQL2000Serv
5、er之電子郵件歷史資料進行查詢篩選,並將符合查詢條件之郵件依資料夾進行歸檔,以供法務部門ReviewPOC驗證結果配合龍捲風搜尋平台(TornadoSearchPlatform,TSP)撰寫測試程式針對2009年1月IN、OUT資料庫進行驗證使用與現行195組相同之關鍵字條件組進行查詢篩選,並將符合條件之郵件由資料庫轉出,各自歸檔於指定資料夾,完成時間約為128分鐘,推論5年歷史資料約需5~6天處理(假設以線性推論)系統架構-建立索引建立索引前先將郵件由資料庫匯出為EML檔,對EML檔建索引使用AdminConsole可管理備份郵件所在的伺服器及資料庫
6、資訊,並操作對指定時間內的備份郵件內容建立索引因備份郵件內容不會有所異動,故索引建立後即可用於之後篩選歸檔系統架構-建立索引系統架構-查詢篩選及歸檔輸入關鍵字詞組條件及指定要查詢的年份、月份,可將符合條件的郵件歸檔於指定的資料夾內系統架構-查詢篩選及歸檔郵件歸檔運作流程郵件轉檔擴充能力系統架構-分散式處理PortableSearchPortableSearch大綱知識工作者遭遇的困難現行的解決方法簡介產品定位產品特色適用客戶附錄知識工作者遭遇的困難(1/2)銷售人員拜訪客戶時,雖然帶著許多可用資料,但在需要時,卻難以快速的將準確的資訊找出呈
7、現給客戶現場維修人員面臨查詢相關維修資訊的狀況時,無法從手邊大量文件及維修指南中有效率的找出需要的資訊記者在辦公室外寫稿時,需要引用參考資料、佐證數據時卻常常耗費許多時間體力從眾多文件、檔案中查找知識工作者遭遇的困難(2/2)參與會議,查閱相關資料時,很難由隨身碟上事先準備好的文件檔案中找出需要的資訊工程師在使用新的硬體元件時,需花費許多時間才能從廠商提供的大量規格文件、API手冊中找到需要的參考資訊使用電子參考書、工具書、資料庫時,大多無法提供有效率的搜尋功能,大量的數據內容使得查詢回應緩慢,查詢結果不理想時又需重新查詢,耗費時間、精神現行的解決方
8、法(1/3)使用目錄名稱、檔案名稱、
此文档下载收益归作者所有