490 likes | 648 Views
技術研發分項計畫 91 年度工作執行簡報. 計畫主持人:李德財 中華民國九十二年二月二十二日. 組織. 資訊規範及標準整合計畫 數位典藏相關技術研發計畫 語言座標 — 參考資源建置與服務 時空座標 — 歷史地圖運用的推動計畫. 資訊規範及標準整合計畫. 成立『數位典藏技術工作組織』,組成六個工作群,訂定相關的技術規範及規格。 數位典藏系統參考平台 命名系統與分散式檢索 數位物件與檔案格式 多媒體數位化參考程序 數位典藏服務系統 多語言處理 設立網站: http://datf.iis.sinica.edu.tw 召開數位典藏技術規範會議 辦理業界說明會
E N D
技術研發分項計畫91年度工作執行簡報 計畫主持人:李德財 中華民國九十二年二月二十二日
組織 • 資訊規範及標準整合計畫 • 數位典藏相關技術研發計畫 • 語言座標—參考資源建置與服務 • 時空座標—歷史地圖運用的推動計畫 2
資訊規範及標準整合計畫 • 成立『數位典藏技術工作組織』,組成六個工作群,訂定相關的技術規範及規格。 • 數位典藏系統參考平台 • 命名系統與分散式檢索 • 數位物件與檔案格式 • 多媒體數位化參考程序 • 數位典藏服務系統 • 多語言處理 • 設立網站:http://datf.iis.sinica.edu.tw • 召開數位典藏技術規範會議 • 辦理業界說明會 • 辦理數位典藏技術研討會及國際研討會 3
數位典藏相關技術研發 • 數位典藏資料庫技術開發 • 多媒體處理技術 • 語言處理技術 • 智慧財產權與隱私權管理機制之核心技術開發 4
技術研發成果 2 • 國立故宮博物院文物數位典藏系統之研製 • 故宮書畫數位典藏計畫 • 提供完整的典藏資訊化規劃與設計 • 已完成故宮書畫典藏管理系統第一階段開發 • 故宮先秦銅器紋飾資料庫 • 經分析提供器物紋飾資料著錄與檢索功能 • 已完成系統設計,正進行資料轉換與測試 • 台灣大學昆蟲標本館典藏數位化計畫 • 已完成生態模式資料管理系統雛型設計 • 物種分類、物種資訊、標本資訊、採集資訊、鑑定資訊、名錄異動、相關文獻、相關影像媒體 5
技術研發成果 1 • 典藏系統與Handle System間之整合 • 已完成典藏系統與命名管理系統之整合介面設計 • 多媒體管理中心 • 已完成多媒體資料管理與儲存之典藏系統 • 具相簿管理、媒體管理…等多項功能 • 人名權威資料庫 • 具保存人物典藏資料之能力,並提供相關之管理功能 • 典藏系統權限控管模組 • 提供典藏系統權限控管功能 • 已整合到各典藏系統,並已元件化 6
故宮先秦紋飾資料庫 10
故宮先秦紋飾資料庫 11
物種分類管理 12
人名權威資料庫 13
數位典藏資料庫技術開發 數位典藏資料庫製作工具 Digital Archive Database Tool (DADT) • 多表格資料庫應用系統速成工具 • 資料綱要導向(schema oriented) • Web 介面驅動(Web interface driven) • 資料庫應用系統常用功能之支援與整合 • 中介軟體(middleware) – 與不同RDBMS 接合 • 強健、良好效能、適用於繁複的需求 14
DADT 的運作 • 依表格間的親子(parent-child)關係與參考(reference)關係,自主表格建構表格網(table net) ,進而運作 • 表格網分類 • 表格階層(table hierarchy) • 參考樹(reference tree) • 完全表格網(full table net) • 四種網頁:管理網頁、查詢網頁、條列網頁與報表網頁 • 初步的 XML 支援:XML 文件匯入/出 15
DADT支援數位典藏計畫 2 • 台灣本土植物數位典藏 • 故宮器物數位典藏 • 器物數位典藏管理、查詢子系統 • 主題/紋飾權威檔管理子系統 • 國史館典藏國家檔案與總統文物數位化 • 國民政府檔案管理系統 • 蔣中正總統文物檔案、蔣中正總統文物照片 • 人名權威檔後設資料管理系統 16
DADT支援數位典藏計畫 1 • 語言典藏 • 台灣南島語語料庫數位典藏 • 近代外交經濟重要檔案數位典藏 • 內閣大庫檔案著錄格式、權威檔建立 • 臺灣文獻館臺灣省行政長官公署檔案數位化 • 金石拓片與其他媒材古文書數位典藏 • 佛像造像管理系統、查詢系統 • 臺灣原住民數位典藏 17
多媒體處理技術-發展多媒體內涵查詢技術 視訊錯誤容忍回復技術 • 輸出與標準MPEG-2格式相容 • 對MPEG-2視訊作抵抗傳輸錯誤的處理 • 即使影片遭受傳輸錯誤破壞,仍保有不錯的觀看品質 18
移動向量遺失的情形 回復主要移動向量後的結果 事先把視訊的主要移動向量資訊隱藏在畫面中,當視訊遭受破壞時,用來取代原移動向量,對於畫面移動大時,效果還不錯。 視訊受到破壞時,一般的方法是假設畫面沒有太大的移動,直接用前一個畫面區塊來取代,但是對畫面移動大時,效果就會不好。 19
多媒體處理技術-影像型虛擬實境技術 • 建立一個逼真的三維虛擬展示環境。 • 一個良好的三維虛擬展示環境需要: • 真實性 (Photo Realistic) • 互動性 (Interactivity) • 網路化 (Internet-enabled) • 影像型虛擬實境技術 (Image-based VR Tech.) • 環物影片 (Object Movie) • 環場影像 (Panorama) 20
將影像型技術(Image-based Tech.)作整合,以期提供上述優良之三維虛擬展示環境。目前的成果: • 環場影像與環物影片之整合 • (Augmented Panorama with Object Movie) • 增添式環場中平面物體視點之自然轉移 • (Augmented Panorama with view-transition of planar object ) 21
環場影像與環物影片之整合 • 將環物影片加入到環場影像中,並輔以陰影效果,使得虛擬效果更加逼真。 環場影像 環物影片 22
+ 增添式環場中平面物體視點之自然轉移 • 利用平物物體於不同視點拍攝時,具有Homography的幾何關係之特性,可以將該物體作視點的自然轉移,讓觀賞者具有更直覺化的觀灠效果。 環場中平面物體之特殊幾何關係 平面物體視點之自然轉移 23
目前技術支援之成果 • 國立歷史博物館 • 馬諦斯畫展線上虛擬展示 • 台大地質所 • 礦物展示 • 其它線上展示 • 中央研究院資訊科學研究所 24
語言處理技術 • 年度工作項目與成果 • 語言分析技術 • 文件影像資訊擷取技術 • 跨語言資訊檢索技術 • 語音檢索技術 25
語言分析技術 • 研究新的詞類自動標記方法及詞類標記編修工具開發 • 完成雛型辨識系統並進行模型效能評估及系統改進中 • 研究並提出最有效率之標記方法可以大量節省人工校對時間。 • 設計具有未知詞辨識功能的分詞系統 • 完成具有未知詞辨識功能的分詞雛形系統 • 目前結合未知詞辨識功能的分詞系統實驗結果,正確率可達 96% • 建立中文詞網系統並研究中文詞與英文詞網自動對應之方法 • 研究中文詞與英文詞網自動對應,設計歧義詞對應及排歧軟體工具 • 以ABC辭典中的名詞為例,以字形對應可達97.76%的可對應比例,以詞義對應則可達97.78%的可對應比例 • 設計中文語料庫管理系統 • 語料蒐集、斷詞及標記詞類、新詞擷取收集、人工檢驗修改工具等 • 提供語料檢索分類統計資訊 26
文件影像資訊擷取技術 古籍文件辨識與檢索系統針對古代書籍的工整手寫文字所研發出的辨識與檢索系統,用圖形比對(Graph Matching)技術,能由筆劃的特徵與結構資訊辨識出手寫文字。 影視字幕辨識與資訊擷取系統可檢索視訊畫面中的文字並且播放該段影片的內容,活潑地呈現檢索結果,將更有效地滿足使用者的需求。此系統結合了圖文分離、文件分析、文字辨識及資料庫等多種技術,乃是一具體而微的應用系統。 ADMS影像文件辨識、檢索及管理系統針對現代各式的印刷文件,如報紙、傳真文件、公文等等,加以辨識並存檔,不論繁、簡中文與英文,以及各種不同種類的文件均可準確地辨識出來,並對紙本文件作一有效之管理與應用,並提供電子郵件、文字檔編輯、個人書籤等便利使用的功能 (此系統架構現在已使用於中研院資訊所的公文存檔、公告與管理。) 27
跨語搜尋與術語自動翻譯技術 • 可自動翻譯辭典未收錄的查詢關鍵詞,提供檢索以外語表達的網頁及圖像資訊, 如”中央研究院”自動翻譯 “Academia Sinica”, ”世貿大樓爆炸”翻譯為 “Twin Towers Attack”等。 • 利用網路豐富的多語言網頁作為翻譯分析的動態語料 (Live Corpus) , 決定最佳翻譯。 • 透過網路探勘, 可翻譯的術語數量龐大, 且不侷限中英文。 • 可以有效克服雙語辭典無法蒐錄人名, 公司名等專名的困難。 • 本系統可作為數位典藏系統發展跨語檢索時的關鍵詞翻譯引擎。 • 網址: http://livetrans.iis.sinica.edu.tw 28
語音資訊檢索技術 • 『搜影音』影音新聞檢索系統 (SoVideo)約200小時公視影音新聞,使用之關鍵技術包括自動新聞情境切割、語音辨識及資訊檢索等。可輸入關鍵詞來查詢,如陳水扁、公益彩券、臍帶血等。網址:http://sovideo.iis.sinica.edu.tw 29
智慧財產權與隱私權管理機制之核心技術開發 • 即時網頁浮水印開發: 即時線上加入浮水印機制cache機制 • 軟體包裹技術與數位內容產權管理系統整合:windows平台上之軟體包裹技術研究及數位內容產權管理系統整合 • 智慧財產權現有法律與技術相關之研究 • 數位內容簽章系統 • 電子簽章與電子簽章法之相關研究 30
技術支援單位 • 中研院植物所 • 中研院史語所 • 中研院近史所檔案館 • 特有生物研究保育中心 • 國立台灣美術館資料中心 31
Where 空間 When 時間 歷史地圖 數位典藏 How and What 語言的時代變遷 文獻所使用的語言 語言的地方差異 語言座標-參考資源建置與服務 • 目的:建置完整的語言參考資料,做為語言座標之基礎架構。語言座標之建立,將分別以空間分布、知識內容、語言分類、及時間軸為基礎,並進行以上座標架構之整合與語言典藏標準之訂立;把座標落實到各個數位典藏中。 典藏與時空語言座標關係圖 32
九十一年執行工作(九十一年五月至九十二年一月)九十一年執行工作(九十一年五月至九十二年一月) 33
工作營/研習營 2 • 1/22「語言資源建構與標記」工作營 :針對「數位典藏」、「語言典藏」、「漢字缺字的解決方案」、「CNS14366中文分詞標準與語料庫建構工具」、「開放語言典藏組織(OLAC)與語言典藏後設資料之標準」、「漢學典籍的標記方式」、「語音資料庫標記」、「研究院語料庫詞類與標記原則」、「近代漢語、上古漢語、台灣南島語詞類與標記原則」、「簡化詞類與詞類集間的對應」等議題作簡介,並現場Demo。 • 4/22「構字及分詞」工作營 :對「解決缺字的架構與理論基礎」、「解決缺字的系統平台與功能簡介」、「分詞標準、詞彙收集與詞彙庫基本架構」、「分詞程式與詞彙庫系統簡介」等議題作介紹。並使參加人員實際上機操作練習(一人一機),使其對於「構字及分詞」之結構與功能有更進一步的認識,並藉由參加者實際操作時提出問題,達到與數位典藏各計畫之溝通互動、了解各計畫需求及待改進的地方之目的。 35
工作營/研習營 1 • 7/29「語言座標技術」研習營:針對本計畫所提供的資源及技術作介紹,包含漢字缺字解決方案、分詞標準與詞類標記原則、通用及專門領域詞彙庫系統、中英雙向對譯資料庫及雙語控制詞彙、OLAC後設資料集及其中文版、自動標音系統等。另外,於研習會中安排一段座談會,與各計畫參與者雙向溝通,並請各計畫填寫需求確認表,藉此與各計畫互動,了解各計畫實際需求,以達日後為各計畫提供更完整的服務及進一步改善之目的。 • 10/28「詞類標記、領域詞典與語言後設資料」工作營:針對分詞、詞類標記與詞彙庫、OLAC語言典藏後設資料、DC中有關語言的後設資料訊息作介紹,及對雙語對應查詢介面及領域詞典標記建置作說明,並上機實際操作練習。 36
技術支援 • Tag tool for windows :詞類標記工具 Windows 版 • 分詞工具 • 中文電腦缺字解決方案 -- 漢字構形資料庫 • 中文電腦缺字解決方案 -- 漢字構形資料庫--處理網頁缺字的 Java Applet 37
時空座標-歷史地圖應用的推廣 • 應用與處理技術 • 主題圖製作 • 檢索系統與相關國際標準研析與導入規劃,如 ISO/TC211:Geo-database雛型測試 • 開發catalog metadata工具 • WebGIS 應用工具與環境集結時空座標: • 元智大學-蘇軾東南詩 • 故宮博物院-大藏經 • 傅斯年圖書館人名權威檔 • 應用諮詢: • 台灣文獻會 • 故宮博物院-世界博物 • 基礎圖資建置:中國歷史地圖集 • 計畫網站建置:http://gis.ascc.net/STIS/index_b.html 38
工作要項 • 計畫訪談與需求確認。 • WebGIS-based 時空資訊系統規劃、流程設計(包含 geo-referencing資料建置)、系統建置與整合。 • 利用WebGIS進行所有計畫之整合:整合介面、機制、資料交換架構等之設計與研發。 • 時空參照基礎系統建置。 • 時空資訊檢索功能:不僅提供基本的時空基礎檢索機制,同時配合 Content Experts (於典藏建置與管理需求),發展所需的檢索功能。 • 掌握/參與國際相關標準/規範,同時研擬建立NSDI規劃建議,並參與GSDI,並建立必要之交換/整合機制 • 「時間--空間--語言」為基礎之典藏整合體系建構 • 計畫網站建置。 39
主要成果 • 舉辦「時空資訊技術支援研習營」 • 需求訪談與技術支援(詳如次頁表列) • 完成 WebGIS-based 整合應用環境雛形:http://gis.ascc.net/designer/。 • 完成時空參照系統規畫分析與座標轉換工具之整合。 • 相關國際標準研析與導入規劃,如 ISO/TC211 • 開發技術與系統建置 • WebGIS Temporal Processing Toolkit:應用於既有WebGIS環境中,擴充圖資與屬性資料的時間序列處理能力。建立圖資之起迄時間截面後,便可於WebGIS功能外,增加如動態展現、以時間為範圍的圖資資料檢索等功能 • Rectify影像幾何校正軟體:針對未校正影像,以控制點方式作幾何校正,並可進行幾何精度評估,輸出校正之幾何影像。現已開發至v1.2版,可以校正二階以上的影像。 • catalog metadata:使用在ArcGIS Catalog所注入的後設資料上,其功用為補足由ArcGIS Catalog所產生的XML格式之metadata所欠缺的欄位,以提昇Metadata註錄之完整性。 40
主要成果 41
典藏空間資訊系統 開發流程 42
成果範例(圖) 43
問題與建議 • 一般使用者進入門檻高 • 空間資料取得不易 • 新的資訊檢索技術 • 完善的資料模式與處理體系 • 有效的大量資料管理機制 • 大量空間資料之數位化與結構化建置(數百個TeraBytes) • 與其他資訊系統與資訊技術之整合 44
Metadata 4 • 支援計畫 • 範圍 • 典藏單位:博物館(美術、自然史) 、檔案館、標本館與圖書館四大類型 • 學科屬性:藝術、人文、社會 與生物多樣性 • 資料類型:拓片、檔案、善本書、器物、標本、語料、地圖、照片、明信片、書畫、錄影帶、樂譜、服飾、田野調查與報告 • 4個單位以上:以中央研究院、故宮博物院、國史館、台北藝術大學為主 • 19項計畫 • 6個主題小組(內容發展分項計畫項下) :包括植物、動物、地質、善本古籍、人類與檔案學組 45
Metadata 3 • 系統規格書 • 24份主題計畫Metadata系統需求規格書 • 核心元素集:5份 • 包括善本古籍、動物學、植物學、動植物學、檔案學 • 國際標準趨勢與應用的分析報告:10份 • 包括善本古籍、人類學與民族學、 地質學、動植學與GIS、影音、生物資訊學、南島語言、考古遺址與遺物層級、CDWA中文應用、生物類 46
Metadata 2 • 國際標準:標準中文化及著作權的取得 • 包括ADL Gazetteer Content Standard、CDWA、CIDOC Ethnology、EAD、HISPID、IFLA FRBR、LOM、MIDAS、TEI 、VRA等 • 與國內學者共同合作,包括黃銘崇博士、彭鏡毅博士、黃鴻珠教授、吳美美教授、薛理桂授、謝清俊主任等 47
Metadata 1 • 論文發表 • 會議論文:4篇,包括數位典藏技術研討會、檔案數位化典藏研討會、佛教知識組織管理研討會、美國ASIST 2002年會 • 會議報告:9篇,包括博物館典藏數位化再造理論研討會、PNC(2002)、APEC(2002)、美國JCDL(2002) • 期刊論文:1篇 • 國際合作與美國UC Berkeley 、ECAI共同執行美國NSFA Multilingual Gazetteer System for Integrating Spatial and Cultural Resource國際合作計畫 48