搜尋所有網站
搜尋詞庫網站
 
 
 

  中研院資訊所、語言所於民國七十五年成立一個跨所合作的中文計算語言研究小組共同合作建構中文自然語言處理的資源與研究環境,為國內外中文自然語言處理及其相關研究提供基本的研究資料與知識架構。代表性研究成果包括中文詞知識庫語料庫中文處理技術等。

   由於網際網路產生大量資訊但缺乏有效的自動化分析方法及技術足以快速處理。為了達到智慧型的資訊處理,知識為本的訊息處理成為目前研究的核心焦點,本計劃進行三個主要研究方向:知識擷取,知識表達及知識應用。

   
 

  研究如何自動化擷取語言知識及一般常識,我們期望由計畫中發展的語言處理技術配合擷取的知識能自動的分析網際網路中的大量文本,從中抽取知識。

  知識建構是一件耗時費事的大工程,我們在過去二十多年發展了中文處理基礎建設為未來的自動化知識建構打下基礎。這些基礎建設包含標記語料庫、句結構樹資料庫、詞彙庫、中文語法、詞彙分析系統及句剖析器等。我們將利用完成的基礎知識與技術來自動抽取網路文件中隱含的訊息,擴充現有知識架構並建立領域知識庫及詞彙知識庫。我們將連結不同的知識庫形成一個完整的概念網以提高計算機推理及語言了解能力。

   
 

  在知識表達研究方面,我們著眼於知識本體架構的基礎理論及細緻語意的表達模型的研究。藉由分析近義詞的細微差別,我們找出細緻語意的表達方式,同時也對知識表達模型及語意合成機制有更多的瞭解。我們也整合了當下最重要的一些知識本體架構,如詞網、知網及事件框架網,得到一個較佳的知識表達系統,稱為「廣義知網」。未來,我們會繼續朝知識邏輯與推理、知識結構整合,及自動推理與定理證明方面努力。

   
 

  我們將注重以概念為中心的中文處理技術,所發展的技術將利用自動抽取得到的統計、語言語法及常識訊息作為基礎知識用於分析文件的概念結構並瞭解文件的意義,進而抽取新的知識。以上步驟形成一個自動化的學習系統,語文處理系統可經由自動分析學習新知逐日更新知識庫,同時也藉由知識庫的更新增進了語文處理的能力。

   
 

馬偉雲資訊科學研究所

   
 
   
   
 
   
 
 
   
中央研究院 資訊科學所 中文組實驗室 中文詞知識庫小組 版權所有(c)