詞庫簡介
研究概況
線上系統使用
詞庫授權資源
詞庫成員
技術報告
網路資源
連絡我們

 

 

 

 


搜尋所有網站
搜尋詞庫網站
 
 
 

  中央研究院漢語平衡語料庫(簡稱 Sinica Corpus)是世界上第一個有完整詞類標記的漢語平衡語料庫。由於加詞類標記的漢語語料庫是史無前例的嚐試,第一步先以較小規模(但仍大於較早英語語料庫的一百萬詞規模),於1994年公開提供給國內外學術研究使用,以期在使用過程中得到回饋。本語料庫中每個文句都依詞斷開,並標示詞類標記。語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。
  建構一個平衡帶詞類標記的語料庫,收集語料是第一個起步工作。接下來是語料整理的工作,包括語料清潔、為語料分類、加詞類標記等等〔陳克健 1994〕。因此構建一個中文的帶詞類標記的平衡語料庫需要考慮的三個中心問題為:

(一)平衡語料的分類與選取:如何為語料做分類,分類的標準以及各類的比例各類分配比例如下:

語料主題

哲學

文學

生活

社會

科學

藝術

百分比

8%

13%

28%

38%

8%

5%

(二)中文的斷詞問題:本語料庫的分詞原則依據中央標準局「資訊處理用中文分詞規範」處理。

(三)詞類標記集:詞類標記的原則以及每一個標記所代表的涵義。我們採用的是由詞庫小組八萬目辭典中的178個詞類 [詞庫小組 1993] 經簡化後所得的43個標記,另外加上3個特殊標記,共46個標記。

(四)中文詞類分析,技術報告93-05:包含詞類分析及相對應的詞彙結構。

   
 

1)搜集1,000萬詞之語料,將上述文獻依主題、出處、文類、年代、作者等加以標記。並將語料斷詞及標誌詞類。

2)建構介面程式,方便使用者查詢語料庫中的詞彙。

3)提供一千萬目詞的平衡語料庫4.0版本,所蒐集的文章為 1981 年到 2007 年之間的文章,欲利用語料庫的研究單位或學者,可透過中華民國計算機語言學會申請此版本的平衡語料庫。

   
 

邱智銘,駱季青,陳克健,2004,現代漢語複合動詞之詞首詞尾研究, 第十六屆計算語言學研討會論文集 pp.131-139 台灣,台北 (金山)

馬偉雲, 謝佑明, 楊昌樺, 陳克健 , 2001, 中文語料庫構建及管理系統設計, ROCLING 第十四屆計算語言學研討會論文集

黃居仁,陳克健,陳鳳儀,魏文真,張麗麗,1997,資訊用中文分詞規範設計理念及規範內容。語言文字應用學刊。第一期。92-100頁。

詞庫小組,1996,『搜』文解字:中文詞界研究與資訊用分詞標準,中文詞知識庫小組技術報告#96-01,南港,中央研究院。

張麗麗,黃居仁,1995,漢語數量詞後置,NACCL論文集。

黃居仁,1995,科際整合與整合科技-談計算語言學與語料庫語言學之角色與發展。「語言學研究之現況與發展」研討會,七月十五日,國立台灣師範大學。

陳克健,1994,素材語言學與文本處理,發表於ICCL-3會議,一九九四年七月,香港。

詞庫小組,1993,中文詞類分析,中文詞知識庫小組技術報告 # 93-05,南港,中央研究院。

葉美利,湯志真,黃居仁,陳克健,1992,漢語的動詞名物化初探-漢語中帶論元的名物化派生詞,第五屆計算語言學研討會論文集,pp.177-193,台灣,台北(劍潭)。

魏文真,葉美利,莫若萍,1991,「有」的語法表達模式,民國八十年國科會報告。

魏文真,陳克健,1991,「是」的語法表達模式,民國八十年國科會報告。

魏文真,陳克健,1991,連接詞的語法表達模式-以中文訊息格位語法(ICG)為本的表達模式,第四屆計算語言學研討會論文集,pp. 79-95,台灣,屏東(墾丁)。

陳克健,中文詞知識庫小組,1991,中文詞知識庫計劃與中文電子辭典,中日雙邊資訊研討會論文集,pp.19-37,台灣,台北。

   
  林素朱: jess
   
  中文剖析 中文斷詞系統 中文句結構樹 廣義知網
 
   
 
 
   
中央研究院 資訊科學所 中文組實驗室 中文詞知識庫小組 版權所有(c)