|
 |
| |
以下研究成果是由中央研究院中文詞知識庫小組執行、研究,並授權中華民國計算語言學學會發行。申請人需向學會提出申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。
|
| |
|
|
| |
中華民國計算語言學學會語料庫,為一包含約一千四百萬字的語料庫,主要資料來源為報紙和雜誌。
|
| |
|
| 中央研究院漢語平衡語料庫 |
| |
中央研究院漢語平衡語料庫(簡稱Sinica
Corpus)第4.0版,為一包含一千多萬目詞的帶標記平衡語料庫。本語料庫中每個文句都依詞斷開,並標示詞類標記。語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。所蒐集的文章為1981年到2007年之間的文章。 |
| |
|
| 中央研究院漢語平衡語料庫詞集及詞頻統計 |
| |
「中央研究院平衡語料庫詞集及詞頻統計(Word List with
Accumulated Word Frequency in Sinica Corpus
3.0)」是根據中央研究院平衡語料庫(五百萬詞)所計算出的詞集及詞頻統計資料,每一筆詞包含詞類、詞頻(在語料庫中出現的次數)、還有照詞頻排序至此詞的累積頻率(100為總頻率和)。 |
| |
|
| 中文詞庫(八萬目詞) |
| |
中文詞知識庫為一包含八萬目詞的電子辭典。本詞庫收的詞包含一般用詞、常用專有名詞、成語、慣用語、常用派生詞、異體詞、合併詞以及少數特殊領域用語和古漢語詞語。每個詞項包含的訊息有: 注音、頻率、詞類、名詞語義分類等。
|
| |
|
|
廣義知網中文詞知識庫 |
| |
廣義知網中文詞知識庫(E-HowNet)為詞彙語義表達系統,由兩個主要成分組成:
(一) 詞彙知識表達: 其內容包含於中文詞庫,
(二) E-HowNet義元(primitive concepts)定義式及知識架構(ontology)。 |
| |
|
| 中文分詞語料庫 |
| |
中文分詞語料庫為一包含兩百萬詞、不含詞類標記的語料庫,每個文句皆根據分詞原則來斷詞。而此分詞原則,乃是中華民國計算語言學學會在經濟部中央標準局委辦的「資訊處理用中文分詞規範調查研究及草案研擬」計畫中所訂定的。本語料庫來源包括書面語和口語兩部分,其中資訊類佔21%。
|
| |
|
| 中文分詞詞庫 |
| |
中文分詞詞庫係根據中文分詞語料庫(乃依分詞原則斷詞、不帶詞類標記的語料庫),共抽出42,138目詞,除了詞項外,還包括每個詞項在本語料庫出現的次數。
|
| |
|
| 中央研究院中文句結構樹資料庫 |
| |
中央研究院中文句結構樹資料庫(簡稱Sinica Treebank)第3.0版,包含了6個檔案,61,087 棵中文結構樹,361,834個詞,在結構樹中,標示了中文句語意和語法的訊息,以供學者專家在中文句法、語意關係研究參考之用。
|
| |
|
| |
|
| |
|