「中央研究院漢語平衡語料庫」 (簡稱 Sinica Corpus)第 4.0 版,為一包含一千多萬目詞的帶標記平衡語料庫。本語料庫中每個文句都依詞斷開,並標示詞類標記。語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。所蒐集的文章為 1981 年到 2007 年之間的文章,於2010年開始授權申請使用,而一千萬語料的查詢介面為2013年起提供查詢。語料庫共有 19,247 篇文章;1,396,133句數;11,245,330 個詞數 (word token) ;239,598 個詞形 (word type);17,554,089 個字數 (character token)。各主題其篇數如下:
主題 | 詞數 | 字數 | 篇數 |
文學 | 2,244,361 | 3,427,101 | 2,525 |
生活 | 2,253,102 | 3,547,925 | 5,461 |
社會 | 3,636,897 | 5,865,905 | 7,466 |
科學 | 1,132,298 | 1,874,228 | 1,482 |
哲學 | 1,129,512 | 1,681,026 | 1,378 |
藝術 | 849,160 | 1,337,904 | 935 |
加總結果 | 11,245,330 | 17,554,089 | 19,247 |
>>> 進入語料檢索系統 <<<
如欲更進一步了解語料庫的內容,請參考中央研究院資訊所、語言所詞庫小組所編技術報告第 95-02/98-04號「中央研究院漢語料庫的內容與說明」。[Sinica Corpus English user manual]
若有錯誤指正或改良建議等歡迎寄電子郵件至 yuehyin @iis.sinica.edu.tw 施悅音 小姐語言所 | 資訊所 | 資訊服務處 | 版權聲明 | |