中央研究院現代漢語標記語料庫4.0版簡介

「中央研究院漢語平衡語料庫」 (簡稱 Sinica Corpus)第 4.0 版,為一包含一千多萬目詞的帶標記平衡語料庫。本語料庫中每個文句都依詞斷開,並標示詞類標記。語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。所蒐集的文章為 1981 年到 2007 年之間的文章,於2010年開始授權申請使用,而一千萬語料的查詢介面為2013年起提供查詢。語料庫共有 19,247 篇文章;1,396,133句數;11,245,330 個詞數 (word token) ;239,598 個詞形 (word type);17,554,089 個字數 (character token)。各主題其篇數如下:

主題 詞數 字數 篇數
文學 2,244,361 3,427,101 2,525
生活 2,253,102 3,547,925 5,461
社會 3,636,897 5,865,905 7,466
科學 1,132,298 1,874,228 1,482
哲學 1,129,512 1,681,026 1,378
藝術 849,160 1,337,904 935
加總結果 11,245,330 17,554,089 19,247

>>> 進入語料檢索系統 <<<

如欲更進一步了解語料庫的內容,請參考中央研究院資訊所、語言所詞庫小組所編技術報告第 95-02/98-04號「中央研究院漢語料庫的內容與說明」。[Sinica Corpus English user manual]

若有錯誤指正或改良建議等歡迎寄電子郵件至  yuehyin @iis.sinica.edu.tw 施悅音 小姐

語言所 資訊所 資訊服務處 版權聲明