中央研究院-現代漢語平衡語料庫 Academia Sinica Balanced Corpus of Modern Chinese

中央研究院現代漢語標記語料庫４.０版簡介

「中央研究院漢語平衡語料庫」（簡稱 Sinica Corpus）第 4.0 版，為一包含一千多萬目詞的帶標記平衡語料庫。本語料庫中每個文句都依詞斷開，並標示詞類標記。語料的蒐集也盡量做到平衡分配在不同的主題和語式上，是現代漢語無窮多的語句中一個代表性的樣本。所蒐集的文章為 1981 年到 2007 年之間的文章，於2010年開始授權申請使用，而一千萬語料的查詢介面為2013年起提供查詢。語料庫共有 19,247 篇文章；1,396,133句數；11,245,330 個詞數 (word token) ；239,598 個詞形 (word type)；17,554,089 個字數 (character token)。各主題其篇數如下：

主題	詞數	字數	篇數
文學	2,244,361	3,427,101	2,525
生活	2,253,102	3,547,925	5,461
社會	3,636,897	5,865,905	7,466
科學	1,132,298	1,874,228	1,482
哲學	1,129,512	1,681,026	1,378
藝術	849,160	1,337,904	935
加總結果	11,245,330	17,554,089	19,247

>>> 進入語料檢索系統 <<<

如欲更進一步了解語料庫的內容，請參考中央研究院資訊所、語言所詞庫小組所編技術報告第 95-02/98-04號「中央研究院漢語料庫的內容與說明」。[Sinica Corpus English user manual]

若有錯誤指正或改良建議等歡迎寄電子郵件至 yuehyin @iis.sinica.edu.tw 施悅音小姐

語言所

資訊所

使用者條款、資訊安全與隱私權政策