『現代日本語書き言葉均衡コーパス』の拡張:2025年までの2億語コーパスへ
コーパスとは言語研究用に書き言葉・話し言葉を大量に収録した言葉のデータベースのことで、20世紀半ばから英米で構築が始まり、1990年代以降急速に普及した。コーパスの登場で、言語研究は統計的手法を用いた科学的な側面を発展させただけでなく、言語教育、言語情報処理、辞書編纂など幅広い応用を獲得した。
世界各国では、コーパスを国が主体となって整備するとともに、データを追加・更新している。日本においても、国内外における日本語研究・日本語教育の充実や科学技術に貢献する観点から、言語コーパスの整備及び、過去に整備したコーパスの拡充は必要である。
国立国語研究所では、文化庁の委託事業として2024年度より5か年計画で「信頼できる言語資源としての現代日本語の保存・活用のためのデジタル基盤整備事業」を実施することになった。事業の具体的な内容は、国立国語研究所が2011年から公開している『現代日本語書き言葉均衡コーパス』(BCCWJ)を拡張し、規模をほぼ2倍の約2億語にすることである(今回拡張する部分を「BCCWJ2」と呼ぶ)。2025年度末に整備済みの一部データ2,500万語を公開予定であり、2028年度末までに全体を公開する。
英語版:
A corpus is a language database that contains large collections of written and spoken language data for linguistic research. The construction of corpora began in the United Kingdom and the United States in the mid-20th century and has rapidly spread since the 1990s. The emergence of corpora has not only advanced the scientific aspects of linguistic research through statistical methods, but has also enabled a wide range of applications, including language education, natural language processing, and dictionary compilation.
In many countries around the world, governments are taking the lead in developing national corpora while continuously adding to and updating the data. In Japan as well, it is essential to develop new corpora and expand existing ones to enhance Japanese language research and education both domestically and internationally, and to contribute to scientific and technological advancement.
To this end, the National Institute for Japanese Language and Linguistics (NINJAL) will implement a five-year project starting in fiscal year 2024, commissioned by the Agency for Cultural Affairs, titled the “Digital Infrastructure Development Project for the Preservation and Utilization of Modern Japanese as a Reliable Language Resource.”
The main objective of the project is to expand the Balanced Corpus of Contemporary Written Japanese (BCCWJ), which NINJAL has made publicly available since 2011. The corpus will be nearly doubled in size—from about 100 million words to approximately 200 million. The newly expanded portion is referred to as BCCWJ2. A partial release of 25 million words of processed data is planned by the end of fiscal year 2025, with full public release scheduled by the end of fiscal year 2028.
