Hashimoto Yuta
National Museum of Japanese History. Assistant Professor
Minna de Honkoku: A Crowdsourced Transcription Platform for Historical Japanese Documents and Its Use in Research and Education
Minna de Honkoku (https://honkoku.org/) is a crowdsourcing platform for the transcription of historical Japanese documents, such as manuscripts and printed books produced before the Meiji era. This presentation introduces the platform along with associated tools, research applications, and educational practices.
Jointly operated by three institutions including the National Museum of Japanese History, Minna de Honkoku was relaunched in its current form in 2019. Since then, more than 4,100 individuals have participated, contributing transcriptions of over 2,300 items, totaling approximately 41.1 million characters. All transcribed data are openly available under a CC BY-SA license and are increasingly being used as digital resources in Digital Humanities research. For instance, the National Diet Library's "Kotenseki OCR" and Sakana AI's "Karamaru" both utilize Minna de Honkoku data.
A distinctive feature of the platform is its integration with KuLA, a kuzushiji learning application, which helps users improve their character recognition skills while transcribing. Thanks to this educational component, the platform is also widely used in educational settings. Professor Laura Moretti has been incorporating Minna de Honkoku into her summer school programs at the University of Cambridge since 2020, using it as a tool to share source materials and their transcriptions.
A new version of the platform is scheduled for release in the summer of 2025. It will offer features such as private transcription projects for classroom use and AI-assisted automatic translation of transcribed texts. These updates aim to enhance both research and teaching by lowering barriers to working with historical Japanese documents.
前近代日本語史料の市民参加型翻刻プラットフォーム「みんなで翻刻」とその教育・研究活用
「みんなで翻刻」(https://honkoku.org/)は、江戸時代以前の古文書や古典籍を対象とした市民参加型の翻刻プラットフォームである。本発表では「みんなで翻刻」の概要と、それに関連する研究資源・ツール、さらに教育的な活用事例について紹介する。
本プラットフォームは、国立歴史民俗博物館を含む3機関の共同により運営されており、現行バージョンは2019年に公開された。これまでに約4,100人の参加者が翻刻作業に携わり、2,300点(約4,110万字)に及ぶ古文書・古典籍が翻刻されてきた。これらの成果はCC BY-SAライセンスのもと公開されており、近年ではデジタル・ヒューマニティーズ(DH)分野における研究資源としての利用が進んでいる。たとえば、国立国会図書館の「NDL古典籍OCR」やSakana AIの「からまる」は、「みんなで翻刻」のデータを活用した代表的なプロダクトである。
「みんなで翻刻」の特徴の一つは、くずし字学習支援アプリ「KuLA」と連携し、参加者の文字解読能力の向上を支援している点にある。この特性は、教育現場での活用を後押ししており、たとえばケンブリッジ大学のLaura Moretti教授が主催するサマースクールでは、2020年以降、本プラットフォームが資料や翻刻文の共有ツールとして用いている。
現在、2025年夏の公開を目指して新バージョンの開発が進められており、授業向けの非公開翻刻プロジェクトの作成機能や、生成AIを活用した翻刻文の自動翻訳機能など、教育・研究支援のための新機能が盛り込まれる予定である。