Yamada Shoji
International Research Center for Japanese Studies. Professor

前近代知識資源の要約への生成AIの活用

生成AIの活用を探る研究は、人文学においても行われている。国際日本文化研究センター(日文研)では、20世紀はじめに編纂された日本文化大事典ともいえる「古事類苑」約67,000ページのテキストデータ化を進めて、2008年から順次公開している。現時点で22,477ページ分がテキスト情報として利用可能になっている。しかしながら、「古事類苑」は明治以前の文献からの引用を集成したもので、古文と漢文で書かれているため、多くの現代人にとっては読解が難しい。そこで発表者は、指定した検索語に関する「古事類苑」の記述を、生成AIにより現代語訳し要約するシステムを構築した。具体的には、①検索語で「古事類苑」を全文検索して関連度の高い5件についてのコンテキストを取り出す、②それらの要約を「検索拡張生成」(RAG)により生成し出力する。テスト時点で利用できた各種の生成AIを試した結果、主観評価ではあるもののAnthropic社のclaude-3.7-sonnetが、この種のタスクに最も適していると判断した。テキスト生成に関して同AIの性能のよさは、同様の試みを行っている他の研究者らの意見とも一致している。本システムの特徴は、生成AIの出力を「古事類苑」の知識の範囲に限ることで、ハルシネーションを避け実用性を高めたことにある。今後、「古事類苑」のテキストデータ化をさらに進め、図書館のリファレンス・ツールのひとつとして活用できる水準にまで高めていきたい。

Summarizing the pre-modern knowledge resource using a generative AI

Research into the application of generative AI is underway in the humanities as well. The International Research Center for Japanese Studies (Nichibunken) has been converting the 67,000 pages of the Kojiruien, an encyclopedia of Japanese culture compiled at the beginning of the 20th century, into text data, which it has been releasing sequentially since 2008. As of May 2025, 22,477 pages are available as searchable text data. However, Kojiruien comprises excerpts from premodern Japanese sources that are written in kobun and kanbun, which impedes comprehension for contemporary readers. To address this issue, the presenter has developed a system that employs generative AI to produce the summaries of Kojiruien entries in modern Japanese based on user-specified search terms. The system functions in two main steps: (1) it performs a full-text search of Kojiruien and extracts the context surrounding the top five most relevant results; (2) it then uses Retrieval-Augmented Generation (RAG) to generate the summaries of the results. In preliminary testing across several generative AI models, Anthropic’s claude-3.7-sonnet was subjectively assessed to be the most suitable for this task. This result in text generation aligns with the evaluations of other researchers pursuing similar trials. A key feature of the system is its ability to constrain AI outputs within the scope of Kojiruien's content, thereby minimizing hallucinations and enhancing practical usability. Future plans include further progress in text digitization of Kojiruien, aiming to elevate the system to a level where it can serve as a reference tool in library settings.