Hibi Yoshitaka
Nagoya University. Professor

New Horizons in Modern Japanese Literary Studies through NDL Digital Texts: Toward a Scene-Level Thematic History via Large Language Models

The digital collections of the National Diet Library (NDL) are making a significant impact on the humanities and social sciences, both in terms of their extensive holdings and their powerful full-text search capabilities. This presentation introduces a novel methodological approach using large language models (LLMs) to analyze full-text data of modern Japanese novels provided by the NDL.

Traditional literary studies tend to focus on the level of the work as a whole. Although smaller narrative units may be examined during analysis, they are ultimately subsumed under the interpretation of the entire text. In contrast, computational methods allow for much finer-grained analysis—levels of granularity unachievable by human reading alone—enabling researchers to detect patterns in literary expression and thematic trends across time.

This study analyzes several thousand prewar novels, shifting the analytical unit from the conventional "work" to smaller "scene-based themes." These are defined as localized topics identified within text chunks of approximately 400 words. By segmenting the texts using LLMs and automatically assigning thematic labels to each chunk, we construct a semantic vector space and perform clustering analysis to visualize recurring themes and trace their diachronic transformations throughout the modern period.

Ultimately, this project proposes a new literary historiography that narrates the evolution of modern Japanese fiction through the lens of scene-level thematic patterns.

 

NDLデジタル本文と近代日本文学研究の新地平:大規模言語モデルによって「場面主題」の粒度で考える

国立国会図書館のデジタルコレクションは、収録点数の規模と内容検索のもたらす情報量とによって、人文社会科学に大きなインパクトを与えつつある。今回の報告では、その一例としてNDLが提供す小説の全文テキストデータを用い、それを大規模言語モデルによって解析する新しい手法を報告する。一般的には、近代小説研究が対象とする単位は、作品である。それより細かい単位は、もちろん分析の過程で扱いはするものの、最後には作品総体に帰着させる。一方、コンピュータを用いた量的解析では、より細かい、人力ではできないような粒度において、文学的表現の時代的布置やその変化を捉えることが可能となる。この研究では、戦前期の小説数千点を対象とし、従来の作品中心の研究規範から離れ、「場面主題」を分析単位とした新たな文学史の構築を目指す。「場面主題」とは、小説を数百語単位で切り分けて作った場面=チャンクごとに導かれる小規模な主題のことである。具体的には大規模言語モデルを用いて各小説を400語程度のチャンクに分割し、それぞれのチャンクに「場面主題」を自動付与する。それらを意味ベクトル化してクラスタリングすることで、時代ごとに文学において繰り返し描かれた主題の傾向を可視化し、主題の盛衰・変遷を通時的に追跡する。これは、「場面主題」の粒度で語る文学史の試みである。