Onuma Tahee
National Diet Library. Chief, Research and Development Section, Research and Development for Next-Generation Systems Office, Digital Information Planning Division, Digital Information Department

Developing new library services using AI (machine learning): an introduction to the Next Digital Library

The Research and Development for Next-Generation Systems Office (R&D Office) at the National Diet Library, Japan (NDL) conducts research and development of practical applications for new library services using machine learning and other advanced information technologies as a means of improving the discoverability of digitized materials. One example of how the R&D Office’s efforts are being put to use is the Next Digital Library, an experimental search and view service for digitized materials.

The Next Digital Library <https://lab.ndl.go.jp/dl/> features two search functions: a Keyword Fulltext Search of texts that are generated using optical character recognition (OCR) and an Illustration Search for finding illustrations, photographs, and maps that are extracted automatically from digitized material. Users are able to search content from the NDL Digital Collections of about 336,000 books for which copyright protection has expired, including numerous old and rare Japanese books, with full text data for 30,000 items on industrial subjects. The Next Digital Library also features unique functionality for improving library services, such as whitening the background color of digitized copies of materials that are discolored due to aging, automatic processing of images to enhance page by page readability on smartphone displays, and automatic detection of page turning direction. The NDL is working now to implement this new functionality in the NDL Digital Collections.

Since August 2019, the R&D Office has operated an account on the GitHub website <https://github.com/ndl-lab>, through which it shares much technology, including the source code for the Next Digital Library and datasets for training machine learning models. The NDL hopes that the availability of this data will attract talented engineers from outside the NDL and serve as a hub for the exchange of expertise.

AI (機械学習) を用いた新たな図書館サービスの開発~「次世代デジタルライブラリー」の紹介を中心に

国立国会図書館は、次世代システム開発研究室(次世代室)において、図書館資料の発見可能性の向上を目的に、機械学習等の技術を図書館サービスに応用する調査研究を行っている。その研究成果の一つとして、デジタル化資料の検索・閲覧ができる実験サービス「次世代デジタルライブラリー」(次世デジ)を公開している。

次世デジは、OCR処理によって作成した全文テキストを対象としたキーワード検索や、デジタル化資料の中から自動抽出した画像(挿絵、写真、地図等)を対象とした類似画像検索ができる。収録資料は、「国立国会図書館デジタルコレクション」でインターネット公開されている著作権保護期間満了
図書・古典籍の全て約33万6,000点 (うち、本文テキスト検索対象は産業分野約3万点) である。その他、スマートフォン等の縦長ディスプレイに応じた見開きページの自動分割機能、資料閲覧画面でのページめくり方向の自動判定・設定機能等も搭載している。現在、これらの機能を「国立国会図書館デジタルコレクション」に搭載するため、検討を進めている。

また、次世代室は、2019年8月にGitHubのアカウント(ndl-lab)を開設し、様々な成果物を公開している。次世デジのソースコードに加え、調査研究で作成した機械学習用データセットも掲載している。当館外の優秀なエンジニアとの技術交流の場になればよいと考えている。