テキスト処理

自動転写

自動転写のワークフロー。

Cuéllar, Álvaro. (2023). «La Inteligencia Artificial al rescate del Siglo de Oro. Transcripción y modernización automática de mil trescientos impresos y manuscritos teatrales» . Hipogrifo. Revista de literatura y cultura del Siglo de Oro, vol. 11, núm. 1, pp. 101-115.

新しいワークフロー

HTR + LLM:ページごとに確認した転写

一般的な HTR モデルに加えて、特に複雑な演劇写本のための新しい作業プロセスを開発しています。まず自動読み取りによる初期転写を作成し、その後、言語モデルとファクシミリ画像の直接的な目視確認によってページごとに照合します。

目的は、読解と研究により役立つテキストを作ることです。作品は幕ごとに整理し、単純な連続ページ番号を付け、不確かな読みは疑問として残し、BITESO で閲覧できるよう TEI 形式で整えます。

この手順は校訂版に代わるものではありませんが、扱いにくい写本を、閲覧・確認が可能で画像と結びついたデジタルテキストへ変換します。

私たちは最近、Transkribus を用いて自動転写のワークフローを開発しました。これにより、スペイン黄金世紀演劇の印刷本約 1000 点と写本 350 点を自動転写し、綴字を現代化することができました。これらは現在 CETSO と TEXORO の一部になっています。

1,000

件の印刷本を自動転写し綴字を現代化

350

件の写本をプロジェクトのワークフローに組み込み

99%

印刷本でのおおよその精度

90%

写本でのおおよその精度

使用した 3 つのモデルは公開されており、誰でも Transkribus を通じて利用できます。

Transkribus, 2021

Spanish Golden Age Prints 1.0

スペイン黄金世紀の演劇印刷本の自動転写用に訓練されたモデル。

Transkribus, 2021

Spanish Golden Age Prints (Spelling Modernization) 1.0

転写済み印刷本の綴字を自動現代化するためのバージョン。

Transkribus, 2021

Spanish Golden Age Manuscripts (Spelling Modernization) 1.0

演劇写本を対象とし、綴字現代化と関連特徴の検出を行うモデル。

これらのモデルにより、演劇の印刷本と写本を高精度で転写できます。精度は印刷本で約 99%、写本で約 90% です。さらに、私たちの転写では現行規範に合わせた綴字の自動現代化や、イタリックなど特定要素の検出も可能です。

スペイン黄金世紀の演劇テキストに適用された自動転写の例。 自動転写と正書法現代化の第2例。

このツールの詳細、ご自身の資料への転写モデルの適用、または研究対象となる印刷本・写本の具体的な転写について知りたい場合は、Álvaro Cuéllar までお問い合わせください。