텍스트 처리

자동 전사

자동 전사 워크플로.

Cuéllar, Álvaro. (2023). «La Inteligencia Artificial al rescate del Siglo de Oro. Transcripción y modernización automática de mil trescientos impresos y manuscritos teatrales» . Hipogrifo. Revista de literatura y cultura del Siglo de Oro, vol. 11, núm. 1, pp. 101-115.

새 작업 흐름

HTR + LLM: 페이지별 검토 전사

일반 HTR 모델과 함께, 특히 복잡한 연극 필사본을 위한 새로운 작업 절차를 개발하고 있습니다. 먼저 자동 판독으로 초기 전사를 얻고, 이후 언어 모델과 팩시밀리 이미지의 직접 시각 검토를 통해 페이지별로 대조합니다.

목표는 읽기와 연구에 더 유용한 텍스트를 만드는 것입니다. 작품은 막별로 정리하고, 단순한 연속 페이지 번호를 부여하며, 판독이 불확실한 부분은 의문으로 남기고, BITESO에서 볼 수 있도록 TEI 형식으로 준비합니다.

이 절차는 비평판을 대체하지 않지만, 어려운 필사본을 탐색 가능하고 검토 가능한 디지털 텍스트로 만들며 이미지와 연결해 줍니다.

최근 우리는 Transkribus를 사용해 자동 전사 워크플로를 개발했습니다. 이 과정을 통해 스페인 황금세기 연극의 인쇄본 약 1000점과 필사본 350점을 자동 전사하고 철자를 현대화할 수 있었으며, 이 자료들은 현재 CETSO와 TEXORO의 일부가 되었습니다.

1,000

건의 인쇄본 자동 전사 및 철자 현대화

350

건의 필사본을 프로젝트 워크플로에 포함

99%

인쇄본의 대략적 정확도

90%

필사본의 대략적 정확도

사용된 세 모델은 모두 공개되어 있으며 누구나 Transkribus를 통해 사용할 수 있습니다.

Transkribus, 2021

Spanish Golden Age Prints 1.0

스페인 황금세기 연극 인쇄본의 자동 전사를 위해 학습된 모델.

Transkribus, 2021

Spanish Golden Age Prints (Spelling Modernization) 1.0

이미 전사된 인쇄본의 철자 현대화를 자동으로 수행하기 위한 버전.

Transkribus, 2021

Spanish Golden Age Manuscripts (Spelling Modernization) 1.0

연극 필사본을 중심으로 철자 현대화와 관련 특징 탐지를 수행하는 모델.

이 모델들은 연극 인쇄본과 필사본을 높은 정확도로 전사할 수 있게 해 줍니다. 인쇄본은 약 99%, 필사본은 약 90%의 정확도를 보입니다. 또한 우리의 전사는 현재 표기 규범에 맞춘 철자 현대화와 이탤릭체 같은 특정 요소의 탐지도 자동으로 수행할 수 있습니다.

스페인 황금세기 연극 텍스트에 적용된 자동 전사의 예. 자동 전사 및 철자 현대화의 두 번째 예입니다.

도구에 대해 더 알고 싶거나, 우리의 전사 모델을 자신의 문서에 적용하고 싶거나, 연구할 인쇄본 또는 필사본의 구체적인 전사가 필요하다면 Álvaro Cuéllar에게 연락해 주세요.