1,000
건의 인쇄본 자동 전사 및 철자 현대화
텍스트 처리
자동 전사 워크플로.
Cuéllar, Álvaro. (2023). «La Inteligencia Artificial al rescate del Siglo de Oro. Transcripción y modernización automática de mil trescientos impresos y manuscritos teatrales» . Hipogrifo. Revista de literatura y cultura del Siglo de Oro, vol. 11, núm. 1, pp. 101-115.
새 작업 흐름
일반 HTR 모델과 함께, 특히 복잡한 연극 필사본을 위한 새로운 작업 절차를 개발하고 있습니다. 먼저 자동 판독으로 초기 전사를 얻고, 이후 언어 모델과 팩시밀리 이미지의 직접 시각 검토를 통해 페이지별로 대조합니다.
목표는 읽기와 연구에 더 유용한 텍스트를 만드는 것입니다. 작품은 막별로 정리하고, 단순한 연속 페이지 번호를 부여하며, 판독이 불확실한 부분은 의문으로 남기고, BITESO에서 볼 수 있도록 TEI 형식으로 준비합니다.
이 절차는 비평판을 대체하지 않지만, 어려운 필사본을 탐색 가능하고 검토 가능한 디지털 텍스트로 만들며 이미지와 연결해 줍니다.
최근 우리는 Transkribus를 사용해 자동 전사 워크플로를 개발했습니다. 이 과정을 통해 스페인 황금세기 연극의 인쇄본 약 1000점과 필사본 350점을 자동 전사하고 철자를 현대화할 수 있었으며, 이 자료들은 현재 CETSO와 TEXORO의 일부가 되었습니다.
1,000
건의 인쇄본 자동 전사 및 철자 현대화
350
건의 필사본을 프로젝트 워크플로에 포함
99%
인쇄본의 대략적 정확도
90%
필사본의 대략적 정확도
사용된 세 모델은 모두 공개되어 있으며 누구나 Transkribus를 통해 사용할 수 있습니다.
Transkribus, 2021
스페인 황금세기 연극 인쇄본의 자동 전사를 위해 학습된 모델.
Transkribus, 2021
이미 전사된 인쇄본의 철자 현대화를 자동으로 수행하기 위한 버전.
Transkribus, 2021
연극 필사본을 중심으로 철자 현대화와 관련 특징 탐지를 수행하는 모델.
이 모델들은 연극 인쇄본과 필사본을 높은 정확도로 전사할 수 있게 해 줍니다. 인쇄본은 약 99%, 필사본은 약 90%의 정확도를 보입니다. 또한 우리의 전사는 현재 표기 규범에 맞춘 철자 현대화와 이탤릭체 같은 특정 요소의 탐지도 자동으로 수행할 수 있습니다.

도구에 대해 더 알고 싶거나, 우리의 전사 모델을 자신의 문서에 적용하고 싶거나, 연구할 인쇄본 또는 필사본의 구체적인 전사가 필요하다면 Álvaro Cuéllar에게 연락해 주세요.