/
Автор: Пердики Э.
Теги: рукопись обработка данных рукописи архивные материалы цифровая обработка
ISBN: 2416-5999
Год: 2023
Текст
Подпишитесь на DeepL Pro и переводите документы большего объема.
Подробнее на www.DeepL.com/pro.
Подготовка больших рукописных данных к
иерархической кластеризации с минимальным
обучением HTR
Эльпида Пердики
Для цитирования этой версии:
Эльпида Пердики. Подготовка больших рукописных данных к иерархической кластеризации с минимальным
обучением HTR. Journal of Data Mining and Digital Humanities, 2023, Исторические документы и автоматическое
распознавание текста, 10.46298/jdmdh.10419 . hal-03880102v4
HAL Id: hal-03880102
https://hal.science/hal-03880102v4
Представлено 6 декабря 2023 г.
HAL - это междисциплинарный архив открытого
доступа для хранения и распространения документов
научных
исследований,
независимо
от
того,
опубликованы они или нет. Документы могут
поступать
из
учебных
и
исследовательских
учреждений во Франции или за рубежом, из
государственных или частных исследовательских
центров.
Открытый многодисциплинарный архив HAL
предназначен для сбора и распространения научных
документов
исследовательского
уровня,
опубликованных или нет, поступающих из учебных и
научных заведений Франции и других стран, из
государственных и частных лабораторий.
Распространяется по лицензии Creative Commons Attribution 4.0 International License
Подготовка больших рукописных данных к иерархической
кластеризации с минимальным обучением HTR
Эльпида Пердики1 *
1 Факультет греческой филологии, Фракийский университет Демокрита, Греция
*Корреспондирующий авторeperdiki@helit.duth.gr
Аннотация
Технологии HTR (Handwritten Text Recognition) достаточно развиты, чтобы обеспечить высокую точность
распознавания рукописных документов даже на синхронном уровне. Несмотря на современные алгоритмы и
программное обеспечение, исторические документы (особенно написанные на греческом языке) по-прежнему
представляют реальную проблему для исследователей. Большое количество неотредактированных или
недостаточно отредактированных произведений греческой литературы (античной или византийской, особенно
последней) существует до сих пор из-за сложности создания критических изданий. Для критического
редактирования литературного текста ученым необходимо точно определить варианты текста в нескольких
рукописях, что требует полной (или хотя бы частичной) расшифровки манускриптов. Для большой
рукописной традиции (т. е. большого количества рукописей, передающих одно и то же произведение) такой
процесс может оказаться кропотливым и трудоемким. В этой связи алгоритмы HTR, обучающие модели
искусственного интеллекта, могут оказать существенную помощь, даже если не приведут к абсолютно точной
транскрипции. Однако модели глубокого обучения требуют большого количества данных, чтобы быть
эффективными. Это, в свою очередь, обостряет ту же проблему: большие (транскрибированные) данные
требуют большого количества ручных транскрипций в качестве обучающих наборов. В отсутствие таких
транскрипций в данном исследовании проводятся эксперименты с обучающими наборами разного размера,
чтобы определить минимальный объем ручной транскрипции, необходимый для получения пригодных для
использования результатов. Модели HTR обучаются с помощью платформы Transkribus на манускриптах из
нескольких произведений одного византийского автора, Иоанна Златоуста. Постепенно сокращая количество
транскрибируемых вручную текстов и обучая смешанные модели на нескольких рукописях, можно добиться
экономичной транскрипции больших массивов рукописей (исчисляемых сотнями). Результаты этих
экспериментов показывают, что при правильном выборе комбинации рукописей и использовании
инструментов обучения переносу, предоставляемых Transkribus, требуемые наборы обучающих моделей могут
быть сокращены до 80 %. Определенные особенности греческих рукописей, которые позволяют легко
автоматизировать очистку получаемых транскрипций, могут еще больше улучшить эти результаты. Конечной
целью этих экспериментов является создание транскрипции с минимальной требуемой точностью (и,
следовательно, минимальным ручным вводом) для кластеризации текста. Если мы сможем точно оценить
обучение и результаты HTR, то, возможно, окажется, что достаточно будет и меньшего количества данных. В
данном примере предлагается решение для исследования/редактирования авторов и произведений, которые
были достаточно популярны, чтобы сохраниться в сотнях (если не тысячах) рукописей и, следовательно, не
могут быть оценены человеком.
ключевые слова
Большие данные; византийские рукописи; глубокое обучение; модели HTR; Транскрибус;
I
ВВЕДЕНИЕ
Гуманитарный дух античности и Византии передал молодым поколениям множество рукописей,
сохранивших древние и византийские греческие литературные тексты. Многие из этих рукописей
остаются неотредактированными или недостаточно отредактированными из-за сложности создания
критических изданий. Этот процесс требует больших объемов исследований рукописей, пока все
разрозненные варианты текстов (случаи, когда рукописи, содержащие один и тот же опус, передают
разные тексты) не будут собраны и сверены до мельчайших деталей. Особенно в случаях богатых
рукописных традиций (т.е. значительного числа рукописей, передающих одно и то же
произведение) этот процесс не только
1
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org
Это не только утомительно, но и может занять годы. Поэтому некоторые известные авторы
остаются в архивах библиотек или в плохо отредактированных изданиях. Таковы ~800 рукописей
Гомера, ~3 900 Нового Завета или ~21 400 опер Иоанна Златоуста (как указано в базе данных
Pinakes,1 хотя эти цифры могут быть еще выше).
Технология HTR могла бы значительно облегчить монументальную задачу массового и точного
сопоставления сотен, если не тысяч, рукописей. Ведь ни одна сверка не может быть выполнена без
(как минимум) дипломатической или (предпочтительно) регулярной транскрипции источников.
Несмотря на значительное развитие систем HTR в последние десятилетия и наличие нескольких
современных систем, доступных сообществу ученых, особенности рукописных исторических
документов остаются настоящей проблемой. Особенно это касается документов, написанных на
древнегреческом языке, в которых особые символы, такие как ударения (не менее пяти уникальных
символов для ударений и шесть их комбинаций) и лигатуры или сокращения букв, вызывают еще
большее недоумение при распознавании символов. Помимо этих факторов, нейронные сети
искусственного интеллекта могут помочь алгоритмам HTR в обучении высокоточных моделей, но
для эффективности необходим значительный объем обучающих данных. Для получения таких
исходных данных необходимо вернуться к старому процессу: ручной транскрипции большого
количества рукописей.
Ввиду нехватки таких транскрипций и человеческих усилий, необходимых для их создания ex
nihilo, в данной работе рассматриваются пределы возможностей технологии HTR путем
определения оптимального количества данных, необходимых для успешного обучения модели
искусственного интеллекта. В расширенной версии этого исследования (в настоящее время автор
продолжает работу над ним) транскрипции, созданные с помощью HTR, будут тестироваться в
качестве исходных данных в экспериментах по иерархической кластеризации рукописей. Цель
состоит в том, чтобы создать систему классификации, с помощью которой все экземпляры текста
можно будет проследить до их предков через серию точек ветвления - подобно методу
филогенетики в биологии, но с последовательностями ДНК вместо рукописей [Macé and Baret, 2004;
Spencer et al., 2004]. Учитывая сценарий работы с большими данными, иерархическая кластеризация
была предпочтительнее стеблевого анализа из-за своей скорости и простоты.
Для всех последующих методологических экспериментов набор из 11 рукописей с гомилиями
Иоанна Златоуста послужил примером исследования HTR.2 Этот автор был выбран по двум
основным причинам: а) его оперы насчитывают ~21 400 рукописей, что равно почти полумиллиарду
слов, которые, таким образом, невозможно расшифровать человеку, и б) почти 3 000 из этих
рукописей известны феноменом двойной рецензии, что означает наличие по крайней мере двух
известных семейств рукописей, известных как рецензии, из которых одна является пересмотром
другой [Konstantinidou, 2021; Perdiki and Konstantinidou, 2021]. Таким образом, чтобы
классифицировать тысячи рукописей по соответствующим рецензиям, необходимо сначала извлечь
из них исходные текстовые данные. Для решения обеих задач необходимо использовать
соответствующие технологии, позволяющие быстро и массово обрабатывать большие объемы
данных.
Эксперименты HTR проводились на платформе Transkribus.3
1 https://pinakes.irht.cnrs.fr/
(Accessed: 8 October 2020). Ср. [Augustin, Binggeli and Cassin, 2009].
все 11 рукописей были использованы в каждом из следующих записанных экспериментов. Некоторые из них оказались
недостаточными из-за шума изображения (что привело бы к неточным результатам HTR) или доступности данных. Многие
византийские рукописи недоступны в цифровых копиях или распространяются под ограничениями авторского права.
Ограничения авторских прав и доступность данных стали существенным препятствием для проведения данного
исследования.
3 https://readcoop.eu/transkribus/?sc=Transkribus.
2 Не
2
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org
II
ОБЗОР ЛИТЕРАТУРЫ
Системы распознавания текста хорошо изучены и постоянно развиваются. В настоящее время
существует две основные системы для извлечения текста из изображений: OCR (Optical Character
Recognition), ориентированная на печатный текст, и HTR для рукописных документов, где
распознавание символов не является простым [Firmani et al., 2018; Ströbel et al., 2022]. HTR также
подразделяется на офлайн (распознавание смысла по отсканированному изображению документа) и
онлайн (распознавание текста во время его написания) [Ingle et al., 2019]. Кроме того, постоянно
растущая потребность в расшифровке исторических документов, хранящихся в библиотеках и
коллекциях по всему миру, привела к разработке систем HTR, в основном ориентированных на
древние или средневековые почерки.
Самая последняя библиография предлагает такие приложения, как Tesseract [Patel et al., 2012; White,
2012],4 Kraken [Schoen and Saretto, 2022; Kiessling, 2019],5 eScriptorium [Kiessling et al., 2019],
Transkribus [Kahle et al., 2017; Muehlberger et al., 2019] или μDoc [Tsochatzidis et al., 2021]. Несмотря
на то, что здесь они расположены в одном ряду, следует отметить, что вышеперечисленные методы
не могут быть надежно сопоставлены друг с другом, поскольку они различаются по архитектуре и
функциям (например, Kraken и Tesseract - это OCR-движки, а eScriptorium и Transkribus интерфейсные платформы для HTR). Тем не менее, уже проведенные эксперименты [Ströbel and
Clematide, 2019; Ströbel, Clematide and Volk, 2020; Clérice, 2022b] показали, что из всех
вышеперечисленных инструментов HTR, Transkribus и e-Scriptorium (в котором реализован Kraken)
наиболее успешны в распознавании текстов с низким CER (Character Error Rate). Частично этот
успех объясняется различным и более эффективным анализом расположения, выполняемым как
Transkribus, так и eScriptorium, анализом, который не ограничивает сегментацию прямоугольными
областями, поскольку рукописный текст может расширяться в различных формах и направлениях
[Stokes et al., 2021]. Для экспериментов с греческими рукописями HTR было решено использовать
систему Transkribus, и это решение было обусловлено двумя причинами. Во-первых, в то время как
большинство других систем работают через CLI (интерфейс командной строки), что предполагает
свободное владение кодом, Transkribus предлагается в виде GUI (графического интерфейса
пользователя)6 и веб-приложения,(7) что делает его доступным для большинства исследователей. В
настоящее время eScriptorium также предлагает веб-платформу после регистрации и дальнейшего
контакта с командой [Kiessling et al., 2019; Stokes et al., 2021]. Однако на момент начала
экспериментов в рамках данного исследования их интерфейс был частично разработан. Тем не
менее, мы намерены расширить наши методы обучения за счет использования eScriptorium. Вовторых, если не использовать официальные серверы eScriptorium/Kraken, для обучения моделей
требуется высокая вычислительная мощность [Stokes et al., 2021]. К сожалению, не многие ученые
имеют доступ к высокопроизводительному оборудованию. Напротив, поскольку Transkribus
подключен к серверу в Инсбруке, все вычисления и обучение выполняются там [Kahle et al., 2017;
Muehlberger et al., 2019, pp. 959, 962]. Таким образом, каждый пользователь может обучать модели
даже с недорогого ноутбука. Следует также отметить, что, насколько нам известно, в настоящее
время не существует опубликованных и легкодоступных моделей HTR для древнегреческих или
византийских текстовых данных.8
https://web.archive.org/web/20220125061256/https:/github.com/tesseract-ocr/tesseract (Accessed: 20 October 2022). Тем не
менее, в [Smith, 2007] высказываются и несогласные с результатами работы Tesseract по сравнению с аналогичными
системами.
5 http://kraken.re/ (Accessed: 18 September 2020).
6 http://web.archive.org/web/20211113063459/https:/readcoop.eu/transkribus/download/ (Accessed: 19 июля
2022).
7 http://web.archive.org/web/20220119164148/https:/transkribus.eu/lite/ (Accessed: 19 July 2022).
8 Приложение HTR для византийских рукописей было описано в работе [Tsochatzidis et al., 2021], но в настоящее время оно
недоступно для широкой публики.
4
3
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org
III
3.1
МЕТОДЫ АВТОМАТИЧЕСКОЙ ТРАНСКРИПЦИИ РУКОПИСЕЙ
Доступность данных
Как было описано ранее, в качестве обучающих данных были использованы 11 манускриптов для
тематического исследования. Рукописи датируются 10-14 веком и передают гомилии Иоанна
Златоуста на Послания Павла к Титу.9 Гомилии 1 и 5 использовались в качестве наборов данных во
всех проведенных экспериментах, исходя из доступности цифровых изображений.
Большинство цифровых репродукций рукописей в той или иной степени защищены авторским
правом. В результате сбор данных не всегда является простым процессом. Напротив, для
следующих экспериментов автор с нуля подготовил данные, которые полностью предоставлены
исследовательскому сообществу. Вместо цифровых файлов рукописей даются ссылки на
электронные архивы библиотек, если это применимо. Подробный набор данных можно найти в
[Perdiki, 2023]. Однако наиболее эффективная общая модель, полученная в результате нашего
обучения, в настоящее время недоступна в Транскрибусе. Она будет опубликована после
публикации моей диссертации в ближайшие месяцы, при условии одобрения Транскрибусом
[Perdiki, forthcoming].
3.2
Методология
В документации "Транскрибуса" указано, что для успешного обучения модели HTR требуется не
менее 15 000 слов дипломатической транскрипции. Однако, поскольку такие транскрипции
недоступны, их создание с нуля потребовало бы больших экономических и человеческих ресурсов
для набора данных, состоящего из миллиона слов. Первые эксперименты с "Транскрибусом"
показали, что большинство ошибочных результатов связано с неправильным распознаванием
ударений, знаков препинания или разделения слов на части (из-за стиля письма scripta continua,
который, однако, нормализуется в транскрипции, а сокращения помечаются и затем расширяются
разделе метаданных),10 см. рис. 1. Чаще всего последний символ словесной лексемы (обычно это
местоимения или союзы длиной в среднем три символа) ошибочно соединялся с последующей или
предыдущей словесной лексемой. Кроме того, вероятно, по той же причине,11 когда не работает
токенизация, не работает и распознавание ударения. Например, строка 5 рисунка 1, где вместо
νεκροὺς (перевод: не мертвый) HTR распознает ἐκροὺς (бессмысленный) и добавляет
диакритический знак плавного дыхания над буквой ε. Это добавление диакритического знака интересная ошибка; согласно древнегреческой грамматике, когда слово начинается с буквы ε, оно
обычно имеет знак плавного дыхания. В других случаях распознавание ударения по праву терпит
неудачу, поскольку ударения в рукописях уже расставлены неправильно. Например, см. рис. 2 и
строку 3 рис. 1, где могильное ударение прилагательного πολὺς не распознается, поскольку оно
неправильно расположено над последним символом, согласным ς. Такие случаи не должны
рассматриваться как ошибки HTR. Следует также отметить, что на распознавание акцента может
негативно повлиять нерасширение области строки до верхнего поля (см. рис. 2; область строки
изображена синим прямоугольником, а базовая линия - фиолетовым подчеркиванием). В
соответствии с рекомендациями Transkribus о более высокой значимости базовой области (т. е.
воображаемой горизонтальной линии, на которую опираются текстовые символы) в результатах
HTR [Muehlberger et al., 2019, p. 959],12 корректировки были сделаны только в соответствующих
областях
А именно, рукописи: NLG Athens 263, BL Burney 48B, ONB Vindob. theol. gr. 14, BNF Par. gr. 745, Athos Vatopedi 328,
Patriarchal Library Alexandria 34, BSB Monac. gr. 377, BSB Monac. gr. 353, Patmos St. John 183, Athos Dionysiou 70, BSB
Monac. gr. 211.
10 Сегментация была нормализована для того, чтобы проверить пределы HTR - т. е. насколько успешной может быть модель
при таком сжатом стиле письма? С другой стороны, аббревиатуры не были нормализованы, поскольку они могут быть
более сложными как структурно, так и семантически. См. рисунок 1.
11 Хотя, прежде чем делать выводы по этому вопросу, необходимо провести обширные эксперименты.
12 См. eu/glossary/line-region/ (Accessed: 13 February 2023).
9
4
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org
базовых линий во всех упомянутых экспериментах. Такое бездействие в отношении корректировки
линий-областей является ограничением и должно быть исправлено в будущих экспериментах.
Кроме того, не все рукописи состоят из базовой линии. В редких случаях буквы пишутся со
свисающей строки, и особенность может быть сложной для системы HTR - см. рисунок 3 и [Perdiki
and Konstantinidou, 2021].
Рисунок 1. Красными прямоугольниками выделены случаи ошибок HTR (при нормализованной сегментации) из-за scripta
continua. Например, в строке 21 показано, как лексема ἀλλὰ τί (перевод: но что) ошибочно распознается как единственная
(бессмысленная) лексема ἀλλατι. Рукопись: NLG Athens 263, f. 158v.
Такие ошибки, как уже говорилось выше, можно легко очистить, чтобы значительно снизить CER.
Более того, несмотря на успешные требования к OCR с точностью выше 90 % [Holley, 2009; Clérice
2022a], сложные особенности HTR допускают более низкий уровень точности, особенно если
учесть, что методы выделения ключевых слов дают точные результаты даже при CER 30 %
[Muehlberger et al., 2019, p. 963; Tomoiaga et al., 2019; Stokes et al., 2021; Ströbel et al., 2022].
Следовательно, для получения лучших результатов HTR изначально было принято решение - в
качестве гипотезы - о максимальном пороге CER в 20% для того, чтобы модель считалась
достаточно точной (т. е. служила в качестве данных для кластеризации текста).13 При этом следует
отметить, что этот порог должен быть установлен на твердых основаниях, поэтому текущие
эксперименты автора с результатами HTR (пока неопубликованные) адаптируют другую
методологию для точной проверки границ такой метрики. Тесты включают нормализацию текста,
произведенную HTR, путем устранения ударений, тормозных линий (т. е. в словах с дефисами) и
даже загрязнения данных (т. е. комбинирование данных HTR и ручной транскрипции для
уменьшения/увеличения процента CER). Несмотря на важность оценки [Sánchez et al., 2019, p. 124;
Kang et al., 2022], использование WER (Word Error Rate)
13 Конечно,
такой процент ошибок не является идеальной целью для производительности HTR. Тем не менее, это экономически
эффективный выбор, позволяющий сбалансировать низкий объем входных данных и высокую точность выходных данных.
5
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org
вместо CER был исключен из-за ошибок, описанных в предыдущем разделе (т.е., несмотря на то,
что это один ошибочный символ, неверно распознанный акцент может привести к WER, но такие
неточности кажутся несущественными, поскольку их можно нормализовать). Наконец, предыдущие
исследования показали, что, хотя алгоритмы машинного обучения ИИ требуют большого
количества данных для своей эффективности, существует определенный предел объема набора
данных или количества эпох обучения, чтобы избежать перегрузки [Rabus, 2019; Ströbel, Clematide
and Volk, 2020; Perdiki and Konstantinidou, 2021].
Рисунок 2. Пример ошибочного распознавания ударения. Изображенный текст должен быть транскрибирован как πολὺς ὁ
γογγυσμός. Предсказание HTR см. на рис. 1, строка 3. Рукопись: NLG Athens 263, f. 158v.
Рисунок 3. Пример (HTR-трудной) висячей линии, распознанной при автоматической сегментации Transkribus. HTR
правильно распознает зависимые следы линии, но, ожидая базовую линию, переворачивает страницу вверх ногами.
6
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org
IV
РЕЗУЛЬТАТЫ
Исходя из этих трех критериев, эксперименты проводились по четырем основным методикам и в
основном при одинаковых конфигурациях систем (см. табл. 1). Все четыре метода не имели
одинаковой цели. Цель первого метода заключалась в определении минимального количества
необходимых обучающих данных (с гипотезой о пороге CER в 20%). Второй метод ставил своей
целью как валидацию модели HTR на невидимых данных, так и проверку возможности выявления
схожести скриптов. С другой стороны, для достижения лучшей производительности при меньшем
количестве данных, основной задачей третьего метода было загрязнение обучающих данных. Кроме
того, на четвертом этапе эксперимента, направленном на достижение оптимальной
производительности, при сравнении двух методов обучения HTR (HTR+ и PyLaia),
предоставленных компанией "Транскрибус", для обучения модели HTR с помощью PyLaia
использовался другой обучающий набор тех же рукописей.
В частности, первый метод заключался в обучении модели HTR с постепенным сокращением
набора данных для определения минимального количества данных, необходимых для получения
пригодных для использования результатов. Как показано на рисунке 4, было обучено 24 модели (с
помощью метода CITlab HTR+) из 8 различных рукописей (по три модели на рукопись),14 с
уменьшающимся количеством слов: транскрипция на входе ~3 000,
~2 000 и ~1 000 слов из 1-й гомилии Иоанна Златоуста, с минимальным количеством 50 эпох в
каждом обучающем наборе. 10% входных данных было зарезервировано в каждом обучающем
наборе в качестве валидационных данных. Большинство моделей показали результаты ниже порога
в 20% CER, даже при низком входном тесте на 1000 слов. Несколько исключений плохих
результатов распознавания совпали с некачественными оцифровками рукописей. Обычно
переломный момент в обучении модели наступал примерно через 5-10 эпох.
Эпохи15
(слова)
Набор для
проверки
Ранняя
остановка16
3,000
2,000
1,000
2,000
9,000
3,000
10%
10%
10%
10%
10%
10%
50
50
50
50
50
50
3,000
25,621
25,621
10%
10%
10%
250
50
250
Учебный набор
Одиночные модели I
Смешанные модели
Общая модель I
Одиночные модели
II
Общая модель II
Система
обучения
Н/Д
Н/Д
Н/Д
Н/Д
Н/Д
20
Базова
я
модел
ь
Нет
Нет
Нет
Нет
Да
Нет
20
20
20
Нет
Да
Да
PyLaia
PyLaia
PyLaia
HTR+
HTR+
HTR+
HTR+
HTR+
PyLaia
Таблица 1. Конфигурации системы для всех экспериментов
14 Две
рукописи из набора данных, E и W, были исключены из этого тестирования из-за недостаточного количества слов.
В большинстве случаев количество эпох было установлено на уровне 50. Этот фиксированный выбор был попыткой
стандартизировать конфигурации, чтобы выяснить, какие факторы влияют на производительность HTR, т. е. количество
обучающих данных, количество эпох, качество данных изображения или другие.
16 Техника ранней остановки не применима в методе HTR+ (система, выбранная для большинства экспериментов). PyLaia,
напротив, предоставляет такую возможность, поэтому ранняя остановка была установлена на предопределенное число 20.
Поскольку компания Transkribus объявила, что HTR+ не будет поддерживаться до ноября 2022 года, было решено
использовать обе системы в качестве формы сравнения производительности систем. См. https://readcoop.eu/glossary/htr-plus/
(Accessed: 24 February 2023).
15
7
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org
Рисунок 4. Результаты CER при уменьшении количества обучающих данных (количество слов сгенерированных вручную
обучающих данных), как в [Perdiki and Konstantinidou, 2021].
Для того чтобы проверить сходство шрифтов при распознавании текста и еще больше ограничить
ручной ввод данных, было проведено циклическое применение каждой обученной модели к 10
рукописям (некоторые из них были палеографически схожи по стилю). Экспериментальная гипотеза
этого метода заключалась в том, сможет ли уже обученная модель точно распознать текст другой,
но схожей по стилю рукописи. В случае успеха этот процесс мог бы также служить методом
кластеризации рукописей. Однако, как видно на рисунке 5, полученные в результате 90
распознаваний текста были в основном неточными. Только 9 из 90 комбинаций восстановили текст
с CER ниже 20 %, несмотря на использование обучающих наборов из 3 000 слов. До получения
результатов не было уверенности в том, что данные комбинации рукописей отражают оптимальную
производительность моделей. В связи с этим представляется необходимым использовать алгоритмы
кластеризации, которые предсказывали бы сходство сценариев (см. [Stutzmann, 2016]).
Рисунок 5. Циклическое применение каждой модели ко всем рукописям, как в [Perdiki and Konstantinidou, 2021]. Сочетание
одинаковых букв (например, Q & Q) отражает эффективность модели на обучающей рукописи.
8
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org
Третий метод эксперимента с HTR расширил гипотезу второго метода. Если смешивать обучающие
данные из более чем одной рукописи в процессе расширения корпуса, то набор данных будет
увеличиваться, не требуя дополнительного ручного ввода. Таким образом, была выдвинута гипотеза
о том, приведет ли это к созданию смешанных моделей высокой точности. Кроме того, объединение
всех транскрипций в единый обучающий набор позволило бы проверить возможность построения
оптимальной модели, способной точно транскрибировать любую из наших греческих рукописей.
Девять лучших совпадений, полученных в ходе экспериментов по второму методу, послужили
данными для комбинаций манускриптов. Набор данных был сформирован из случайно выбранных
страниц каждой рукописи. Эти комбинированные данные состояли из ~2 000 слов входной
транскрипции для каждой комбинации. Каждая модель была обучена на 50 эпохах с помощью
метода CITlab HTR+. Валидационный набор был сформирован из случайных 10 % обучающих
данных. После этого обученные смешанные модели были применены к каждой из рукописей
обучающего набора, как показано на рисунке 6 (т. е. модель Q&L была обучена на объединенных
данных рукописей Q и L, а затем применена к каждой из них для распознавания текста). Эти модели
работали с точностью 80 % в пределах пороговых значений, с точкой перелома около 5-10 эпох.17
Наконец, модель на 9 000 слов из всех 10 объединенных рукописей, обученная на 50 эпохах по
методу CITlab HTR+, проверенная на случайных 10 % данных и примененная к каждой отдельной
рукописи, дала наивысшую производительность CER (до 4,48 %, см. рис. 6).
Рисунок 6. CER моделей со смешанными обучающими наборами, как в [Perdiki and Konstantinidou, 2021].
Неудовлетворительная работа модели Q & L при применении к рукописи L еще не получила полного объяснения. стиля
написания, единственным различием между двумя рукописями было то, что набор данных Q представлял собой цветную
оцифровку, а L - оцифровку микрофильмов в сером масштабе. Впрочем, так же обстояло дело и с рукописью K, однако
соответствующие CER вернулись в количестве менее 20 %. С другой стороны, плохая оценка E, вероятно, объясняется
недостаточным количеством данных и низким качеством изображения; в этой конкретной рукописи был недостающий
лист, что сильно повлияло на результаты HTR (из-за недостающих словесных лексем). Ее включение в набор данных было
преднамеренным, чтобы проверить степень влияния таких повреждений рукописи на нашу методологию.
17
9
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org
Четвертая и последняя методика экспериментов с HTR на платформе Transkribus была использована
в качестве валидации. С тем же набором данных из 11 рукописей, о которых говорилось выше, и по
той же методологии, наиболее успешный из вышеупомянутых экспериментов (первый и третий
метод) был проведен на другом обучающем наборе (транскрипция 5th гомилии Иоанна Златоуста) в
два этапа тестирования. Сначала обучающий набор состоял из ~3 000 слов, а метод HTR был
изменен на PyLaia с 250 эпохами. В качестве валидационного набора использовалась случайная 10процентная часть обучающих данных. Полученный CER оказался ниже 10 % (точка разрыва на 2030 эпохах), но выше по сравнению с предыдущими экспериментами с методом HTR+ и 50 эпохами
обучения. Помимо того, что метод CITlab HTR+ лучше, оказывается, что при недостаточном
количестве данных большее число эпох дает худшие результаты, как уже было показано Рабусом
[Rabus, 2019]. Во-вторых, была предпринята еще одна попытка построить общую модель, поскольку
все рукописи характеризуются определенным (воспринимаемым) единообразием и четкостью
шрифта (ни одна из рукописей не изобиловала лигатурами, сокращениями или поврежденными
участками), но при этом уникальны по стилю написания. Объединив транскрипции 5th гомилии (из 9
из 11 рукописей), мы обучили общую модель на 25 621 слове. В результате такого обучения CER
составил 4,60 %. В попытке еще больше расширить данные экспериментов, более точно настроить
общую модель и улучшить, таким образом, результаты распознавания, модель с наилучшими
показателями18 - на этапе 1 экспериментов четвертого метода - была добавлена в процесс обучения в
качестве базовой модели. Итоговый CER в последнем эксперименте составил 3,90 % на
валидационном множестве (при разрыве диапазона 3-10 эпох), что минимальным CER из всех
проведенных экспериментов (см. табл. 2).
Учебные данные
Название модели
50 эпох CER (HTR+)
250 эпох CER (PyLaia)
Вопрос: Афон, Дионисиу 70
H: Афон, Ватопеди 328
A: Афины, Nat. Библиотека. 263
I: Alexandria, Patr. Libr. 34
Д: Венеция, ONB theol. gr.14
E: Paris, Bibl. Nat., Gr. 745
К: Мюнхен, Гр. 377
L: Munich, Gr. 353
Общая модель (без базовой модели)
Общая модель (с базовой моделью)
Q-300019
H-3000
A-3000
I-3000
D-3000
E-3000
K-3000
L-3000
GM
GMbm
11.62%
10.03%
10.03%
13.00%
(n/a)20
(n/a)
8.93%
8.12%
17.18%
(n/a)21
14.41%
13.70%
12.20%
14.60%
14.20%
14.90%
12.30%
13.00%
4.60%
3.90%
Таблица 2. CER моделей с 50 и 250 эпохами.
Развивая последние два эксперимента (последняя часть метода 3 и метод 4), важно подчеркнуть
значимость общих моделей. Вышеупомянутые эксперименты показали, что даже при минимальном
наборе данных можно легко дать начальный импульс для обучения более крупной и точной модели
HTR. Пороговое значение CER в 20% еще должно быть доказано как достаточное количество
ошибок, производимых HTR. Однако если этого не произойдет, то общие модели (несмотря на их
ограничения) станут эффективной техникой для быстрого и чистого извлечения текста, независимо
от стиля написания.
18 В
процентном соотношении CER - т.е. лучшей считается модель с наименьшим CER в тех же текстовых данных, но в другой
рукописи (что означает другой стиль написания).
19 Метка "3000" указывает на количество слов, введенных в обучающий набор данных.
20 Рукописи D и E были исключены из тренировки на 50 эпох из-за недостаточного количества данных для тренировки.
21 При обучении общей модели методом HTR+ базовая модель не использовалась.
10
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org
4.1
Ограничения
Целью проведенных экспериментов было определение минимального количества данных,
необходимых для получения точной транскрипции и пригодных для кластеризации текста.
Иерархическая кластеризация не должна представлять собой подробную свертку, так как
стемматологический анализ выходит
рамки данного исследования. В настоящее время
эксперименты, проведенные автором с использованием методов интеллектуального анализа данных,
показывают многообещающие предварительные результаты для решения этой задачи. Однако
оценка качества данных22 для кластеризации текста нуждается в дальнейшей доработке за счет
устранения текстового шума. Чаще всего ошибочные результаты HTR включают в себя
принудительно загипсованные слова в тормозных строках (хотя и без символа дефиса), ложные
ударения (которые не приводят к семантическому сдвигу) или конкатенацию лексем из-за scripta
continua. Такие экземпляры необходимо автоматически нормализовать,23 прежде чем приступать к
алгоритмам кластеризации.
Как отмечалось ранее в данной работе, метрики, использованные в наших экспериментах,
нуждаются в дальнейшей корректировке. Хотя порог CER в 20 % еще не доказан для обеспечения
успешной кластеризации текста в автоматических транскрипциях, бенчмаркинговые эксперименты
могут уточнить требуемую точность. Кроме того, неравномерное распределение ошибок на каждой
странице, вероятно, влияет на ошибочные результаты HTR, что также следует учесть в будущем
тестировании. Кроме того, малое количество входных данных означает недостаточное количество
данных на валидационном множестве. Эти эксперименты дают неожиданные на первый взгляд
результаты. Другими словами, поскольку наш представляет собой предельное тестирование,
традиционные метрики не всегда могут быть применены. Мы стремимся найти более подходящие
методы оценки по мере продолжения наших экспериментов.
Упомянутый выше двойной подход к ранней остановке (ни одной для HTR+ и 20 для метода PyLaia)
может оказаться ограничением для наших результатов. Как уже объяснялось, обе системы
использовались для корректного сравнения производительности. Тем не менее, поскольку ранняя
остановка недоступна для обучения HTR+, возможно, разумным выбором было бы свести к нулю
раннюю остановку PyLaia. Конфигурации системы нуждаются в дальнейшей доработке.
V
ЗАКЛЮЧЕНИЕ
Вычислительные процессы могут оказать значительную помощь филологическим исследованиям
при работе с большим объемом данных. Трудоемкие и кропотливые задачи, часто приводящие к
ошибкам из-за своей сложности, дают плодотворные результаты при использовании специальных
алгоритмов. В данной работе представлены методики использования специфического инструмента
HTR для улучшения исследований рукописной традиции.
Платформа Transkribus показала высокую эффективность при обучении моделей HTR и
распознавании текста из оцифрованных рукописей. Даже при минимальном количестве обучающих
данных точность созданных моделей была высокой (см. первый эксперимент). При дальнейшем
тестировании и доработке разработка общих моделей, способных транскрибировать значительную
часть греческих рукописей, более чем возможна. Два основных вывода из предыдущих
экспериментов: a) модели HTR хуже работают на невидимых данных, поэтому включение
обучающих данных более чем одного стиля письма имеет решающее значение (см. второй и третий
эксперименты); и b) можно создавать успешные модели HTR с низким процентом CER, просто
объединяя небольшие наборы данных с большим количеством экземпляров почерка (см.
Метод, предложенный Тибо Клерисом [Clérice, 2022a], предлагает использовать языковые модели на предложениях
вместо n-грамм для оценки качества коэффициента ошибок символов (CER) в системах классификации на уровне строк.
Хотя этот метод был использован для моделей, обученных в Kraken (система OCR), он многообещающе подходит для
эффективной обработки больших наборов данных HTR, особенно для ранее не виденных текстовых материалов.
23 Что касается автоматического исправления ошибок, вызванных HTR, см. работу [Pavlopoulos et al., 2023].
22
11
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org
эксперименты три и четыре). Массовая транскрипция исторических документов может пополнить
исследования столь необходимыми данными. В ходе текущих авторских экспериментов проверяется
возможность
алгоритмической
иерархической
кластеризации
с
помощью
методов
интеллектуального анализа данных даже при некоторой неточности результатов HTR.
Действительно, машинное обучение выигрывает от обилия данных, но иногда данные могут быть
расширены - а не созданы с нуля - и поэтому обучение может дать функционирующие результаты. В
соответствии вопросами исследования, люди могут оценивать процесс и настраивать алгоритмы на
высокую производительность. Передав утомительные и склонные к ошибкам задачи
вычислительной мощности и точности, исследователи смогут сосредоточиться на более
аналитических задачах и вести дело вперед.
Наборы данных и модели
Пердики, Е. (2023). Список рукописей, содержащих гомилии Иоанна Златоуста, и соответствующие ручные
транскрипции (1.2) [Набор данных]. Zenodo. https://doi.org/10.5281/zenodo.8102662
Пердики, Э. (готовится к публикации). Модель HTR 'Chrysostomicus I' (ID 44872). Транскрибус.
Ссылки
Augustin, P., Binggeli, A. and Cassin, M. La base de données Pinakes: textes et manuscrits grecs. Scriptorium, 2009;63(1):148-149.
Клерис, Т. Неискаженная оценка HTR на старофранцузских и латинских средневековых литературных рукописях. Труды
конференции Computational Humanities Research Conference 2022, под редакцией Фольгерта Карсдорпа, Алие Ласше и
Кристоффера Нильбо, 2022a;3290:1-24. Материалы семинара CEUR. Антверпен, Бельгия: CEUR. https://ceur-ws.org/Vol3290/#long_paper2081.
Клерис, Т. You Actually Look Twice At it (YALTAi): использование подхода к обнаружению объектов вместо сегментации регионов
в движке Kraken. arXiv, 2022b. Доступно по адресу: https://doi.org/10.48550/arXiv.2207.11230.
Фирмани, Д., Майорино, М., Мериалдо, П., и Ниедду, Е., На пути к открытию знаний из секретных архивов Ватикана. In Codice
Ratio -- Episode 1: Machine Transcription of the Manuscripts. Proceedings of the 24th ACM SIGKDD International Conference on
Knowledge Discovery & Data Mining, 2018:263-272. Available at: https://doi.org/10.1145/3219819.3219879.
Холли, Р., Насколько хорошо это может быть? Анализ и повышение точности OCR в крупномасштабных программах оцифровки
исторических газет. Журнал D-Lib, 2009;15(3/4).
Ingle, R. R., Fujii, Y., Deselaers, T., Baccash, J., & Popat, A. C., A Scalable Handwritten Text Recognition System. 2019 Международная
конференция
по
анализу
и
распознаванию
документов
(ICDAR),
2019:17-24.
Available
at:
https://doi.org/10.1109/ICDAR.2019.00013.
Kahle, P., Colutto, S., Hackl, G., & Mühlberger, G., Transkribus - сервисная платформа для расшифровки, распознавания и поиска
исторических документов. 2017 14-я Международная конференция IAPR по анализу и распознаванию документов (ICDAR),
Киото: IEEE, 2017:19-24. Available at: https://doi.org/10.1109/ICDAR.2017.307.
Канг, Л., Риба, П., Русиньол, М., Форнес, А., и Вильегас, М., Обращайте внимание на то, что вы читаете: Нерекуррентное
распознавание
рукописного
текста
и
строк.
Pattern
Recognition,
2022;129:108766.
Доступно
на:
https://doi.org/10.1016/j.patcog.2022.108766.
Кисслинг, Б., Kraken - универсальный распознаватель текстов для гуманитарных наук. In ADHO, Éd., Actes de Digital Humanities
Conference, 2019.
Кисслинг, Б., Тиссот, Р., Стокс, П., и Эзра, Д. С. Б., eScriptorium: Платформа с открытым исходным кодом для анализа
исторических документов. 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW), 2019:19-19.
Available at: https://doi.org/10.1109/ICDARW.2019.10032.
Konstantinidou, M. The Double Tradition of John Chrysostom's Exegetical Works: Revisions Revisited. M. Vinzent, G. Bady, and C. BrocSchmezer (eds) Studia Patristica. Том CXIV - Доклады, представленные на Восемнадцатой международной конференции по
патристическим исследованиям, состоявшейся в Оксфорде в 2019 году. Peeters Publishers (Volume 11: John Chrysostom through
Manuscripts, Editions and History), 2021:5-26. Available at: https://doi.org/10.2307/j.ctv27vt5gb.4.
Маке, К. и Барет, П.В. Почему работают филогенетические методы: теория эволюции и текстовая критика. Linguistica
computazionale [Preprint], 2004:(24/25). Доступно на сайте: https://doi.org/10.1400/54380.
Мюльбергер, Г., Сивард, Л., Террас, М., Оливейра, С. А., Бош, В., Брайан, М., ... и Загорис, К., Преобразование стипендий в архивах
с помощью распознавания рукописного текста: Transkribus как тематическое исследование. Journal of Documentation,
2019;75(5):954-976. Available at: https://doi.org/10.1108/JD-07-2018-0114.
Панг, Б., Нейкамп, Э. и Ву, Ю.Н. Глубокое обучение с помощью TensorFlow: обзор. Journal of Educational and Behavioral Statistics,
2020;45(2):227-248. Доступно на сайте: https://doi.org/10.3102/1076998619872761.
12
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org
Патель, К., Патель, А. и Патель, Д. Оптическое распознавание символов с помощью инструмента OCR с открытым исходным кодом
Tesseract: тематическое исследование.
Международный журнал компьютерных приложений, 2012;55(10):50-56. Available at: https://doi.org/10.5120/8794-2784.
Павлопулос, Я., Коугия, В., Платану, П., Шабалин, С., Лиагку, К., Пападатос Э., Эсслер Х., Кампс Дж.Б., Фишер, Ф., Исправление
ошибок византийского текста HTR'ed, 15 мая 2023 г., ПРЕПРИНТ (Версия 1) доступен на сайте Research Square:
https://doi.org/10.21203/rs.3.rs-2921088/v1.
Пердики, Э. и Константиниду, М. Обработка больших рукописных данных. Classics@. Edited by C. Clivaz and V.A. Garrick,
2021;18(Ancient Manuscripts and Virtual Research Environments, special issue). Доступно по адресу: https://classicsat.chs.harvard.edu/classics18-perdiki-and-konstantinidou/ (Accessed: 21 January 2022).
Рабус, А. Распознавание рукописного текста в славянских рукописях: Нейросетевой подход с использованием Transkribus. Scripta &
e- Scripta, 2019;19:9-32.
Sánchez, J. A., Romero, V., Toselli, A. H., Villegas, M., & Vidal, E. Набор эталонов для распознавания рукописного текста на
исторических документах. Pattern Recognition, 2019;94:122-134. Available at: https://doi.org/10.1016/j.patcog.2019.05.025.
Шоен, Дж. и Саретто, Г.Э. Оптическое распознавание символов (OCR) и средневековые рукописи: Переосмысление транскрипции
в цифровую эпоху. Цифровая филология: A Journal of Medieval Cultures, 2022;11(1):174-206. Доступно на сайте:
https://doi.org/10.1353/dph.2022.0010.
Смит, Р. Обзор движка Tesseract OCR Engine. Девятая международная конференция по анализу и распознаванию документов
(ICDAR 2007), 2007:629-633. Доступно по адресу: https://doi.org/10.1109/ICDAR.2007.4376991.
Спенсер, М., Дэвидсон, Э. А., Барбрук, А. К., и Хоу, К. Дж., Филогенетика искусственных рукописей. Журнал теоретической
биологии, 2004;227(4):503-511. Доступно на сайте: https://doi.org/10.1016/j.jtbi.2003.11.022.
Стоукс, П. А., Кислинг, Б., Эзра, Д. С. Б., и Тиссо, Р., ВРЭ eScriptorium для рукописных культур. Classics@. Edited by C. Clivaz and
V.A. Garrick, 2021;18(Ancient Manuscripts and Virtual Research Environments, special issue). Available at: https://classicsat.chs.harvard.edu/classics18-stokes-kiessling-stokl-ben-ezra-tissot-gargem/ (Accessed: 16 February 2023).
Штрёбель, П. и Клематиде, С. Улучшение OCR черных букв в исторических газетах: Неоправданная эффективность моделей
HTR на изображениях низкого разрешения. Digital Humanities 2019 [Preprint], 2019. Доступно по адресу:
https://doi.org/10.5167/UZH-177164.
Штрёбель, П. Б., Клематиде, С., Фольк, М., Швиттер, Р., Ходель, Т., и Шох, Д., Оценка моделей HTR без материала Ground Truth.
Материалы Тринадцатой конференции по языковым ресурсам и оценке. LREC 2022, Марсель, Франция: European Language
Resources Association, 2022:4395-4404. Доступно по адресу: https://aclanthology.org/2022.lrec-.
1.467 (Accessed: 17 January 2023).
Штрёбель, П.Б., Клематиде, С. и Фольк, М. Сколько данных вам нужно? О создании базовой истины для Black Letter и
эффективности нейронного OCR. Материалы 12-й конференции по языковым ресурсам и оценке. LREC 2020, Марсель,
Франция: European Language Resources Association, 2020:3551-3559. Available at: https://www.aclweb.org/anthology/2020.lrec1.436 (Accessed: 14 October 2020).
Штутцманн, Д., Кластеризация средневековых шрифтов с помощью компьютерного анализа изображений: Towards an evaluation
protocol. Digital Medievalist, 2016;10. DOI: http://doi.org/10.16995/dm.61
Tomoiaga, C., Feng, P., Salzmann, M., & Jayet, P., Field typing for improved recognition on heterogeneous handwritten forms. arXiv, 2019.
Доступно на: http://arxiv.org/abs/1909.10120 (Accessed: 27 October 2022).
Цохатзидис, Л., Симеонидис, С., Папазоглоу, А. и Пратикакис, И., HTR для греческих исторических рукописных документов.
Journal of Imaging, 2021;7(12):260. Available at: https://doi.org/10.3390/jimaging7120260.
Уайт, Н. Обучение Tesseract для древнегреческого OCR. Εὔτυπον, 2012;28-29:1-11.
13
Журнал "Добыча данных и цифровые
гуманитарные науки
ISSN 2416-5999, журнал с открытым доступом
http://jdmdh.episciences.org