Текст
                    Подпишитесь на DeepL Pro и переводите документы большего объема.
Подробнее на www.DeepL.com/pro.

DHQ: Digital Humanities Quarterly
2019
Том 13 Номер 1

Моделирование средневековых рук: Практическое OCR для Каролины Минускул
Брэндон В. Хоук <bhawk_at_ric_dot_edu>, Колледж Род-Айленда Антония Караисл
<antonia_at_rescribe_dot_xyz>, Rescribe Ltd
Ник Уайт <nick_at_rescribe_dot_xyz>, Rescribe Ltd.

Аннотация
За последние несколько десятилетий постоянно расширяющийся цифровой мир, включая цифровые
гуманитарные науки, все больше полагается на результаты работы программ оптического распознавания
символов (OCR). Но, к сожалению, медиевисты не добились такого успеха в использовании программ OCR
на рукописных манускриптах, как ученые, использующие в качестве источников печатные книги. Хотя в
последние годы появились некоторые проекты, направленные на исправление этой ситуации,
использование программного обеспечения для создания машиночитаемых результатов на основе
средневековых рукописей все еще находится в зачаточном состоянии. В этой статье представлены
результаты серии успешных экспериментов с открытым исходным кодом нейросетевого программного
обеспечения OCR на средневековых манускриптах. В ходе экспериментов точность распознавания
символов и слов превысила 90 %, а в некоторых случаях достигла 94 % и 97 %. Такие результаты не только
пригодны для создания машиночитаемых текстов, но и открывают новые возможности для объединения
исследований рукописей и цифровых гуманитарных наук в нереализованных ранее формах. Более
тщательное изучение экспериментов показывает регулярные закономерности среди результатов OCR,
которые потенциально могут позволить использовать их не только для распознавания чистого текста, но и
для палеографической классификации типов шрифтов.

Введение
В век цифровых носителей большая часть контента, к которому мы обращаемся, является результатом оптического распознавания

1

символов (OCR) - преобразования рукописного, печатного или набранного текста в машиночитаемую форму. В более конкретном
масштабе OCR все чаще становится частью научных исследований в гуманитарных науках. Например, он является
основополагающим для Google Books, Internet Archive и HathiTrust, создания корпусов для крупномасштабного анализа текстов и
различных аспектов цифровых гуманитарных наук. Как показал ряд недавних исследований и проектов, результаты OCR открывают
широкие возможности для доступа к текстам и их анализа новыми способами.[1]
OCR изменил диапазон и объем гуманитарных исследований таким образом, который был невозможен до появления компьютеров.

2

Как заявила группа ученых под руководством Марка Алджи-Хьюитта из Стэнфордской литературной лаборатории, "из всех новшеств,
появившихся благодаря оцифровке в изучении литературы, размер архива, вероятно, является самым драматичным: ...теперь мы
можем анализировать тысячи [текстов], десятки тысяч, завтра сотни тысяч" [Algee-Hewitt et al. 2016, 1] (ср. [Moretti 2017]). Помимо
литературоведения, новые возможности, связанные с массовой оцифровкой архивов, появились во всех гуманитарных науках.
Историки книг, текстов и изобразительного искусства (и это лишь некоторые области) теперь имеют свободный доступ к гораздо
большему количеству материалов из архивов, чем предыдущие поколения. Среди новых занятий ученых-гуманитариев компьютерные исследования, которые теперь не ограничиваются несколькими текстами, а охватывают масштабные корпорации, то
есть коллекции из сотен или тысяч текстов.[2] Многое из этого стало возможным благодаря OCR.
Однако большинство исследований и приложений OCR на сегодняшний день касаются печатных книг (см., например, [Rydberg-Cox
2009]; [Strange et al. 2014]; и [Alpert-Abrams 2016]). Большинство проектов по текстовому майнингу в гуманитарных науках
сосредоточены на XVIII и печатных текстах XIX веков. [3] Одним из способов еще больше расширить возможности гуманитарных
исследований является применение инструментов OCR для извлечения данных из средневековых рукописей, но этой области
исследований уделяется гораздо меньше внимания.[4] Действительно, современная ситуация с использованием OCR в средневековых
рукописях не сильно отличается от 1978 года, когда Джон Дж. Нитти

3


утверждал, что "ни одно устройство OCR (Optical Character Recognition), способное читать и расшифровывать готический шрифт XIII века, так и не появилось" [Nitti 1978, 46]. Сейчас, как и тогда, прогресс в использовании OCR для расшифровки готического или любого другого средневекового письма, независимо от типа, даты или происхождения, невелик. В этой статье представлены результаты серии экспериментов с открытым исходным кодом нейросетевого программного обеспечения OCR на 88 средневековых рукописях IX-XIII вв. [5] 4 В ходе этих экспериментов мы рассматривали в основном рукописи, написанные каролинским минускулом, а также несколько тестовых случаев к концу нашего диапазона дат, написанных шрифтами, которые можно назвать "позднекаролинским" и "раннеготическим" (в совокупности они называются "переходными").[6] Далее мы обсудим возможности и проблемы использования OCR в средневековых рукописях, технологию нейронных сетей и ее использование в программном обеспечении OCR, процесс и результаты наших экспериментов, а также то, как эти результаты обеспечивают основу для будущих исследований. Наши результаты показывают, что они могут внести вклад не только в распознавание текста как таковое, но и в другие области библиографии, такие как палеографический анализ. При всем этом мы хотим подчеркнуть важность использования программного обеспечения с открытым исходным кодом и обмена данными для децентрализованного, крупномасштабного распознавания рукописей, чтобы открыть новые совместные пути для инноваций в цифровых гуманитарных науках и медиевистике. Средневековые рукописи и OCR Область средневековых исследований, конечно же, опирается на транскрипцию и редактирование текстов для анализа. Работа с OCR 5 над средневековыми рукописями потенциально полезна, учитывая, как много средневековых текстов остается непереписанными или неотредактированными. Во многих случаях это связано с громоздкостью редакторских проектов, связанных с сотнями свидетелей. В других случаях тексты остаются неизвестными, потому что их не замечают или игнорируют в тени более канонических произведений. Хотя оцифровка значительно увеличила размер архива для гуманитарных наук, медиевистике еще поработать, прежде чем этот архив можно будет использовать для изучения малоизученных текстов или масштабного анализа. В этом отношении мы видим потенциал использования программного обеспечения OCR с открытым исходным кодом для 6 средневековых исследований в различных направлениях. Использование OCR может помочь в таких областях, как: скорость, эффективность и точность транскрипции и редактирования текстов; межрукописное сравнение текстов в различных аспектах; палеографический анализ; изучение передачи текстов; а также создание корпусов, возможность поиска и последующий макроанализ. Например, используя результаты OCR средневековых рукописей, мы могли бы сравнивать версии текстов для редакционных целей с помощью инструментов, как JuxtaCommons, или для поиска интертекстуальных параллелей в больших корпорациях с помощью таких инструментов, как Tesserae. Если говорить о других методологиях, то использование OCR для создания массовых корпусов позволит проводить анализ текстов с помощью таких инструментов, как Lexos, или других программ статистического анализа, например R (как в [Jockers 2014]). Использование OCR в средневековых рукописях также открывает новые возможности для исследований, связанных с писцовыми практиками, такими как шрифты и их варианты написания, неправильные интервалы, сокращения и ошибки - с учетом местных и общих соображений через диахронические и синхронические линзы. Конечно, при работе с OCR-программой на средневековых рукописях есть трудности, которые не относятся к печатным книгам. 7 Средневековые писцы не работали ни с Юникодом, ни даже с современными шрифтами. Среди причин, по которым OCR не получил широкого распространения в средневековых рукописях, несмотря на то, что это, очевидно, хорошая идея, можно назвать нестандартные особенности почерка, сокращения и идиосинкразию писцов; вариации в написании; нестандартные макеты страниц; порчу страниц - среди прочих проблем, которые могут возникнуть. Все эти факторы затрудняют традиционный OCR, основанный на технологии печати. Оценивая недавно область OCR для создания корпусов в средневековых исследованиях, Майкл Виднер пишет: "Средневековые рукописи практически не поддаются современному OCR" [Widner 2018, 132] (ср. [Hawk 2015]). Однако с появлением технологии искусственных нейронных сетей (ИНС) с открытым исходным кодом, а также с увеличением количества оцифрованных источников, находящихся в открытом доступе, OCR для средневековых рукописей становится все более возможным. Мы считаем, что использование программного обеспечения OCR - а не других инструментов для распознавания рукописного текста (HTR) - имеет существенный смысл из-за относительной регулярности средневековых рук и шрифтов в целом, которые в чем-то могут быть аналогичны печатным шрифтам в целом.[7] В последних работах эффективность OCR была поставлена под сомнение, и мы обратились к HTR в качестве предварительного способа анализа типов шрифтов еще до перехода к процессу распознавания (например, в [Kestemont et al. 2017]). Различия между OCR (давно известной технологией) и HTR (находящейся на ранней стадии разработки) тонкие, но существенные. Наибольшее различие заключается в анализе макета и сегментации для обработки: этот этап является 8
обычно встроен в механизм OCR, в то время как в HTR он является отдельным этапом. OCR, как правило, ориентирован на обработку отдельных буквенных форм или символов как изолированных частей целого текста или текстовых строк и чаще всего используется для печатных текстов. HTR обычно обрабатывает целые слова или строки и считается оптимальной технологией для рукописных текстов. Однако в последнее время технологии и процессы OCR и HTR в определенной степени сблизились. Основные системы OCR также 9 используются для работы с рукописными текстами. Действительно, в настоящее время существует определенное совпадение между OCR и HTR на практике благодаря развитию машинного обучения; например, такие движки, как OCRopus, позволяют применять новые методы анализа и сегментации (см. ниже, о движке OCRopus). Новые способы использования программного обеспечения OCR с технологией ANN выходят за рамки конкретного фокуса на символах. Технология ANN достигла того уровня, который делает это возможным по нескольким причинам, в большей степени, чем предыдущий тип технологии. Хотя технологии OCR и ANN существуют гораздо дольше, чем принято считать, сейчас мы располагаем большими вычислительными мощностями, чем когда-либо прежде. Похоже, время использовать эту технологию для решения задач, которые средневековые рукописи ставят перед OCR. Прежде всего, важно понимать, что наша цель не состоит в том, чтобы устранить аналитическую работу человека с помощью 10 компьютеров. Но использование инструментов OCR с открытым исходным кодом для рукописей может сократить время редактирования и повысить эффективность работы с большим количеством свидетелей. Как очевидно из других случаев использования OCR для анализа текстов, постобработка приводит к необходимости очистки "грязного OCR" с помощью того, что Дэвид Мимно назвал "плотницкой обработкой данных" [Mimno 2014]. Для печатных книг постобработка означает, как минимум, удаление лишних данных, таких как номера глав, дефисы, номера страниц, колонтитулы и аппараты, а также нежелательного "шума", создаваемого в процессе OCR (см. [Alpert-Abrams 2016]; и [Widner 2018, 132-4]). Рукописи могут включать многие из тех же элементов, также свои собственные идиосинкразии, такие как глоссы и маргиналии. Безусловно, человек является неотъемлемой частью всего этого процесса. Искусственные нейронные сети для OCR Технология искусственных нейронных сетей (ИНС), также известная как "глубокое обучение", "машинное обучение" или просто "ИИ", 11 существует на удивление давно. [8] Несмотря на то, что она признана мощным методом, способным решить широкий спектр проблем в области вычислений, ее применение было ограничено в течение многих лет, в основном из-за необходимости очень больших обучающих наборов и общих проблем со скоростью. Однако в последние годы их использование резко возросло, поскольку хранение данных и компьютерная обработка стали намного дешевле, а в некоторых отраслях массивные обучающие наборы с метками могут быть собраны автоматически, используя труд неосведомленных пользователей Интернета (см., например, [Taigman et al. 2014]; и [Google]). ИНС полезны в самых разных приложениях и особенно хороши в работе с нечеткостью и неопределенностью данных, выявляя закономерности в шумном мире. Основная идея ИНС заключается в том, что они используют алгоритмы для создания функции, которая может выполнять некоторые 12 действия, например, маркировать различные породы собак, с учетом большого обучающего набора, путем многократного совершенствования и тестирования различных версий модели. В процессе обучения сеть становится все более и более точной, пока не наступает момент, когда она достигает плато и больше не может совершенствоваться без увеличения количества входных данных или изменения начальной конфигурации ANN. Модель, создаваемая на каждом шаге, состоит из множества простых "да/нет" ворот, автоматически создаваемых алгоритмами обучения, которым присваиваются различные веса в ходе различных итераций процесса обучения, пока не будет найдена оптимальная конфигурация. Эти ворота можно сравнить с биологическими нейронами в мозге, откуда и пошло название "нейронная сеть". Существует множество типов ИНС, и каждый из них подходит для разных целей. Глубокие нейронные сети (ГНС) используют множество скрытых слоев, что приводит к значительно более сложному, но, как правило, более точному распознаванию. Рекуррентные нейронные сети (РНС) - это тип ДНС, в которых различные слои могут ссылаться друг на друга, что позволяет использовать некоторую контекстную "память" - то есть более поздние части распознавания могут ссылаться на более ранние части, и наоборот. Наконец, тип RNN, который нашел широкое применение в OCR и многих других приложениях, называется Long Short Term Memory (LSTM). Это продуманная конфигурация РНС, при которой контекстная память может сохраняться в течение длительного времени, когда она полезна, не искажая результаты распознавания в других случаях, что могло произойти с более ранними вариантами РНС. Сочетание долгой контекстной памяти и нейронной сети делает LSTM очень хорошо подходящей для таких задач, как OCR и распознавание речи, где контекст (более ранние и более поздние характеристики, такие как пиксели, звуки, символы, слова и т. д.) очень помогает в определении правильного результата. 13
Эти идеи трудно представить в абстрактном виде, поэтому полезно посмотреть, как они работают в случае OCR. Приведенное ниже 14 описание и сопровождающие его изображения должны помочь сделать процесс более понятным. Обучающий набор обычно состоит из множества изображений, каждое из которых содержит строку текста, с сопутствующими "метками", которые ANN должен каким-то образом научиться ассоциировать с частями каждого изображения, пока он не сможет делать это правильно даже для невидимых изображений. Это можно сделать разными способами, поэтому здесь мы рассмотрим, как работает механизм OCRopus с открытым исходным кодом, используя нейронную сеть LSTM. Сначала изображение страницы, используемое для обучения нейронных сетей, разбивается на строки, составляющие текст (см. рис. 15 1). Каждое изображение строки сопоставляется с текстовой транскрипцией в качестве метки - текстом в формате UTF-8, соответствующим тексту изображении, в транскрипции человека, чтобы научить компьютер распознавать текст. Все совпадающие пары изображений и текстовых строк, взятые вместе, составляют так называемую "базовую истину", которая используется для обучения модели OCR. На этом этапе создаются пары "изображение-текст" между сегментированным линейным изображением и транскрипцией (метками) для обучения системы. На следующем этапе обучения каждая линия изображения, являющаяся истиной, разбивается на вертикальные линии шириной 1 пиксель и по порядку поступает в LSTM-сеть (см. рис. 2). В данном случае "память" LSTM-сети относится к вертикальным линиям до и после рассматриваемой точки. Обучающий механизм LSTM перебирает линии одну за другой, создавая модель того, как каждая линия соотносится с окружающими ее линиями, при этом линии, расположенные дальше, обычно имеют меньший вес, чем те, что расположены ближе (но все равно способны влиять на ситуацию благодаря "длинной" памяти LSTM). Точная конфигурация и вес различных узлов LSTM-сети изменяется много раз в течение этого процесса, каждый раз сравнивая результат OCR с этой тестовой сетью на строках "истинного" изображения. После нескольких десятков тысяч итераций этот процесс постепенно находит конфигурацию, которая дает наилучшие результаты для всего массива исходных данных. 16
В отличие от , традиционные методы OCR основаны на правилах, определяемых разработчиками системы, которые задают 17 алгоритмы, как лучше разделить символы и сопоставить их с ранее встречавшимися. Хотя интуитивно мы могли бы ожидать, что люди-эксперты лучше справятся с разработкой методов распознавания символов, чем рекуррентные нейронные сети, на практике системы с рекуррентными нейронными сетями показывают гораздо лучшие результаты. Это хорошо известная особенность рекурсивных нейросетевых систем [Karpathy 2015]. Опять же, что, возможно, удивительно, нейронные сети особенно хорошо справляются с нечеткостью входных данных реального мира. Нет нужды говорить, что это работает в нашу пользу для OCR в целом и для OCR исторических документов в частности. Несмотря на то что многие средневековые манускрипты имеют относительно регулярный стиль и шрифт, в них неизбежно больше 18 вариаций, чем в печатных документах. В сочетании с большим количеством вариантов написания, неправильными интервалами, сокращениями и ошибками, используемыми в тот период, традиционные системы OCR не могут обеспечить достаточно высокую точность, чтобы быть особенно полезными. Возможности OCR на основе технологии LSTM меняют ситуацию благодаря значительно более высокому уровню точности в целом, возможности учитывать как можно больше контекста, а также способности лучше переносить вариации и другие виды "шума", возникающие в многовековых рукописных документах (см. [Alpert-Abrams 2016]). Из всех доступных в настоящее время программ для РНС наш выбор пал на OCRopus, программу с открытым исходным кодом, 19 предназначенную для обучения нейронных сетей для распознавания оптических символов. Для наших целей OCRopus обладает рядом преимуществ по сравнению с другими программами с открытым исходным кодом. Во-первых, он распространяется под лицензией Apache и может свободно использоваться любым человеком на оговоренных условиях. Во-вторых, OCRopus предоставляет легко модифицируемый набор команд, позволяющий пользователям адаптировать отдельные этапы OCR (такие как бинаризация, сегментация, обучение и распознавание) под свои конкретные задачи. OCRopus не является системой "под ключ" или программным обеспечением, готовым к использованию в готовом виде. Скорее, этот тип программного обеспечения требует от пользователей обучения их собственных моделей, что является ключевым вкладом в процесс; следовательно, требуется определенное техническое ноу-хау. Но, несмотря на это, его преимущество заключается в том, что если необходимо внести изменения в код или использовать сторонние программы для отдельных этапов, это можно просто и локально, без последствий для всего процесса.[9] В отличие от альтернативных программ OCR, таких как Tesseract или Oculus, нейронные сети OCRopus обучаются агностически - то есть исключительно на символах, а не на словах (см., например, [Baumann]; и [White 20
2012]). Хотя OCRopus предлагает наборы, подготовленные для конкретных языков, таких как английский, в нем нет корректирующего процесса, интерпретирующего строки символов с помощью словаря набора, как это может сделать программа OCR, ориентированная на конкретный язык. Хотя подобная функция может быть очень полезна при адаптации OCR для современных языков с фиксированной орфографией, такая свобода от орфографических правил оказывается удобной при работе со средневековыми рукописями на латыни, изобилующими вариантами написания, неравномерными интервалами, сокращениями и ошибками. Действительно, для наших целей это дает OCRopus преимущество перед другими программами OCR и делает его приемлемым выбором даже по сравнению с технологией HTR. Кроме того, документация, предоставленная для OCRopus как первоначальными разработчиками, так и пользователями, значительно 21 расширяет возможности процесса для дальнейшего применения. В качестве примера можно привести предыдущие эксперименты Уве Спрингманна и Анке Люделинг по использованию OCRopus с инкунаблями [Springmann and Lüdeling 2017]. Несмотря на то что неудобочитаемые тексты печатаются с большей регулярностью, чем ожидается от рукописей, инструкции и результаты экспериментов, которые Спрингманн и Люделинг, послужили для нас исходной базой для проведения экспериментов.[10] В механизме OCRopus с открытым исходным кодом используется достаточно стандартная архитектура LSTM. Как упоминалось выше, 22 он разбивает изображение страницы на линии, а затем передает результат в LSTM-движок для обучения или распознавания. Это контрастирует с большинством систем HTR, которые не могут полагаться на то, что линии прямые и в основном не пересекаются, и поэтому вынуждены использовать более сложную архитектуру. Однако для печатных текстов и более приятных рукописных шрифтов, таких как каролинский минускул, это, к счастью, не требуется, а значит, мы можем использовать более простую архитектуру, которая быстрее, меньше и точнее [Ul-Hasan and Breuel 2013]. Первоначальное разбиение на строки выполняется с помощью инструмента "ocropus-gpageseg"[11], который анализирует изображение страницы и выдает серию строк в формате PNG. Затем можно либо выполнить распознавание по этим строкам с помощью существующей модели, используя инструмент "ocropus-rpred", либо создать серию файлов "грубой правды", соответствующих строкам (с именем, например, "imgname.gt.txt"), и обучить новую нейросетевую модель с помощью инструмента "ocropus-rtrain". Процесс и результаты 1. Цель и теоретический подход Основной целью наших экспериментов с OCR-программой на основе нейросетевой технологии было создание работоспособного, в 23 идеале экономичного по времени, но достаточно точного решения для распознавания текста в средневековых рукописях с использованием программного обеспечения с открытым исходным кодом. На момент начала нашего исследования не было известно ни одной публично задокументированной работы, которая бы 24 продемонстрировала успешность применения OCR к средневековым рукописям. Поэтому наши первоначальные эксперименты были направлены на то, чтобы продемонстрировать, можно ли обучать нейронные сети на средневековых рукописях, используя исходные данные, созданные на основе целевых рукописей. Результаты экспериментов показали точность распознавания символов и слов более 90 %, в некоторых случаях достигая 94 % и 97 %. Оглядываясь назад, можно сказать, что эти результаты совпадают с отличными результатами, достигнутыми на оцифрованных рукописях из Королевской канцелярии в Париже в рамках проекта HIMANIS, запущенного в 2017 году, хотя и не с использованием программного обеспечения с открытым исходным кодом [Teklia 2017]. Мы также можем сравнить эти результаты с результатами проекта OCR библиотеки Даремского приорства, выполненного с помощью OCRopus [Rescribe]. Возможность разработки решения OCR с открытым исходным кодом на основе нейросетевой технологии для средневековых 25 рукописей можно считать доказанной. Более того, модель, обученная на основе "истины", полученной из конкретной рукописи, может дать высокие результаты точности при работе с этой рукописью. Мы видим это на примере нашего эксперимента с Arras, Bibliothèque municipale 764, для которого мы достигли шокирующей точности 97,06 % для OCR, основанного на "истинной" транскрипции из этой единственной рукописи. Для достижения основной цели - крупномасштабной совместной работы над рукописями - привлечение программного обеспечения с открытым исходным кодом было бы желательным, целесообразным и экономящим время подходом - в идеале путем разработки модели "под ключ". Вместо того чтобы сосредоточиться на вопросе о том, возможно ли OCR рукописей, мы попытались выяснить некоторые лучшие практики. Таким образом, гипотеза, которую мы проверяли в наших экспериментах, заключалась в том, что размер и разнообразие обучающего пула будут прямо пропорциональны качеству результирующей модели при тестировании на "увиденных" и "невиденных" рукописях в области каролинских минусов. "Виденные" в контексте данной статьи относятся к тестовым рукописям, включенным в обучающий пул 26
пул, хотя и разные страницы; "невидимые" - рукописи, не включенные в обучающий пул. Хотя результаты по просмотренным рукописям будут иметь значение для исследования, разработка стратегии построения готовой модели для непросмотренных рукописей определенного номинала является нашей конечной целью. Среди специфических типов применения нейронных сетей стратегический выбор обучающего материала, по-видимому, имеет значение там, где нет неограниченного количества данных, также в зависимости от типа материала. То есть, хотя пул обучающих данных, предположительно, никогда не может быть достаточно большим, остается вопрос о том, какое разнообразие действительно полезно. В контексте средневековых рукописей точность результатов редко бывает удовлетворительной, когда модель, обученная на одной 27 конкретной рукописи, применяется к невидимой тестовой рукописи. Это совпадает с результатами экспериментов Спрингмана и Люделинга с инкунабелями [Springmann and Lüdeling 2017]. Однако в ходе дальнейших экспериментов Шпрингманн и Люделинг попытались объединить исходную истину из разных инкунаблей, чтобы наблюдать за результатом. Эксперимент проводился на диахроническом корпусе текстов, охватывающем несколько столетий, и диапазон обучающих и тестирующих рукописей был значительно шире. Разработанные смешанные модели дали достоверно худшие результаты, чем чистые модели, в которых обучающий пул OCR содержал исходные данные только из целевого инкунабля. Можно ожидать, что эта проблема только усугубится в случае со средневековыми рукописями, где не только различный "шрифт", так сказать (шрифт), но и идиосинкразия писца (рука) отличает одну рукопись от другой. Однако, поскольку модели для одной рукописи плохо работают с другими рукописями, смешение исходных данных из разных рукописей будет единственным способом разработать готовую модель для невидимых манускриптов. Вопрос в том, оправдает ли себя компромисс между снижением точности для видимых рукописей и экономией времени при использовании готовой модели за счет достаточно хороших результатов для невидимых рукописей. С концептуальной точки зрения, ситуацию с OCR рукописей полезно сравнить с ситуацией с технологией распознавания речи. 28 Рукописные тексты намеренно похожи друг на друга в рамках категорий шрифта, но без определенного образца, к которому они все относятся; и наоборот, не существует идеально произносимой естественной речи, только ее разновидности (мужской-женский голос, старый-молодой, акцент-родной). Внутри совокупности звуков разговорной речи существуют границы, определяемые языками: в каждом из них определенные звуки (фонемы) последовательно соотносятся с определенными сочетаниями букв (графемами). Однако в разных языках с разными отношениями между фонемами и графемами это последовательное сопоставление может запутаться. Поэтому обучающие базы для алгоритмов распознавания речи, как правило, ограничиваются данными только одного языка. Если сравнивать со средневековыми рукописями, то не фонемы, а символы (включая аббревиатуры) напрямую соотносятся с буквами 29 или сочетаниями букв латинского алфавита - по крайней мере, в той степени, в какой эти соотношения постоянны в пределах каждой рукописи. Хотя средневековые рукописи могут быть написаны на разных языках, лингвистическая граница кажется менее значимой, чем типографская: на разных руках некоторые символы разных шрифтов, похожие друг на друга, соотносятся с разными буквами латинского алфавита. Например, вестготское a больше похоже на каролинское u, чем на ожидаемое нами a. Поэтому определение границ обучающего пула должно исключать случаи, когда два символа из разных средневековых рук похожи друг на друга, но соответствуют разным буквам (в то время как сопоставление одной латинской буквы с двумя разными по виду символами не обязательно представляет проблему). Следуя этой аналогии, мы ограничили пул обучения в основном одним типом шрифта. Учитывая его распространение в Западной 30 Европе, в различных географических регионах и временных периодах, каролинский минускул естественным образом предложил себя в качестве более легко читаемого и распространенного шрифта. В конечном итоге мы включили в анализ рукописи, которые выходили за рамки первоначальных моделей, основанных на каролинском минускуле. На втором этапе тестирования мы также включили рукописи, содержащие шрифты с признаками более позднего развития. Такие рукописи содержат "переходные" позднекаролинские и раннеготические шрифты (см. Приложение). Эти рукописи помогли несколько расширить наши эксперименты, чтобы получить дополнительные результаты о разнообразии нашего обучающего пула. Неявная цель заключалась в разработке модели, которая могла бы обеспечить точность распознавания символов не менее 90 % на непросматриваемых рукописях. По нашему опыту, для достижения хороших результатов важны определенные технические параметры: хорошее качество изображений с высоким разрешением; минимальная высота строки, даже если это значительно замедляет обработку OCRopus на этапах сегментации и распознавания; устранение искажений результатов от больших иллюстраций, сложных макетов и обесцвечивания. Качество как тестовых, так и обучающих рукописей может исказить интерпретацию: например, тестовая рукопись очень высокого качества может оказаться слишком благоприятной и исказить ожидания относительно среднего уровня. 31
результат. В рамках нашей общей концепции целью было установить тенденции, а не конкретные результаты. В рамках данного проекта расширение средневековых аббревиатур рассматривается как проблема постобработки и выносится за 32 рамки экспериментальных задач. Однако в будущем мы считаем, что LSTM-модели могут быть обучены правильному расширению неоднозначных аббревиатур. Общий эксперимент проходил в два этапа: тестирование моделей из обучающих пулов размером от 2 до 5 рукописей и пулов от 50 33 рукописей и выше. 2. Размер и разнообразие в небольших моделях В первом раунде экспериментов мы объединили отдельные страницы небольшого количества рукописей, написанных каролинским 34 минускулом, в обучающий пул и протестировали их на разных страницах из этих просмотренных рукописей. При этом модели строились на основе 2-5 разных рукописей. Этот шаг очень напоминал эксперименты со смешанными моделями, проведенные Шпрингманом и Люделингом на инкунаблях, и наши результаты совпали с их результатами [Springmann and Lüdeling 2017]. В то время мы предполагали, что разнообразие в обучающем пуле будет однозначно полезным во всех случаях. Однако при тестировании на целевых рукописях эти небольшие смешанные модели показали одинаково худшие результаты, чем чистые модели - то есть эти результаты прямо противоречили нашему предположению о том, что большее разнообразие в обучающем пуле всегда приводит к большей точности результатов. При более внимательном рассмотрении результатов по просмотренным и непросмотренным рукописям на первый план выходят 35 более тонкие тенденции. Прежде всего, мы столкнулись с явлением, которое мы назвали "относительным преобладанием": пропорционально большая или меньшая представленность рукописи или подгруппы рукописей в пуле обучения и последующее влияние на точность соответствующей тестовой рукописи или подгруппы. Например, при тестировании на просмотренных рукописях, т. е. рукописях, представленных в обучающем пуле, точность снижалась с увеличением разнообразия обучающего пула (рис. 3). Другими словами, чем меньше относительное преобладание увиденной рукописи в обучающем пуле, тем ниже точность результата. Исключением из этого правила стала модель , составленная из 100 строк Arras, Bibliothèque municipale 764 (ок. 800-1100 гг., Франция и Англия) и около 100 строк Wolfenbüttel, Herzog August Bibliothek, Weissenburg 48 (ок. 840-860 гг., Вайсенбург?). С коэффициентом ошибок 2,33 % при тестировании на непросмотренных страницах Arras 764 модель превзошла модель, построенную на основе 300 строк Arras 764 в сочетании со 100 строками Weissenburg 48 (коэффициент ошибок 3,97 %) и оригинальную модель на основе только 300 строк из Arras 764 на тех же тестовых страницах (коэффициент ошибок 2,53 %). Показатели ошибок в этом случае оказались удивительно хорошими для Arras 764 и при дальнейших экспериментах могут оказаться скорее исключением, чем правилом. Дальнейшее развитие эксперимента позволило объединить оригинальную базовую истину Арраса 764 со страницами базовой истины из других рукописей. Результат показал, что модель, созданная на основе комбинации Арраса 764 и Вайсенбурга 48, была несколько 36
своеобразный выброс: в большинстве случаев модель, сформированная на основе двух разных рукописей, не превосходила оригинальную модель, обученную исключительно на основе "истины" из целевой рукописи. Тщательно продуманный вывод заключается в том, что разнообразие двух или более рукописей, как правило, не дает лучшей основы 37 для модели OCR для любой из целевых рукописей, но конкретные комбинации рукописей могут дать исключительные результаты. В некоторых случаях причины таких результатов или критерии, по которым соответствующие рукописи должны быть объединены, не совсем ясны. В целом, добавление дополнительных рукописей в обучающий пул просмотренной рукописи негативно сказывается на точности результата. При тестировании этих моделей на невидимых рукописях наблюдалась обратная тенденция: чем больше различных рукописей было 38 включено в модель, тем лучше были результаты для невидимых тестовых рукописей (рис. 4). Как видно из графика, между размером и разнообразием обучающего пула и точностью результатов нет линейной зависимости. При столь малом пуле обучения и тестирования идиосинкразия каждой рукописи также может играть свою роль. В большинстве тестовых случаев результаты по нераспознанным рукописям были лучше при больших пулах обучения. Общая тенденция подтверждает, что модели, тестируемые на просмотренных рукописях, дают тем худшие результаты, чем больше 39 различных рукописей добавляется в обучающий пул. Этот вывод противоречит предположению о том, что большее количество и разнообразие рукописей в обучающем пуле приведет к созданию лучшей модели. Мы объясняем это тем, что при таком малом количестве рукописей точность результатов определяется в основном относительным преобладанием той или иной рукописи в обучающем пуле. Другими словами, чем больше ее присутствие разбавляется добавлением большего количества рукописей, тем ниже точность конечного результата. В случае с непросмотренными рукописями сохраняется пропорциональность между качеством модели и разнообразием и размером 40 обучающего пула. В данном случае зависимость показывает, что чем больше различных рукописей было включено в обучающий пул, тем лучше были результаты. Концептуально мы интерпретируем это поведение так: в то время как относительное преобладание виденных рукописей в значительной степени определяет точность моделей небольшого размера, чем больше разнообразие - и, следовательно, сложность - в процессе обучения, тем лучше модель справляется с незнакомой рукой невидимой рукописи. Хотя точность, достигнутая с помощью моделей небольшого размера, была неудовлетворительной, полученные данные позволяют предположить, что результаты будут улучшаться только с увеличением количества обучающего материала. 3. Размер, разнообразие и точность для больших моделей Конечная цель наших экспериментов - создание готовой модели OCR, применимой к максимально широкому кругу пользователей. 41
как можно больше невидимых манускриптов - количество истинных строк в обучающем пуле было значительно увеличено. Расшифрованные страницы 50 случайно выбранных манускриптов временного периода между IX и XI веками, написанных каролинским минускулом или переходным шрифтом, были объединены в один обучающий пул и протестированы на увиденных манускриптах, включенных в обучающий пул, и на невидимых манускриптах, не включенных в обучающий пул. Результаты показывают, что обнаруженная связь между размером обучающего пула и точностью распознавания увиденной рукописи 42 достигает максимума (рис. 5). В какой-то момент относительное преобладание целевой рукописи в пуле обучения перестало иметь значение. Вместо этого увеличение размера обучающего пула было прямо пропорционально точности, достигаемой с помощью результирующей модели, причем практически равномерно. Зависимость между размером обучающего пула и точностью результата сохраняется и для непросмотренных рукописей (рис. 6). Однако если посмотреть на улучшение коэффициента ошибок, то эксперименты показывают, что при небольшом пуле обучения добавление одной или двух рукописей дает ощутимую разницу, в то время как при большем пуле разница от каждого добавления становится незначительной. Другими словами, хотя повышение точности модели пропорционально количеству включенных рукописей, это не линейное развитие, а сглаженная кривая. 43
Изначально пул обучения и тестирования был ограничен каролинским минускулом. Однако, как и в случае с языками, определение 44 каролинского минускула не является незыблемым: существует множество рукописей, в которых наблюдаются переходные этапы, проявляющиеся в различных формах символов, растущем количестве сокращений и меняющихся начертаниях. В некотором смысле границы между "чистыми" и "переходными" шрифтами также не являются абсолютными, а во многом зависят от человеческого усмотрения - обстоятельство, которое любопытно выходит на первый план при тестировании вычислительных подходов к изучению рукописей (см. [Kestemont et al. 2017]). Аналогичным образом, в нашем обучающем наборе было представлено некоторое разнообразие: часть рукописей содержала 45 позднекаролинский и раннеготический шрифты. Прямое сравнение обучающих наборов, составленных на основе каролинского минускула и строго исключающих переходные формы, с тем же обучающим набором, включающим некоторые переходные формы, показало, что присутствие переходных форм в обучающем наборе равномерно улучшает результат, а не ухудшает его. Было ли это улучшение обусловлено просто увеличением размера или разнообразия тренировочного пула, на данном этапе точно установить не удалось. И наоборот, разнообразие тренировочного пула оказало большее влияние на результаты с невидимыми рукописями за пределами 46 непосредственной границы каролинского минускула, в данном случае с переходными скриптами. Другими словами, относительное преобладание рукописей-"выскочек" в большом обучающем пуле дало тот же эффект, что и относительное преобладание "видавших виды" рукописей в малом обучающем пуле. При тестировании на невидимой раннеготической рукописи результаты при меньшем количестве рукописей в пуле оказались лучше, чем при добавлении новых, строго каролинских минускульных рукописей. Аналогично идее относительного преобладания увиденных рукописей в обучающем пуле, пропорциональное представительство скриптов"аутсайдеров" в обучающем пуле влияет на результаты тестирования с невидимыми позднекаролинскими и раннеготическими рукописями. Эта гипотеза была подтверждена в дальнейших экспериментах (рис. 7). К обучающему пулу из пятидесяти преимущественно каролинских минускульных рукописей мы добавили по десять позднекаролинских и раннеготических рукописей для одной модели, десять каролинских рукописей для другой и одну модель, объединяющую все три группы. Результаты показали, что для преобладающей группы рукописей в пуле (с каролинским минускульным шрифтом) увеличение размера и разнообразия модели почти равномерно улучшило результаты, больше, чем увеличение размера с целью единообразия. В этом наборе экспериментов наши лучшие результаты достигли точности 94,22 %. 47
По разным оценкам, в большинстве случаев добавление десяти позднекаролинских и раннеготических рукописей в тренировочный пул 48 (в целом объединяющих большее количество строк) давало лучшие результаты, чем добавление десяти каролинских минускульных рукописей. Разница в точности была очень мала, но практически одинакова для всех тестовых рукописей каролинского минускула. Во всех случаях окончательная большая модель, объединяющая исходный пул из пятидесяти рукописей, десять поздних каролинских и ранних готических и десять каролинских минускулов, показала наилучшие результаты на всех тестовых каролинских минускулах. И наоборот, тестовые позднекаролинские и раннеготические рукописи показали наилучшие результаты в модели, объединяющей пул 49 из пятидесяти рукописей с десятью дополнительными позднекаролинскими и раннеготическими рукописями, вторые - в большой комбинированной модели и худшие - в модели с добавлением каролинского минускула. Наш вывод заключается в том, что относительное преобладание позднекаролинских и раннеготических рукописей в обучающем пуле значительно повлияло на результат для рукописей-"выбросов", а не простое увеличение размера обучающего пула. Сходство поведения с примером замеченных рукописей, протестированных с помощью небольших моделей, позволяет предположить, 50 что может существовать аналогичный пик, когда относительное преобладание рукописей-аутсайдеров в обучающем пуле перестает влиять на результат. Проверка этой гипотезы не входит в рамки данного эксперимента, но предлагает направление для будущих исследований. И наконец, следует отметить, что тесты с использованием "чужих" шрифтов, отличных от ранней готики, например, более ранних 51 рукописей, не дали ни отдаленно удовлетворительных результатов, ни идентифицируемых моделей точности во всем тестовом диапазоне моделей. Мы обнаружили это на примере двух "предельных случаев" из рукописей, написанных инсулярным минускулом около 800 года. Один из примеров - страница из St. Gall, Stiftsbibliothek 761, сборника медицинских текстов, где ни одна из наших [12] моделей не достигла уровня ошибок ниже 36 %. На данном этапе нашего исследования у нас слишком мало данных, чтобы выдать что-то, кроме гипотетической интерпретации. Однако мы предполагаем, что, хотя общие стилистические различия между родственными шрифтами, такими как каролинский минускул и инсулярный (каролинский) минускул, не считаются значительными в соответствии с палеографическими отчетами, даже эти небольшие различия, похоже, оказывают большое влияние на результаты при использовании ANN OCR. Тот факт, что эти тестовые примеры не дали существенных или регулярных результатов OCR, говорит о том, что область применения результатов этого эксперимента не выходит за рамки типов скриптов, использованных в обучающих данных. Таким образом, эти предельные случаи демонстрируют, насколько оправдано сосредоточение на типах скриптов для дальнейших исследований; в будущих экспериментах с этим типом компьютерной обработки можно обнаружить гораздо больше. Учитывая закономерность поведения результатов, полученных на каролинских и раннеготических рукописях, наши эксперименты намекают на то, как технология OCR на основе нейронных сетей может быть использована для дальнейших аналитических целей, с потенциалом расширения тех же стратегий за пределы этих типов шрифтов. Это стало более очевидным, когда мы провели эксперименты по обучению и тестированию моделей, состоящих из просмотренных и не просмотренных рукописей, с разнообразием каролинских минускулов, поздних каролинских и ранних готических шрифтов. Помимо чистого распознавания текста (основная цель использования программного обеспечения OCR), результаты также указывают на закономерности 52
которые могут помочь лучше понять палеографию и категории шрифтов. Хотя наши исследования до сих пор были в основном сосредоточены на рукописях с каролинским минускульным шрифтом, включенные нами выбросы определяют другой набор результатов с более широкими последствиями, чем распознавание текста как таковое. Одним из конкретных примеров более широкого применения могут служить результаты изучения рукописей, написанных шрифтами 53 одиннадцатого, двенадцатого и тринадцатого веков. Ведь типы шрифтов в этот период часто описываются как "переходные", а палеографические различия между ними трудно поддаются классификации (см. [Derolez 2003, 56-71]; и [Kwakkel 2012]). Эксперименты с различными типами обучающих и тестирующих моделей, основанных на большем или меньшем разнообразии сценариев и большем или меньшем относительном преобладании групп рукописей, выявили в различных контекстах закономерности, которые можно использовать в аналитических целях. Использование этих закономерностей для палеографического анализа - заманчивая перспектива. Мы надеемся реализовать эти возможности в будущем, когда построим больше обучающих и тестирующих моделей, чтобы подтвердить результаты дальнейшего разнообразия в наших экспериментах. Выводы Библиография остается фундаментальной основой средневековых исследований, начиная с традиционной палеографии и заканчивая 54 цифровыми базами данных гуманитарных наук. Например, исследования шрифтов такими палеографами, как Э. А. Лоу, Бернхард Бишофф и Р. А. Б. Майнорс, легли в основу Codices Latini Antiquiores (CLA), который, в свою очередь, дал начало более поздним начинаниям в цифровую эпоху [Lowe 1934-1972] (см. [Stansbury 2015-2018]). Без CLA у нас не было бы таких исследований, как попытки Эльтё Бюринга статистически оценить и понять последствия производства и утраты средневековых рукописей на протяжении веков [Buringh 2011]. Точно так же без многочисленных предшествующих библиографических исследований у нас не было бы таких проектов, как "Производство и использование английских рукописей 1060-1220 гг." Ориетты Да Ролд, Такако Като, Мэри Свон и Элейн Трехарн, которые предоставляют ценные сведения о рукописях, их контексте и истории книжного дела в ранней Англии [Da Rold et al. 2010]. Использование программного обеспечения OCR в средневековых рукописях как опирается на работу библиографов, так и расширяет 55 ее за счет новых возможностей, открывающихся благодаря цифровым инструментам. При всем этом важно признать человеческие аспекты цифровых гуманитарных наук. Эти аспекты включают в себя отправную точку исследовательских вопросов, поставленных с фундаментальной гуманистической точки зрения, а также труд, связанный с обработкой данных, расшифровкой и обработкой рукописей, интерпретацией результатов с учетом их отдачи и возможностей, которые они предоставляют для дальнейшей работы. В конце концов, цифровые гуманитарные науки возможны только благодаря сочетанию компьютеров и критических, аналитических исследовательских вопросов, которые движут гуманитарными науками. OCR расширяет возможности изучения книг, а также связывает библиографию с другими областями для расширения возможностей инновационных поисков. Мы надеемся, что использование OCR в работе со средневековыми рукописями открывает новый спектр вопросов, основанных на библиографии, но с новыми последствиями для будущих исследований с использованием компьютеров. Использование OCR в средневековых рукописях также помогает подтвердить и дополнить традиционный библиографический анализ в 56 таких областях, как палеография. Одним из результатов использования цифрового программного обеспечения на средневековых рукописях является подтверждение того, что шрифты, как их описывали и идентифицировали палеографы, действительно появляются и функционируют по-разному (см. [Kestemont et al. 2017]). Процесс использования OCRopus для наших экспериментов подтвердил, что определенные группы рукописей с разными типами шрифтов (например, каролинский минускул, позднекаролинский и раннеготический шрифты) действительно отличаются друг от друга в рамках общих категорий не только по традиционным палеографическим оценкам, но и по тому, как их обрабатывает программное обеспечение. OCRopus работает иначе при обработке рукописей, демонстрирующих ранние каролинские минускулы, чем при обработке рукописей, демонстрирующих поздние каролинские и раннеготические черты, демонстрируя, что процесс работы программного обеспечения не одинаков в каждом случае. Другими словами, то, как программное обеспечение OCR по-разному обрабатывает рукописи внутри и между определенными палеографическими категориями (даже если они относительно подвижны), еще больше подтверждает предыдущие знания о таких категориях и их использовании в средневековой писцовой практике. Очевидно, что использование программного обеспечения OCR в средневековых рукописях оказывается полезным, но в настоящее время эта область библиографической науки недостаточно хорошо изучена. Программное обеспечение с открытым исходным кодом, основанное на технологии ANN, может изменить эту ситуацию. Наши эксперименты показывают, что при определенных стратегиях можно добиться хороших результатов OCR даже при не слишком впечатляющем объеме исходного фонда. Вначале мы экспериментировали, используя в основном рукописи, написанные каролинским минускулом, но результаты, полученные при расширении и включении других рукописей, написанных поздним каролинским и ранним готическим шрифтом, показывают, что эти стратегии могут быть 57
Возможно воспроизведение на большем корпусе рукописей и совместное использование с другими процессами. Одними из наиболее интересных результатов наших экспериментов стали лучшие показатели точности, достигнутые с нашим корпусом рукописей: 97,06 % точности для результатов по увиденной рукописи Arras 764, основанных на истинности только Arras 764; и 94,13 % точности для результатов по невидимым рукописям, основанных на истинности всех учебных рукописей. Мы надеемся, что будущая работа сможет развить эти результаты, чтобы сделать обработку OCR более эффективной, более точной и более применимой к более широкому кругу средневековых рукописей. Целью будущих проектов и сотрудничества по использованию OCR в средневековых рукописях должно быть совместное 58 использование не только результатов, но и данных обо всем процессе, чтобы другие могли опираться на исследования для будущих улучшений. Хотя это уже фундаментальные аспекты многих начинаний в области цифровых гуманитарных наук, случай с OCR для средневековых источников подчеркивает необходимость открытого обмена. В конце концов, наши эксперименты и результаты - это лишь отправная точка, и мы надеемся, что будущие исследования улучшат представленные здесь возможности. Кроме того, хотя для экспериментов, представленных в этой статье, мы использовали OCRopus, совместный открытый обмен позволяет использовать другие OCR-движки и различные техники. Ни один из наших результатов не был бы возможен без открытого программного обеспечения, сотрудничества, открытого доступа к оцифрованным рукописям, который обеспечивают библиотеки, и, в некоторых случаях, без предыдущих работ тех, кто экспериментировал с OCR. Как и другие ANN-программы, OCRopus не поставляется со встроенным обучением, поэтому пользователям необходимо обучать его. Чтобы использовать результаты OCR, исследователям нужны большие обучающие наборы, которые уже были созданы и протестированы, чтобы не приходилось каждый начинать с нуля. Будущее такой работы обязательно требует совместного подхода к обмену данными и результатами. Мы считаем, что именно здесь программное обеспечение с открытым исходным кодом более полезно, чем проприетарное программное обеспечение, которое не может быть использовано для совместной работы. Такое сотрудничество потребует наличия цифровой инфраструктуры и обязательств по распространению обучающих наборов. 59 Поскольку обучающие данные для всех популярных сегодня программ ANN OCR состоят из пар между исходными изображениями (сегментированные линии) и исходным текстом (транскрипция), ими легко обмениваться. Наиболее разумным подходом является обмен данными в репозиториях с открытым доступом, чтобы (например) сотрудники могли получать доступ к данным и использовать их, выявлять и исправлять ошибки в обучающих наборах и загружать новые партии обучающих данных для различных типов анализа источников. В некотором роде возможности для такого обмена уже существуют в репозиториях, обеспечивающих совместную работу, таких как Github, Gitlab и Zenodo.[13] Это было нашей целью и при размещении наших собственных результатов в репозитории Github. Наш процесс, использующий программное обеспечение OCR с открытым исходным кодом и технологию нейронных сетей, должен позволить многим людям участвовать в совместной работе децентрализованно и в гораздо больших масштабах с течением времени. Наша цель - объединить различных ученых, инструменты и методологии для создания надежного, совместного подхода к распознаванию средневековых рукописей. Приложение: Заметка о датах, происхождении и сценариях рукописей В отношении данных о датах, происхождении и шрифтах рукописей в наших наборах данных мы, как правило, придерживались 60 стандартных библиографических описаний в каталогах и онлайн-репозиториях. Все данные, полученные из палеографических анализов и описаний, неизбежно изменчивы (и часто субъективны). Учитывая это, палеографические данные следует понимать как несколько размытые: "значение постоянно обсуждается" [Kestemont et al. 2017, S108]. Например, все указанные диапазоны дат являются приблизительными, а любая конкретная дата должна пониматься как "в или около" этого года. Детали, обосновывающие диапазоны дат, можно найти в каталогах и другой вторичной литературе о конкретных рукописях. Наша система датировки согласуется с другими стандартами библиографических метаданных, особенно с "Принципами описания" в книге "Производство и использование английских рукописей 1060-1220 гг." Ориетты Да Ролд, Такако Като, Мэри Свон и Элейн Трехарн [Da Rold et al. 2010]. Даты рукописей в нашем наборе данных обязательно являются приблизительными. Та же необходимость учета нечетких данных относится и к типам шрифтов, поскольку история и развитие средневекового почерка полны неоднозначности. Классификации шрифтов в наших данных основаны на палеографических стандартах в библиографических описаниях, но они не всегда однозначны. Различия между типами шрифтов, их характерные особенности и терминология являются спорными, и их довольно трудно определить в период между 1075 и 1225 годами (см. подробнее в [Derolez 2003, 56-71]; и [Kwakkel 2012]). Тем не менее в этот период появляются определенные отличительные черты, а старые формы выходят из употребления. Несмотря на то, что переход происходит медленно и постепенно, он все же имеет место. По этой причине мы считаем, что каролинский минускул был переходным в этот период, и используем этот термин (вслед за Кваккелем) в дальнейшем. 61
Более конкретно, мы используем два термина для обозначения шрифтов в этот переходный период (как в этой статье, так и в наших наборах данных): те, которые демонстрируют баланс ранних черт каролинского минускула, часто до 1200 года, обозначаются как позднекаролинские; те, которые демонстрируют баланс более поздних черт, более похожих на готические, часто после 1200 года, обозначаются как раннеготические. Обоснованием этих решений служат различия в поведении программного обеспечения OCR при работе с разными типами шрифтов. Эти различия наиболее ярко проявляются в том, как добавление разных типов рукописей (каролинского минускула, позднего каролинского и раннего готического, а также видимых и невидимых) влияет на точность результатов OCR (см. наше обсуждение в разделе "Процесс и результаты"). Хотя более подробное обсуждение последствий наших результатов для палеографического анализа выходит за рамки настоящей статьи, мы надеемся продолжить изучение этих вопросов в будущем. Примечания [1] Их гораздо больше, чем можно привести здесь, но см., в частности, результаты работы Стэнфордской литературной лаборатории; [Moretti 2005]; [Moretti 2012]; [Jockers 2013]; и [Jockers and Underwood 2016]. [2] См. предыдущие ссылки, в частности, обзор и примеры в [Jockers and Underwood 2016]. [3] О проектах, использующих OCR в ранних современных печатных текстах, см., например, [Rescribe]; и [eMOP]. [4] Среди недавних работ по созданию машиночитаемых данных из средневековых материалов (рукописей и инкунаблей) некоторые, хотя не все они используют программное обеспечение OCR: например, [Edwards et al. 2004]; [Boschetti et al. 2009]; [Fischer et al. 2009]; [Leydier et al. 2014]; [Hawk 2015]; [Springmann 2015]; [Springmann and Lüdeling 2017]; проект Rescribe [Rescribe]; [Camps 2017]; [Kestemont et al. 2017]; и недавно запущенный проект HIMANIS [Teklia 2017], построенный на собственном ПО компании Teklia, а не на инструментах с открытым исходным кодом, которые могли бы найти более широкое применение. [5] Данные наших экспериментов можно найти на сайте https://github.com/rescribe/. [6] О терминологии и других вопросах см. в нашем Приложении: Заметка о датах, происхождении рукописей и шрифтах. [7] О различиях между OCR и HTR и критике первого см. в [Kestemont et al. 2017, S89-91]; и, например, [Transkribus], с документацией по OCR и HTR на вики проекта, https://transkribus.eu/wiki/index.php/Main_Page. [8] О технологии ANN и ее связи с OCR, рассматриваемой в этом разделе, см. в частности [Ul-Hasan and Breuel 2013]; [Simistira et al. 2015]; и [UlHasan 2016]. [9] В нашем конкретном случае мы решили обработать бинаризацию с помощью альтернативной программы с открытым исходным кодом ScanTailor, чтобы сохранить более высокое разрешение, чем получилось бы при использовании OCRopus. Мы также изменили процедуру нумерации сегментированных строк с шестнадцатеричной на десятичную, поскольку поняли, что первоначальный шестнадцатеричный порядок может сбить с толку порядок строк в исходном тексте. [10] Основными источниками информации по установке и процессу обучения, помимо собственной документации OCRopus на Github, стали очень полезный материал Дэна Вандеркама об установке OCRopus на Apple iOS [Vanderkam 2015] и подробное описание процесса обучения для инкунабельных [Springmann 2015]. [11] Этот инструмент, как и другие, упомянутые здесь, встроен в OCRopus. [12] См. описание и цифровое факсимиле на сайте e-codices, https://www.e-codices.unifr.ch/en/list/one/csg/0761. [13] См., например, репозиторий Github [Kestemont]; и репозиторий Zenodo [Springmann et al. 2018]. Цитируемые произведения Algee-Hewitt et al. 2016 Algee-Hewitt, Mark, Sarah Allison, Marissa Gemma, Ryan Heuser, Franco Moretti, and Hanna Walser. "Канон/архив. Масштабная динамика в литературном поле". Памфлеты Стэнфордской литературной лаборатории, памфлет 11, январь 2016 г. Альперт-Абрамс 2016 Альперт-Абрамс, Ханна. "Машинное чтение Primeros Libros". Digital Humanities Quarterly 10.4 (2016). Бауманн Бауманн, Райан. "Латинский OCR для Tesseract". https://ryanfb.github.io/latinocr/. 62
Boschetti et al. 2009 Boschetti, Frederico, Matteo Romanello, Alison Babeu, David Bamman, and Gregory Crane. "Повышение точности OCR для классических критических изданий". В книге "Исследования и передовые технологии для электронных библиотек", под ред. Maristella Agosti, et al., Lecture Notes in Computer Science 5714. Heidelberg: Springer, 2009: 156-67. Buringh 2011 Buringh, Eltjo. Средневековое производство рукописей на латинском Западе: Исследования с помощью глобальной базы данных. Серия 6 по истории мировой экономики. Leiden: Brill, 2011. Кэмпс 2017 Кэмпс, Жан-Батист. "Самодельная рукопись OCR (1): OCRopy". Sacré Gr@@l: Histoire, philologie, programmation et statistiques, 6 февраля 2017. Da Rold et al. 2010 Da Rold, Orietta, Takako Kato, Mary Swan, and Elaine Treharne. Производство и использование английских рукописей 1060-1220 гг. Университет Лестера, 2010; последнее обновление 2013 г. Деролез 2003 Деролез, Альберт. Палеография готических рукописных книг: From the Twelfth to the Early Sixteenth Century. Cambridge Studies in Palaeography and Codicology 9. Кембридж: Cambridge University Press, 2003. Edwards et al. 2004 Edwards, Jaety, Yee Whye Teh, David Forsyth, Roger Bock, Michael Maire, and Grace Vesom. "Создание возможности поиска по латинским рукописям с помощью gHMM". Advances in Neural Information Processing Systems 17 (2004): 385-392. Фишер и др. 2009 Фишер, Андреас, Маркус Вутрих, Маркус Ливицки, Фолькмар Фринкен, Хорст Бунке, Габриэль Виххаузер и Михаэль Штольц. "Автоматическая транскрипция рукописных средневековых документов". Материалы 15-й Международной конференции по виртуальным системам и мультимедиа 2009 года. Вашингтон, округ Колумбия: IEEE COmputer Society, 2009: 137-42. Google "Google reCaptcha". 2016. https://www.google.com/recaptcha/intro/index.html. Hawk 2015 Hawk, Brandon W. "OCR и средневековые манускрипты: Establishing a Baseline." brandonwhawk.net. 20 апреля 2015 года. Джокерс 2013 Джокерс, Мэтью Л. Макроанализ: Цифровые методы и литературная история. Урбана, Иллинойс: Издательство Иллинойского университета, 2013. Jockers 2014 Jockers, Matthew L. Text Analysis with R for Students of Literature. Швейцария: Springer International Publishing, 2014. Джокерс и Андервуд 2016 Джокерс, Мэтью Л., и Тед Андервуд. "Text-Mining in the Humanities". In A New Companion to Digital Humanities, ed. Susan Schreibman, Ray Siemens, John Unsworth. Malden, MA: Wiley-Blackwell, 2016: 291-306. Karpathy 2015 Karpathy, Andrej. "Необоснованная эффективность рекуррентных нейронных сетей". Блог Андрея Карпати, 21 мая 2015 г. Кестемонт Кестемонт, Майк. "Код для DeepScript, представленный на конкурс ICFHR2016 по классификации средневековых почерков на латинице". https://github.com/mikekestemont/DeepScript. Kestemont et al. 2017 Kestemont, Mike, Vincent Christlein, and Dominique Stutzmann. "Искусственная палеография: Вычислительные подходы к идентификации типов шрифтов в средневековых рукописях". Speculum 92/S1 (2017), S86-109. Кваккель 2012 Кваккель, Эрик. "Кусание, поцелуи и обращение с ногами: переходный сценарий длинного двенадцатого века". In Turning Over a New Leaf: Change and Development in the Medieval Book, ed. Erik Kwakkel, Rosamond McKitterick, and Rodney Thomson. Leiden: Leiden University Press, 2012: 79-125. Лексос Лексос. Исследовательская группа "Лексомика". Wheaton College. http://lexos.wheatoncollege.edu/upload. Leydier et al. 2014 Leydier, Yann, Véronique Églin, Stéphane Brès, and Dominique Stutzmann. "Выравнивание текста и изображения без обучения для средневековых рукописей". In Proceedings: 14-я Международная конференция "Границы в распознавании рукописного текста". Los Alamitos, CA: IEEE Computer Society, 2014: 363-68. Lowe 1934-1972 Lowe, E. A., ed. Codices Latini Antiquiores: Палеографический справочник по латинским рукописям до девятого века. 12 vols. Oxford: Clarendon Press, 1934-1972. Мимно 2014 Дэвид Мимно. "Плотничество данных - это квалифицированное, практическое ремесло, которое в будущем станет основной частью науки о данных". The Impact Blog, 1 сентября 2014 года. Моретти 2005 Моретти, Франко. Графы, карты, деревья: Абстрактные модели для литературной истории. London: Verso, 2005. Моретти 2012 Моретти, Франко. Distant Reading. London: Verso 2012.
Моретти 2017 Моретти, Франко. "Узоры и интерпретация". Памфлеты Стэнфордской литературной лаборатории, памфлет 15, сентябрь 2017. Nitti 1978 Nitti, John J. "Computers and the Old Spanish Dictionary." In Medieval Studies and the Computer, ed. Anne Gilmour-Bryson, специальный выпуск Computers and the Humanities 12 (1978): 43-52. Rescribe Rescribe Ltd. https://rescribe.xyz/. Ридберг-Кокс 2009 Ридберг-Кокс, Джеффри А. "Оцифровка латинских инкунабул: Challenges, Methods, and Possibilities". Digital Humanities Quarterly 3.1 (2009). Simistira et al. 2015 Simistira, Fotini, Adnan Ul-Hassan, Vassilis Papavassiliou, Basilis Gatos, Vassilis Katsouros, and Marcus Liwicki. "Распознавание исторических греческих политонических шрифтов с помощью LSTM-сетей". Представлено на 13-й Международной конференции по анализу и распознаванию документов (2015). Спрингманн 2015 Спрингманн, Уве. "Ocrocis: Высокоточный метод OCR для преобразования ранних гравюр в цифровой текст - учебное пособие." http://cistern.cis.lmu.de/ocrocis/tutorial.pdf. Springmann and Lüdeling 2017 Springmann, Uwe, and Anke Lüdeling. "OCR исторических печатных изданий с применением к созданию диахронических корпораций: Исследование на примере травяного корпуса RIDGES". Digital Humanities Quarterly 11.2 (2017). Springmann et al. 2018 Springmann, Uwe, Christian Reul, Stefanie Dipper, and Johannes Baiter. "GT4HistOCR: Ground Truth для обучения OCR-движков на исторических документах на немецком Fraktur и ранней современной латыни". 12 августа 2018 г. https://zenodo.org/record/1344132. Стэнсбери 2015-2018 Стэнсбери, Марк. Ранние латинские рукописи. NUI Galway. 2015-2018. https://elmss.nuigalway.ie/. Strange et al. 2014 Strange, Carolyne, Daniel McNamara, Josh Wodak, and Ian Wood. "Поиск смысла убийства: The Impact of OCR Quality on the Use of Digitized Historical Newspapers." Digital Humanities Quarterly 8.1 (2014). Taigman et al. 2014 Taigman, Yaniv, Ming Yang, Marc' Aurelio Ranzato, and Lior Wolf. "DeepFace: Closing the Gap to Human-Level Performance in Face Verification." Представлено на конференции по компьютерному зрению и распознаванию образов (2014). Teklia 2017 Проект HIMANIS. Teklia. http://www.himanis.org/ Тессера Тессера. Университет в Буффало. http://tesserae.caset.buffalo.edu/. Транскрибус Транскрибус. Проект READ. https://transkribus.eu/Transkribus/. Trettien 2013 Trettien, Whitney Anne. "Глубокая история электронной текстуальности: The Case of Eng/ish Reprints Jhon Milton Areopagitica." Digital Humanities Quarterly 7.1 (2013). Уль-Хасан 2016 Уль-Хасан, Аднан. Распознавание общих текстов с помощью сетей долговременной кратковременной памяти. Неопубликованная докторская диссертация, Технический университет Кайзерслаутерна, 2016. Ul-Hasan and Breuel 2013 Ul-Hasan, Adnan, Breuel, T.M. "Можем ли мы построить независимый от языка OCR с помощью LSTM-сетей?" In Proceedings of the 4th International Workshop on Multilingual OCR. Washington, DC: MOCR, 2013: статья 9. Вандеркам 2015 Вандеркам, Дэн. "Извлечение текста из изображения с помощью Ocropus". danvk.org. January 9, 2015. https://www.danvk.org/2015/01/09/extracting-text-from-an-image-using-ocropus.html. Уайт 2012 Уайт, Ник. "Обучение Tesseract для древнегреческого OCR". Eutypon 28-29 (2012): 1-11. Виднер 2018 Виднер, Майкл. "К изучению текстов Средневековья: Digital Scriptoria and Networks of Labor." In The Routledge Research Companion to Digital Medieval Literature, ed. Jennifer E. Boyle and Helen J. Burgess. New York: Routledge, 2018: 131-44. Проект eMOP Early Modern OCR Project (eMOP). Техасский университет A&M. http://emop.tamu.edu/.