Текст
                    ТЕХНОЛОГИИ ВВОДА И ПЕРВИЧНОЙ ОБРАБОТКИ
ТЕКСТОВОЙ И ГРАФИЧЕСКОЙ ИНФОРМАЦИИ
НА ПЕРСОНАЛЬНОМ КОМПЬЮТЕРЕ
1. Технология преобразования бумажного документа в электронный.
2. Использование графических редакторов.
3. Автоматизированный перевод документов.
1. Технология преобразования бумажного документа в электронный
Для хранения документальной или иной информации в памяти ПК она
должна быть представлена в электронном виде. Одним из методов решения
этой задачи является ввод данных с помощью клавиатуры. Однако при
больших объемах информации основной технологией преобразования
бумажного документа в электронную форму является сканирование.
Сканирование обеспечивает получение графического образа бумажного
документа, т. е . в результате сканирования создается графический файл,
в котором хранится растровое (т. е . состоящее из точек) изображение
документа.
Для ввода текста и иллюстраций можно использовать ручные,
листовые и планшетные сканеры. Наилучшее качество и максимальное
удобство при работе с бумажными документами обеспечивают планшетные
сканеры. Подключение сканера к ПК обеспечивается через аппаратные и
программные интерфейсы. Большинство программ работы со сканером
обеспечивают возможность:
1. отсканировать весь документ и далее уточнить (выбрать) область
окончательного сканирования;
2. выбрать место размещения сканированного изображения (передать
для печати на принтер, сохранить в файле, передать в графический редактор,
отправить по электронной почте);
3. автоматической настройки параметров сканирования;
4. вручную задать дополнительные настройки (разрешение, размер
вывода и др.).
После обработки документа сканером получается графическое
изображение документа, но оно не является текстовым документом с точки
зрения компьютера. Следовательно, он не может быть полноценно обработан
текстовым процессором. Для преобразования графического образа
в текстовой документ используется технология распознавания текста.
Современные технологии распознавания текста не ориентируются ни на
конкретный шрифт, ни на конкретный алфавит. Их функциональные
возможности универсальны.
Наиболее распространенной программой данного назначения,
обеспечивающей высокое качество и удобство применения, является
программа FineReader.
Процесс преобразования бумажного документа в электронный
происходит в три этапа, каждый из которых может быть выполнен как


автоматически, так и под контролем пользователя. На первом – сканирующее устройство выполняет сканирование и передает информацию программе FineReader. При естественном порядке распознавания текста программа последовательно обрабатывает строки слева направо. Однако если текст неоднороден (содержит таблицы, рисунки, примечания и пр.) или разбит на несколько колонок, то необходимо провести его сегментацию, т. е . разбиение на блоки. На втором этапе программа осуществляет автоматическую сегментацию и в зависимости от типа информации, содержащейся в каждом блоке, проводит далее распознавание текста. Текст документа появляется в окне документа. Его можно сохранять постранично или собирать весь документ в один файл. Есть возможность прямой передачи полученного текста в Word и Excel, а также в буфер обмена. Особый интерес представляет режим распознавания заполненных бланков или анкет. При их обработке распознается и вводится в компьютер лишь переменный текст. На основе же постоянного текста предварительно создается шаблон формы. Созданный шаблон используется на этапе сегментации для разбиения текста по полям бланка. В результирующем документе присутствует как переменный, так и постоянный текст. 2. Использование графических редакторов Современные пакеты компьютерной графики можно разделить по функциональному назначению на системы иллюстративной графики, деловой графики, презентационной графики, анимационной графики, научной графики, а также графики для проектирования и моделирования объектов. Для всех систем компьютерной графики характерным является метод воспроизведения изображений на экране монитора и на печатающем устройстве типа принтер или плоттер (графопостроитель). Существует два основных способа формирования и воспроизведения изображения: векторный и растровый. Растровую графику применяют при разработке электронных и мультимедийных изданий, в том числе презентаций. Иллюстрации таким способом вручную создают редко. Их чаще сканируют или используют цифровые фото- и видеокамеры для ввода растрового изображения в компьютер. Соответственно, большинство графических редакторов, предназначенных для работы с растровыми иллюстрациями, ориентированы не столько на создание изображения, сколько на его обработку. Растровое изображение напоминает лист клетчатой бумаги, на котором каждая клеточка закрашена черным или белым цветом (для черно-белых изображений). Основным элементом растрового изображения является точка. Если это изображение экранное, то точка называется пикселем. Качество изображения определяется количеством точек на дюйм (разрешением). В зависимости от того, на какое графическое разрешение экрана настроена операционная система компьютера, на экране могут размещаться изображения, имеющие 640 х 480, 800 х 600, 1024 х 768 и более
пикселов. Чем выше требование к качеству, чем больше размер изображения, тем большие объемы данных надо хранить и обрабатывать. Большие объемы данных – это основная проблема при использовании растровых изображений. Другим недостатком растровой графики является невозможность масштабирования изображения без потери качества. Файлы растровой графики хранят в нескольких форматах. Для системы Windows наиболее характерным является формат Windows Bitmap (файлы имеют расширение .bmp). Файлы такого формата имеют большой размер. Для Web-документов, циркулирующих в сети Интернет, очень важен размер файла, поскольку от него зависит скорость доступа к информации. Поэтому при подготовке Web-страниц используют форматы, обеспе- чивающие более плотное сжатие. К ним относятся фор мат JPEG (файлы имеют расширение .jpg) и формат GIF (расширение .gif) Для хранения многоцветных нерегулярных изображений (фотографий) используют формат JPEG. Этот формат отличается тем, что обеспечивает хранение данных с огромной степенью сжатия, но за счет потери части информации. Однако на таких иллюстрациях, как цветные фотографии, это малозаметно. Формат GIF – самый «плотный» из графических форматов, не имеющих потери информации. В этом формате хранятся и передаются малоцветные изображения, например рисованные иллюстрации. У формата GIF есть весьма интересные особенности, позволяющие создавать необычные эффекты: прозрачность фона и анимацию изображения. Существует множество программ, предназначенных для работы с растровыми изображениями; их называют растровыми графическими редакторами. Ряд таких редакторов ориентирован непосредственно на процесс рисования. В них акцент сделан на использование удобных инструментов рисования. К простейшим программам этого класса относят графический редактор Paint, входящий в состав операционной системы Windows. Другой класс растровых графических редакторов предназначен не для создания изображения с «нуля», а для обработки готовых рисунков с целью улучшения их качества. К таким программам относится Adobe Photoshop. Программные средства для работы с векторной графикой ориентированы, в первую очередь, для создания иллюстраций и в меньшей степени для их обработки. Такие средства широко используют для создания реклам, в дизайнерской деятельности. Оформительские работы, основанные на применении шрифтов и простейших геометрических элементов, решаются средствами векторной графики намного проще. Основным элементом изображения в векторной графике является линия; все, что есть в векторном изображении, состоит из линий. Линии имеют свойства: форму, толщину, цвет, характер (сплошная, пунктирная и т. п.) . Замкнутые линии имеют свойство заполнения (например, цветом, текстурой). Векторная графика устраняет оба недостатка растровой, но, в свою очередь, значительно усложняют работу по созданию художественных иллюстраций. На практике средства векторной графики используют не для
создания художественных композиций, а для оформительских, чертежных и проектно-конструкторских работ, когда основным требованием к изображению является высокая точность формы. Такая задача возникает, например, при разработке логотипов компаний, при оформлении текста, при иллюстрировании не рисунком, а чертежом, схемой, диаграммой. К основным редакторам векторной графики относят Adobe Illustrator, Macromedia Freehand и CorelDraw. Все эти редакторы работают с одними и теми же объектами векторной графики, основаны на одних и тех же принципах, имеют схожие инструменты, и, соответственно, приемы создания векторных изображений в этих редакторах похожи. Среди современных систем компьютерной графики можно выделить пакеты презентационной графики. Данный класс пакетов позволяет готовить презентации для деловых встреч, презентацию продукции и другого в виде рекламных роликов. Рекламный ролик, или презентация, – это набор отдельных слайдов с эффектами анимации и следующие друг за другом с заданным интервалом времени. К пакетам данного класса можно отнести в первую очередь наиболее популярный пакет PowerPoint, входящий в состав пакетов MS Office. Пакет достаточно прост в освоении, т. к . интерфейс пакета является типовым для пакетов MS Office, тем не менее , освоение пакета требует определенных навыков работы. При создании презентации возможен экспорт графических файлов, подготовленных другими системами графики. Пакеты анимационной графики относятся к динамическим системам компьютерной графики. В таких системах изображение меняется со временем и создается эффект перемещения или действия. Наиболее часто анимационные изображения встраивают в Web страницы для рекламных целей. Наиболее популярным пакетом на сегодняшний день является пакет Flash. Деловая графика предназначена для иллюстрации числовой информации в графическом виде. Так, например, если есть какая-либо статистическая информация в виде электронных таблиц, массивов числовых данных, то ее можно интерпретировать в виде графических образов: круговых диаграмм, гистограмм, графиков функций, поверхностей и т. д . Наиболее широко данные средства представлены в пакете Excel. 3. Автоматизированный перевод документов К средствам автоматизации перевода можно отнести два вида программ: электронные словари и программы перевода. Электронные словари представляют собой средства для перевода отдельных слов, отображаемых на экране или имеющихся в документе. Программы перевода получают на входе текст, выполненный на одном языке, и выдают текст на другом языке, то есть автоматизируют перевод текста. Примером мощного электронного словаря может считаться программа ABBYY Lingvo. Она имеет возможность интегрироваться в систему Windows
XP. В этом случае, выделив нужное слово в любом окне, нужно нажать клавишу Ctrl, и, не отпуская ее, дважды нажать клавишу Insert. Надежный и качественный автоматический перевод документов с одного языка на другой пока остается недостижимым идеалом. Тем не менее, современные средства автоматизации перевода достигли того уровня, который позволяет эффективно использовать их на практике. Дело в том, что технический текст, в отличие от художественного, использует ограниченное число языковых конструкций и более ориентирован на однозначную интерпретацию. Среди используемых лексических единиц встречается большое число технических терминов, имеющих совершенно определенный смысл в рамках данной научной или технической дисциплины. Это значительно упрощает процесс перевода и позволяет в отдельных случаях автоматически получать текст, близкий к результату ручного подстрочного перевода. Программы автоматического перевода имеет смысл использовать для перевода технических текстов в следующих случаях: – при абсолютном незнании иностранного языка; – при необходимости получить перевод быстро, даже ценой снижения его качества; – для перевода на иностранный язык (умения читать иноязычные тексты недостаточно, чтобы научиться объясняться на иностранном языке); для быстрого создания первоначального черновика, используемого в ходе подготовки полноценного перевода. Работа с программой PROMT TX. Для автоматизированного перевода технических текстов можно, например, использовать разные программы семейства PROMT. Одновременно для обработки в программе PROMPT XT может быть открыто несколько документов. Окна документов разбиваются на три отдельные области: две из них предназначены для отображения оригинала текста и сформированного перевода, а третья представляет собой информационную панель, предназначенную для вывода информации о переводимом документе и специальных настройках. Чтобы произвести перевод имеющегося документа с использованием заданных по умолчанию настроек, применяют следующий порядок действий. 1. Сначала необходимо открыть документ на языке оригинала 2. После выбора файла появляется диалоговое окно «Конвертировать файл». В нем можно уточнить реальный формат документа, хранящегося в файле, если он не соответствует типу файла или когда тип файла может соответствовать нескольким разным форматам документа. 3. Документ загружается и отображается в области исходного текста. При вертикальном разбиении окна документа эта область располагается слева. Если предполагается длительная работа над переводом текста, его сохраняют как документ программы PROMT XT (файл с расширением .STD). 4. Определение языков оригинала и перевода рассматривается как направление перевода.
5. Запустить процесс перевода. Перевод текста помещается (при вертикальном разбиении окна) в правую область. Для удобства последующего редактирования перевод снабжается цветовой разметкой: неизвестные программе слова подчеркиваются красным, а зарезервированные слова, которые не надо переводить, – зеленым. Другие типы маркировки и подчеркивания показывают, из какого словаря взят перевод указанного слова. Текст, помещенный в областях окна программы PROMT XT, можно редактировать (и оригинал, и перевод). В любой момент можно заново перевести отредактированный абзац. Текущий абзац – это абзац, в котором располагается текстовый курсор. Он выделяется голубой полосой вдоль левого края. 6. После того как работа с документом в программе PROMT XT завершена, его сохраняют в одном из общепринятых форматов. Имеется возможность сохранения только оригинала (возможно, отредактированного) и только переведенного текста. Можно сохранять как содержимое документа, так и его элементы форматирования, сохраняющие, по возможности, оформление оригинала. Работа со словарями. Правила перевода отдельных слов (терминов) определяются использованием словарей. Для каждого переводимого документа задается набор применяемых словарей. Словари просматриваются в определенном порядке, и, как только переводимое слово обнаружено в каком-то из словарей, дальнейший просмотр прекращается. Программа PROMT XT использует при переводе три типа словарей. – Генеральный словарь содержит общеупотребительную лексику и бытовые значения слов. Он используется всегда и притом самым последним, если слово не найдено ни в одном из других словарей. Изменение этого словаря невозможно. – Специализированные словари содержат термины из различных областей знаний, причем значение переводимого термина выбирается в соответствии со специализацией словаря. Редактирование специализированных словарей не допускается, но их можно подключать или отключать при переводе документа. – Пользовательский словарь формируется пользователем вручную. В него можно включить слова, отсутствующие в других словарях, или представить более точный перевод каких-то из терминов. Пользовательские словари можно произвольно создавать и редактировать. Применяют пользовательские словари обычно в первую очередь, до специализированных и генерального. Узнать, какие словари используются при переводе, можно на вкладке «Словари» на информационной панели. Подключенные словари отмечаются установленным флажком. Порядок перечисленных словарей соответствует порядку их использования, здесь же его можно изменить. Генеральный словарь в этом списке не указывается.
Транслитерация и резервирование. Не все слова требуют перевода. Обычно без изменений оставляют имена собственные. Иногда при этом используют транслитерацию – запись, использующую другой алфавит, но соответствующую написанию или произношению слова на исходном языке. В частности, транслитерация повсеместно используется при передаче иностранных имен и фамилий. Транслитерация не считается переводом. Слово, не требующее перевода следует зарезервировать. Можно уточнить написание, указать смысловую категорию, к которой относится данный термин, а также запрограммировать транслитерацию слова при переводе. Все зарезервированные слова заносятся в список на вкладке «Зарезервированные слова» на информационной панели, а в самом документе выделяются зеленым цветом. Можно зарезервировать целые абзацы, они также отображается зеленым цветом. Если резервирование слов или абзацев произведено после выполнения перевода, то для того, чтобы данные настройки вступили в силу, надо произвести перевод соответствующих абзацев заново. Если приходится работать с тематически связанными документами или документом, разбитым на несколько отдельных файлов, следует использовать общий список зарезервированных слов. Для этого следует сохранить список из первого документа в файл, чтобы потом загрузить его при переводе последующих документов. Пополнение словаря. При автоматическом переводе реальных документов часто приходится сталкиваться со словами, которые программа перевода не смогла найти ни в одном из допустимых словарей. Эти слова заносятся в список на вкладке «Незнакомые слова» на информационной панели и выделяются в тексте документа красным цветом. Слова могут быть неопознаны по разным причинам. В число их могут входить: – опечатки в оригинале документа; – ошибки распознавания (для документов, преобразованных в электронную форму); – собственные имена, требующие резервирования; – слова, отсутствующие в словарях. В первых двух случаях необходимо отредактировать исходный текст, в третьем – зарезервировать слово и только в последнем случае необходимо занести слово в пользовательский словарь. При этом кроме собственно значения слова в переводе необходимо задать грамматические правила изменения форм этого слова и его сочетания с другими словами. В самом простом режиме работы (Начинающий) программа автоматически добавляет недостающие формы слова по заданному образцу. Имеющиеся словари можно также просматривать и редактировать. Результаты такого редактирования всегда заносятся только в пользовательский словарь.