Журнал «Компьютерра» № 18 от 16 мая 2006 года, стр. 25

От MT к TM

Как же все-таки обстоят дела с автоматизацией процесса? На какой стадии развития находятся системы автоматизированного перевода, по аналогии с Computer-Assisted Design (CAD) называемые Computer-Assisted Translation (CAT)? Не вдаваясь в лингвистические и технологические тонкости, попытаюсь обрисовать положение дел все с той же утилитарной позиции экономии времени. Первыми на ум приходят технологии машинного перевода, по-английски machine translation. В двух словах, они сводятся к грамматическому анализу, то есть переводу частей речи. Можно подключить словари по тематике оригинала и погадать по результату «перевода», о чем же хотели сказать авторы. Но если нужно не ознакомиться с оригиналом, а опубликовать его перевод, сэкономить время не удастся. «Белковый» переводчик затратит меньше времени на перевод оригинального документа, чем на переделку творения машинного «переводчика», даже если речь идет о больших объемах технической документации с высокой степенью рекуррентности.

Для подобного рода работ в переводческой отрасли прижилась другая технология автоматизации процесса. Правда, прижилась в основном за границей, о чем можно судить даже по разнобою в переводах названия технологии translation memory. Кроме лобовой «переводческой памяти» встречается «накопительный перевод», «автоматизированный перевод» и даже «пул переводов». Подробная статья на эту тему со множеством ссылок есть в Wikipedia

В общих чертах технология сводится к следующим процедурам. Вы загружаете исходный текст в программу переводческой памяти. Программа сегментирует текст, извлекает из своей базы ранее переведенных текстов совпадающие сегменты и выдает частично переведенный текст. Главное отличие от машинного перевода состоит в том, что базу переводческой памяти составляют сегменты из текстов, переведенных человеком. В качестве же сегмента или элемента переводческой памяти чаще всего берется предложение. Отсюда и концепция translation memory, которая основана на том, что предложения в предыдущих переводах можно использовать повторно. Очевидный выигрыш во времени частично нивелируется увеличением затрат на проверку качества перевода. И не только из-за того, что незамеченная ошибка может бесконечно повторяться, но и потому, что переводчик должен передать идею, мысль (словом, message) текста, а не переводить отдельные элементы в виде предложений.

Тем не менее по мере ускорения процессов глобализации спрос на программы переводческой памяти растет. Цены на полные версии многих программ translation memory колеблются от 500 до 2500 долларов и обусловлены не столько технологией, сколько многообразием поддерживаемых форматов переводимой документации. В качестве примеров можно упомянуть STAR Transit и Deja Vu .

Если же перед переводчиком не стоит задача переводить во всех мыслимых форматах, он может выбрать относительно дешевую программу WordFast, которая, в отличие от вышеупомянутых пакетов, не имеет собственной оболочки, а встраивается в Word.

Мало-помалу отношение к этой технологии меняется и в России. Например, компания Promt включила в свою последнюю версию машинного «переводчика» функцию translation memory. Еще одним свидетельством растущего спроса на такого рода программы стало событие, не оставшееся без внимания переводческого сообщества. В июле прошлого года компания SDL объединилась с разработчиком самой популярной программы переводческой памяти Trados. По мере обострения конкурентной борьбы меняется и идеология переводческой деятельности. Все чаще говорят не столько о переводе документации на язык страны назначения, сколько о локализации продукта на десятки языков. Став крупнейшим игроком на рынке средств локализации, компания SDL заговорила уже о стратегии управления глобальными данными (Global Information Management).

Впрочем, тема развития систем переводческой памяти и вообще средств автоматизации переводческого труда достойна не одной статьи в компьютерном журнале и привлечения участников разных сторон этого процесса. Меня же со своей колокольни интересует чисто практический вопрос: где место переводчика в процессе локализации? Начнем с того, что наше занятие еще долго будет оставаться очень трудоемким. В то же время перевод занимает в среднем лишь 40% общих расходов на локализацию, а остальное приходится на долю таких операций, как обработка файлов, форматирование, управление базами данных терминов и переводческой памяти, управление проектом, утверждение готового материала в стране целевого языка. Переводчику на этом конвейере обычно достается файл в формате программы переводческой памяти, где уже учтены предыдущие переводы по этому и подобным проектам и встроена терминологическая база. Некоторые особо продвинутые агентства разделяют работу до конца и не заставляют переводчика овладевать несвойственными ему навыками. В этом случае обработка документа в translation memory выполняется в агентстве, а переводчик получает в файлах Word сегментированный текст, не требующий форматирования и размеченный по степени совпадения с предыдущими переводами, а также глоссарий терминов по данному проекту. Результат работы переводчика снова вставляется в ту же программу для обновления баз данных переводческой памяти и терминологии. Таким образом, круг замыкается, и переводчик возвращается к идеальному варианту работы в текстовом редакторе, имея возможность целиком и полностью сосредоточиться на лингвистических задачах.

Так что я пока не вижу в компьютере серьезного конкурента живому переводчику. Не обойтись им без нас. К сожалению.

ТЕХНОЛОГИИ: Из света в тень

Автор: Максим Стеклов

Нечасто случается, что технология, призванная решить определенные проблемы, не только их не решает, но и усугубляет. Но именно это случилось с технологией изображений с расширенным динамическим диапазоном (HDRI). Изначально предназначенная для повышения реалистичности фотографий и 3D-изображений, HDRI неожиданно стала удобным инструментом для творческого самовыражения и интересной игрушкой для многих любителей фотографии. Фотографы с удовольствием экспериментируют с новой технологией, превращая банальные пейзажи в изображения, напоминающие скорее картины, чем фотоснимки.

А если переведенные в пространство RGB HDR-кадры меньше похожи на реальность, чем обычные карточки с заваленными тенями и пересвеченными лицами... Наверное, это проблемы реальности.

Дело о недостаточной точности

Журнал «Компьютерра» № 18 от 16 мая 2006 года - _638y16w1.jpg

Прежде чем перейти к рассказу о HDRI, необходимо вкратце рассказать, как записываются, хранятся и отображаются цифровые изображения сегодня. А также о том, как фиксирует изображение человеческий глаз.

В модели RGB любой цвет кодируется тройкой целых чисел, описывающих соответственно интенсивность зеленого, синего или красного каналов. Например, черный цвет может быть представлен как (0, 0, 0), а белый – находящийся на противоположном конце шкалы – как (255, 255, 255). Таким образом, для отображения любой картинки у нас есть 16,7 млн. оттенков, а сама картинка называется восьмибитной (или 24-битной), потому что на каждый канал нам требуется 8 бит, а каждая точка изображения кодируется с помощью трех 8-битных чисел. Динамический диапазон (здесь: отношение максимальной интенсивности цвета к минимальной) такой цветовой модели составляет 28:1, или 256:1.

Для 16-битных RGB-изображений (когда на каждый канал отводится уже не один байт, а два) теоретический динамический диапазон заметно больше и составляет 216:1, или 65536:1. Это впечатляет, если не вспоминать, что человеческое зрение способно улавливать освещение от 10-6 кд/кв. м до 108 кд/кв. м (), то есть имеет абсолютный диапазон 1014:1 (правда, человеческий глаз не может регистрировать свет во всем диапазоне одновременно; максимальный охват составляет от 10000 до 30000 к 1).