For faster navigation, this Iframe is preloading the Wikiwand page for Гибридный машинный перевод.

Гибридный машинный перевод

Материал из Википедии — свободной энциклопедии

Гибридный машинный перевод (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП:[1]

Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.[1] Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).[2]

Разработчики software Hybrid MT

[править | править код]
  • AppTek HMT[3] «TranSphere®» — полная интеграция SMT и RBMT методологий.
  • Asia Online[4] «SAIC’s OmnifluentTM Human Language Technology».
  • LinguaSys[5] «Carabao Machine Translation engine».
  • Systran[6][7] «SYSTRAN’s hybrid engine»
  • Polytechnic University of Valencia[8]
  • PROMT[2] «PROMT DeepHybrid»[9]

Многоуровненвый

[править | править код]

Этот подход к гибридному машинному переводу предполагает параллельное выполнение нескольких систем машинного перевода. Окончательный результат получается путем объединения результатов всех подсистем. Чаще всего в этих системах используются подсистемы статистического и основанного на правилах перевода, но были изучены и другие комбинации. Например, исследователи из Университета Карнеги-Меллона добились определенного успеха, объединив подсистемы перевода на основе примеров , передачи , знаний и статистического перевода в одну систему машинного перевода.

Статистическая генерация правил

[править | править код]

Этот подход включает использование статистических данных для создания лексических и синтаксических правил. Затем ввод обрабатывается с использованием этих правил, как если бы это был переводчик на основе правил . Этот подход пытается избежать сложной и отнимающей много времени задачи создания набора всеобъемлющих, детализированных лингвистических правил путем извлечения этих правил из учебного корпуса. Этот подход по-прежнему страдает от многих проблем нормального статистического машинного перевода , а именно от того, что точность перевода будет сильно зависеть от сходства входного текста с текстом обучающего корпуса. В результате этот метод имел наибольший успех в приложениях, ориентированных на конкретную предметную область, и имеет те же трудности с адаптацией предметной области, что и многие системы статистического машинного перевода.

Многопроходный

[править | править код]

Этот подход предполагает последовательную обработку ввода несколько раз. Наиболее распространенный метод, используемый в системах многопроходного машинного перевода, - это предварительная обработка ввода с помощью системы машинного перевода на основе правил . Выходные данные основанного на правилах препроцессора передаются в систему статистического машинного перевода , которая производит окончательный результат. Этот метод используется для ограничения объема информации, которую необходимо учитывать статистической системе, что значительно снижает требуемую вычислительную мощность. Это также устраняет необходимость в системе, основанной на правилах, быть полной системой перевода для языка, что значительно снижает количество человеческих усилий и труда, необходимых для создания системы.

На основе уверенности

[править | править код]

Этот подход отличается от других гибридных подходов тем, что в большинстве случаев используется только одна технология перевода. Для каждого переведенного предложения создается показатель достоверности, на основе которого можно принять решение, попробовать ли вторичную технологию перевода или продолжить работу с исходным переводом. Omniscien Technologies - одна из компаний, использующих этот подход, при этом NMT является основной технологией, но возвращается к SMT, если показатель достоверности ниже порогового значения или длина предложения очень короткая (например, 1 или 2 слова). SMT также используется, когда общие шаблоны ошибок, такие как несколько повторяющихся слов, появляются последовательно, как это часто бывает с NMT, когда механизм внимания сбит с толку.

Гибридная технология «SMT и RBMT»

[править | править код]

Гибридная технология перевода предполагает использование статистических методов для построения словарных баз автоматическим путём на основе параллельных корпусов, формирования нескольких возможных переводов как на лексическом уровне, так и на уровне синтаксической структуры предложения выходного языка, применения постредактирования в автоматическом режиме и выбор лучшего (наиболее вероятного) перевода из возможных на основе языковой модели, построенной по определенному корпусу выходного языка.[2]

Hybrid (SMT + RBMT) System различаются: (п.2.4.3[4])

  • Rule-based MT с пост-обработкой статистического подхода.
  • Statistical MT с предварительной обработкой по Rule-based подходу.
  • Полная интеграция RBMT и SMT.[3]

Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы.[2] Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько[сколько?] улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.[10]

Объединение RBMT и статистического машинного перевода:

  • Лингвистический анализ входного предложения;
  • Порождение вариантов перевода;
  • Использование статистических технологий;
  • Оценка и выбор лучшего варианта перевода с использованием Языковой модели.[11][12][13]

Этапы Гибридной технологии SMT и RBMT:[2]

  • Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
  • Эксплуатация на основе натренированной системы.

Архитектура Гибридной технологии «SMT и RBMT»

[править | править код]

В гибридном машинном переводе RBMT-система дополнена двумя компонентами[14]: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой.

Типичная архитектура HMT:[14]

  • Параллельный корпус;
  • Обучение;
  • Языковая модель;
  • Данные для постредактирования;
  • Правила синтеза;
  • Словарь терминологии.
  • Эксплуатация:
    •  — Гибридный перевод.

Принцип работы HMT

[править | править код]

Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода Машинный перевод на основе правил (Rule-Based MT) и Статистический машинный перевод (Statistical MT) можно реализовать в гибридной технологии перевода.[15] Кардинальное отличие нового решения состоит в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов.

Алгоритм работы типичной HMT:[2]

  • Создание терминологического словаря из параллельных текстов для RBMT автоматическим путём.
  • Порождение всех возможных вариантов перевода на основе:
    •  — лексических вариантов;
    •  — вариантов синтеза разных конструкций;
    •  — применения постредактирования.
  • Выбор лучшего варианта, через реализованную Языковую модель.

Преимущества и недостатки

[править | править код]

Что даёт гибридная технология перевода?

  • Быструю автоматическую настройку на основе Translation Memories заказчика;
  • Терминологическую точность перевода, а также единство стиля;
  • Получение дополнительных полезных данных — двуязычного терминологического словаря.

Преимущества и недостатки Машинного перевода на основе правил

[править | править код]

Преимущества RBMT:[16]

Сохраняются:

  •  — синтаксическая и морфологическая точность;
  •  — стабильность и предсказуемость результата;
  •  — возможность настройки на предметную область.

Недостатки RBMT:

  •  — трудоемкость и длительность разработки;
  •  — необходимость поддерживать и актуализировать лингвистические БД;
  •  — «машинный акцент» при переводе.

Недостатки нивелируются за счет использования параллельных корпусов и статистических методов.

  •  — автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии),
  •  — исчезает «машинный» акцент при переводе (варианты синтеза и постредактирование).

Преимущества и недостатки Статистических систем перевода

[править | править код]

Преимущества SMT:[17]

  •  — быстрая настройка;
  •  — легко добавлять новые направления перевода;
  •  — гладкость перевода.

Недостатки SMT:

  •  — «Дефицит» параллельных корпусов;
  •  — многочисленные грамматические ошибки;
  •  — нестабильность перевода.

Примечания

[править | править код]
  1. 1 2 Архивированная копия. Дата обращения: 27 марта 2013. Архивировано 13 марта 2016 года.
  2. 1 2 3 4 5 6 Гибридная технология перевода.-Ю.Епифанцева,ООО<ПРОМТ>,Конференция "Рос.интернет-технологии",2011. Архивировано 8 апреля 2013 года.
  3. 1 2 Request Rejected. Дата обращения: 29 марта 2013. Архивировано 4 марта 2016 года.
  4. 1 2 http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf (недоступная ссылка)
  5. Архивированная копия. Дата обращения: 29 марта 2013. Архивировано из оригинала 4 марта 2016 года.
  6. SYSTRAN's machine translation technology. Дата обращения: 1 апреля 2013. Архивировано 8 апреля 2013 года.
  7. SYSTRAN Hybrid Technology. Дата обращения: 1 апреля 2013. Архивировано 8 апреля 2013 года.
  8. http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf (недоступная ссылка)
  9. Архивированная копия. Дата обращения: 29 марта 2013. Архивировано 12 мая 2015 года.
  10. Архивированная копия. Дата обращения: 17 апреля 2013. Архивировано из оригинала 19 апреля 2014 года.
  11. Архивированная копия. Дата обращения: 1 апреля 2013. Архивировано 4 марта 2016 года.
  12. Архивированная копия. Дата обращения: 1 апреля 2013. Архивировано 5 марта 2016 года.
  13. Об автоматной аппроксимации реальных языков - скачать бесплатно автореферат на тему Дискретная математика и математическая кибернетика. Заказать доставку диссертации по матема … Дата обращения: 4 апреля 2013. Архивировано 8 апреля 2013 года.
  14. 1 2 Зачем нужна гибридная технология перевода.-А.Молчанов,ООО«ПРОМТ»,Конференция "AINL",2013. Архивировано 8 апреля 2013 года.
  15. Компания PROMT - переводчики и словари для перевода текста с английского, русского, немецкого, французского, испанского, португальского и итальянского языков. Дата обращения: 23 марта 2013. Архивировано из оригинала 8 апреля 2013 года.
  16. Архивированная копия. Дата обращения: 27 марта 2013. Архивировано из оригинала 9 ноября 2012 года.
  17. Зачем нужна гибридная технология перевода.-А.Молчанов,ООО<ПРОМТ>,Конференция "AINL",2013. Архивировано 8 апреля 2013 года.
{{bottomLinkPreText}} {{bottomLinkText}}
Гибридный машинный перевод
Listen to this article

This browser is not supported by Wikiwand :(
Wikiwand requires a browser with modern capabilities in order to provide you with the best reading experience.
Please download and use one of the following browsers:

This article was just edited, click to reload
This article has been deleted on Wikipedia (Why?)

Back to homepage

Please click Add in the dialog above
Please click Allow in the top-left corner,
then click Install Now in the dialog
Please click Open in the download dialog,
then click Install
Please click the "Downloads" icon in the Safari toolbar, open the first download in the list,
then click Install
{{::$root.activation.text}}

Install Wikiwand

Install on Chrome Install on Firefox
Don't forget to rate us

Tell your friends about Wikiwand!

Gmail Facebook Twitter Link

Enjoying Wikiwand?

Tell your friends and spread the love:
Share on Gmail Share on Facebook Share on Twitter Share on Buffer

Our magic isn't perfect

You can help our automatic cover photo selection by reporting an unsuitable photo.

This photo is visually disturbing This photo is not a good choice

Thank you for helping!


Your input will affect cover photo selection, along with input from other users.

X

Get ready for Wikiwand 2.0 🎉! the new version arrives on September 1st! Don't want to wait?