Какое хорошее объяснение статистического машинного перевода? - PullRequest
11 голосов
/ 28 апреля 2011

Я пытаюсь найти хорошее объяснение того, как работает статистический машинный перевод.То есть, если у меня есть набор неприсоединившихся текстов на английском, французском и немецком языках, как я могу использовать это для перевода любого предложения с одного языка на другой?Не то чтобы я сам собирался создать Google Translate, но я хотел бы понять, как это работает более подробно.

Я видел, что искал в Google, но ничего хорошего не нашел, он либо быстро нуждается в углубленных знаниях по математике, либо слишком обобщен.Статья Википедии о SMT, кажется, и то, и другое, так что это не очень помогает.Я скептически отношусь к тому, что это такая сложная область, которую просто невозможно понять без всей математики.

Может кто-нибудь дать или узнать общее пошаговое объяснение того, как такая системаработает, нацелена на программистов (так что примеры кода в порядке), но без математической степени, чтобы понять?Или книга, подобная этой, тоже была бы великолепна.

Редактировать : прекрасным примером того, что я ищу, был бы SMT, эквивалентный Отличная статья Питера Норвига по орфографиикоррекция .Это дает хорошее представление о том, что входит в написание проверки орфографии, не вдаваясь в подробные сведения о алгоритмах Левенштейна / Соундекса / сглаживания и т. Д. ...

Ответы [ 3 ]

3 голосов
/ 23 июня 2011

Вот хорошая видео лекция (в 2 частях):

http://videolectures.net/aerfaiss08_koehn_pbfs/

Для получения более подробной информации я настоятельно рекомендую эту книгу:

http://www.amazon.com/Statistical-Machine-Translation-Philipp-Koehn/dp/0521874157

Оба от парня, который создал наиболее широко используемую систему МТ в исследованиях. Он охватывает все основные вещи, очень хорошо объяснен и точен. Вероятно, это одна из стандартных фактических книг, которую должен прочитать любой исследователь, начинающий в этой области.

3 голосов
/ 04 августа 2011

У Atlantic Online было очень простое нетехническое описание статистического машинного перевода еще в декабре 1998 года:

Потерянный в переводе Стивена Будянского

Я уже читал нетехнические материалы по статистическому МП, но всегда задавался вопросом: «Да, но как знает статистический материал, какие слова отображаются, когда изменяются порядки слов и, предположительно, нет словаря и нетграмматика используется?Ну, эта статья действительно отвечает на это, и это просто и понятно, и я был довольно удивлен.

0 голосов
/ 29 апреля 2011

Доклад Питера Норвига из Google Developer Day 2007, Теоретизация на основе данных: предотвращение ошибок капитала , содержит некоторые доступные объяснения высокого уровня принципов статического машинного перевода (начиная примерно с 21:20).

...