Question

Я планирую посетить продвинутый летний семинар в Индии по обработке естественного языка. Перед началом семинара я должен сделать проект предпочтительным из следующих четырех областей, о которых у меня ограниченные знания.

Машинный перевод Разработка англо-индийского языкового перевода система.

Парсинг Создание синтаксического анализатора индийского языка (IL).

Морфологический анализ Разработка и тестирование морфологических анализаторов для Индийские языки.

Речь Системы разговорного общения, Обнаружение эмоций / просодии, Синтез и преобразование

Я прошел курс по искусственному интеллекту, где был представлен НЛП, и основные подтемы, такие как POS-теги (обучение на основе преобразования), предсказание слов с использованием N-грамм, скрытые марковские модели, алгоритм Витерби, синтаксический анализ естественного языка, Была рассмотрена грамматика без контекста, алгоритм CKY .

Я понимаю, что это немного расплывчатый вопрос, и выбор будет зависеть в первую очередь от моих интересов, но я был бы признателен за рекомендации о том, какая область будет лучше с точки зрения масштабов исследований, практического применения, возможностей в отрасли и т. Д.

РЕДАКТИРОВАТЬ: Применение навыков / опыта, приобретенных во время работы над проектом, за пределами НЛП также будет фактором в решении.

rmalouf · Answer 1 · 24 марта 2011

Я бы пошел на морфологический анализатор.Морфологические анализаторы являются обязательным условием для создания любого НЛП на языке с интересной структурой слов, и существует множество языков, где почти не было сделано никакой работы.Создание хорошего морфологического анализатора для языка, который вы хорошо знаете, - это разумный летний проект, поэтому вы, вероятно, можете выйти из мастерской, создав работающее, полезное программное обеспечение, которое другие люди оценят по достоинству.

ДругойВ наши дни области являются более актуальными темами, и они могут выглядеть лучше в вашем резюме, но они также гораздо более открытые и намного труднее для относительного новичка внести какой-либо реальный вклад.

Prakash Pimpale · Answer 2 · 01 апреля 2011

Давайте сначала сгруппируем четыре варианта как первые три в одной категории-NL-Text и еще одну четвертую в другой-NL-Speech, поскольку набор навыков и склонность, необходимые для их реализации, немного отличаются.Поэтому сначала воспользуйтесь критериями: нравится ли вам работать в первой или второй группе?Как только вы закончите с этим и выберете Речь.вы сделали.Но если вы находитесь на другой стороне, теперь есть две категории MT и оставшиеся MA и IL Parsing.При создании MT основное внимание будет уделено использованию готовых компонентов и адаптации их к вашей языковой паре.Если вы должны делать это статистически, это немного больше на стороне данных, и вы не получаете много, я имею в виду, что вы учитесь / работаете так же, как и в других двух.многому научусь.Создание синтаксического анализатора IL является хорошим вариантом и может быть полезно для будущей задачи, когда в IL будет много данных, а индустрия обработки текста будет процветать.Итак, учитывая будущие возможности в отрасли, рассмотрим мой +1.Тот же случай с морфологическим анализом.

hrzafer · Answer 3 · 02 апреля 2011

Прежде всего, я не знаю индийского.В соответствии с подтемами вы узнали, что разбор будет лучшим выбором.Однако для многих языков синтаксический анализ сильно зависит от морфологического анализа.И в отличие от английского многие языки имеют сложную морфологию.Кроме того, ни написание синтаксического анализатора, ни написание морфологического анализатора с нуля невозможно за три месяца для многих языков.

Так что, если индийская морфология не сложна, обратитесь к анализатору.Это базовый уровень НЛП, и вы многому научитесь.Если это довольно сложно и имеется достаточное количество анализаторов, которые вы можете использовать с вашим проектом парсинга, перейдите к парсеру.

Наконец, либо вы выбираете парсер или анализатор, уменьшаете свою цель или проект и завершаете его вовремя.Например, вместо того, чтобы пытаться написать полный анализатор, попробуйте написать тот, который работает только для инфлекционных суффиксов.

Кстати, как насчет стеммера?

Anthony Vallée-Dubois · Answer 4 · 23 марта 2011

Лично я считаю, что все они очень актуальны и актуальны, и это сводится к вашим личным интересам.Я лично пошел бы на Речь, поскольку это, кажется, самое широкое из четырех (относительно бесконечное пространство для усовершенствования), таким образом, область исследования очень интересна.Если вы предпочитаете стремиться к чему-то более конкретному, лучше всего разбираться в парсинге и машинном переводе.

Удачи независимо от того, что вы выбираете, это похоже на удивительную возможность и серьезную проблему.

Какой из этих проектов мне выбрать для летнего семинара по НЛП?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой из этих проектов мне выбрать для летнего семинара по НЛП?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы