Какой из этих проектов мне выбрать для летнего семинара по НЛП? - PullRequest
2 голосов
/ 23 марта 2011

Я планирую посетить продвинутый летний семинар в Индии по обработке естественного языка. Перед началом семинара я должен сделать проект предпочтительным из следующих четырех областей, о которых у меня ограниченные знания.

Машинный перевод Разработка англо-индийского языкового перевода система.

Парсинг Создание синтаксического анализатора индийского языка (IL).

Морфологический анализ Разработка и тестирование морфологических анализаторов для Индийские языки.

Речь Системы разговорного общения, Обнаружение эмоций / просодии, Синтез и преобразование

Я прошел курс по искусственному интеллекту, где был представлен НЛП, и основные подтемы, такие как POS-теги (обучение на основе преобразования), предсказание слов с использованием N-грамм, скрытые марковские модели, алгоритм Витерби, синтаксический анализ естественного языка, Была рассмотрена грамматика без контекста, алгоритм CKY .

Я понимаю, что это немного расплывчатый вопрос, и выбор будет зависеть в первую очередь от моих интересов, но я был бы признателен за рекомендации о том, какая область будет лучше с точки зрения масштабов исследований, практического применения, возможностей в отрасли и т. Д.

РЕДАКТИРОВАТЬ: Применение навыков / опыта, приобретенных во время работы над проектом, за пределами НЛП также будет фактором в решении.

Ответы [ 4 ]

4 голосов
/ 24 марта 2011

Я бы пошел на морфологический анализатор.Морфологические анализаторы являются обязательным условием для создания любого НЛП на языке с интересной структурой слов, и существует множество языков, где почти не было сделано никакой работы.Создание хорошего морфологического анализатора для языка, который вы хорошо знаете, - это разумный летний проект, поэтому вы, вероятно, можете выйти из мастерской, создав работающее, полезное программное обеспечение, которое другие люди оценят по достоинству.

ДругойВ наши дни области являются более актуальными темами, и они могут выглядеть лучше в вашем резюме, но они также гораздо более открытые и намного труднее для относительного новичка внести какой-либо реальный вклад.

2 голосов
/ 01 апреля 2011

Давайте сначала сгруппируем четыре варианта как первые три в одной категории-NL-Text и еще одну четвертую в другой-NL-Speech, поскольку набор навыков и склонность, необходимые для их реализации, немного отличаются.Поэтому сначала воспользуйтесь критериями: нравится ли вам работать в первой или второй группе?Как только вы закончите с этим и выберете Речь.вы сделали.Но если вы находитесь на другой стороне, теперь есть две категории MT и оставшиеся MA и IL Parsing.При создании MT основное внимание будет уделено использованию готовых компонентов и адаптации их к вашей языковой паре.Если вы должны делать это статистически, это немного больше на стороне данных, и вы не получаете много, я имею в виду, что вы учитесь / работаете так же, как и в других двух.многому научусь.Создание синтаксического анализатора IL является хорошим вариантом и может быть полезно для будущей задачи, когда в IL будет много данных, а индустрия обработки текста будет процветать.Итак, учитывая будущие возможности в отрасли, рассмотрим мой +1.Тот же случай с морфологическим анализом.

0 голосов
/ 02 апреля 2011

Прежде всего, я не знаю индийского.В соответствии с подтемами вы узнали, что разбор будет лучшим выбором.Однако для многих языков синтаксический анализ сильно зависит от морфологического анализа.И в отличие от английского многие языки имеют сложную морфологию.Кроме того, ни написание синтаксического анализатора, ни написание морфологического анализатора с нуля невозможно за три месяца для многих языков.

Так что, если индийская морфология не сложна, обратитесь к анализатору.Это базовый уровень НЛП, и вы многому научитесь.Если это довольно сложно и имеется достаточное количество анализаторов, которые вы можете использовать с вашим проектом парсинга, перейдите к парсеру.

Наконец, либо вы выбираете парсер или анализатор, уменьшаете свою цель или проект и завершаете его вовремя.Например, вместо того, чтобы пытаться написать полный анализатор, попробуйте написать тот, который работает только для инфлекционных суффиксов.

Кстати, как насчет стеммера?

0 голосов
/ 23 марта 2011

Лично я считаю, что все они очень актуальны и актуальны, и это сводится к вашим личным интересам.Я лично пошел бы на Речь, поскольку это, кажется, самое широкое из четырех (относительно бесконечное пространство для усовершенствования), таким образом, область исследования очень интересна.Если вы предпочитаете стремиться к чему-то более конкретному, лучше всего разбираться в парсинге и машинном переводе.

Удачи независимо от того, что вы выбираете, это похоже на удивительную возможность и серьезную проблему.

...