Как я могу начать строить wordnet для турецкого языка для использования в анализе настроений - PullRequest
7 голосов
/ 27 декабря 2011

Несмотря на то, что у меня есть опыт работы с EE, у меня не было возможности посещать занятия по обработке естественного языка.

Я бы хотел создать инструмент для анализа настроений для турецкого языка. Я думаю, что лучше создать турецкую базу данных wordnet, чем переводить текст на английский и анализировать его с помощью глючного переведенного текста с помощью предоставленных инструментов. ( это? )

Так что вы, ребята, рекомендуете мне делать? В первую очередь брать уроки НЛП с сайта открытого класса? Я действительно не знаю, с чего начать. Не могли бы вы помочь мне и, возможно, предоставить мне пошаговое руководство? Я знаю, что это академический проект, но мне интересно развивать навыки в качестве хобби в этой области.

Заранее спасибо.

1 Ответ

4 голосов
/ 06 ноября 2013

Вот процесс, который я использовал ранее (создание семантических сетей на японском, китайском, немецком и арабском языках):

  1. Соберите как минимум два английских / турецких словаря. Они должны быть независимыми, а не производными друг от друга. Вы можете использовать Википедию для автоматического создания одного из ваших словарей. Если вам нужно опубликовать свою сеть, вам могут потребоваться словари с открытым исходным кодом, лицензионные сборы или юрист.
  2. Используйте эти словари для перевода английского Wordnet, получая оценку достоверности для каждого набора.
  3. Держите тех, кто с большой уверенностью, одобряя или исправляя вручную тех, у кого средняя или низкая достоверность.
  4. Завершить вручную

Я подробно остановился на этом в разделе «Автоматический перевод WordNet» моей статьи 2008 года: http://dcook.org/mlsn/about/papers/nlp2008.MLSN_A_Multilingual_Semantic_Network.pdf

(Для вашей заявленной цели турецкого словаря чувств есть и другие подходы, не связанные с семантической сетью. Например, «Семантический анализ и анализ мнений» Бинга Лю - хороший обзор исследований. Но семантический Сетевой подход, IMHO, всегда даст лучшие результаты в долгосрочной перспективе, и имеет много других применений.)

...