Идея проекта «Компьютерная лингвистика» с использованием Hadoop MapReduce - PullRequest
3 голосов
/ 01 марта 2010

Мне нужно сделать проект по курсу компьютерной лингвистики. Есть ли какая-нибудь интересная «лингвистическая» проблема, которая достаточно интенсивна для работы с данными, чтобы уменьшить использование карты Hadoop. Решение или алгоритм должны попытаться проанализировать и дать некоторое представление о «лингвистической» области. однако это должно быть применимо к большим наборам данных, чтобы я мог использовать hadoop для него. Я знаю, что есть набор инструментов для обработки естественного языка python для hadoop.

Ответы [ 4 ]

3 голосов
/ 29 октября 2010

Одной из проблем, требующих большого объема вычислений в CL, является вывод семантики из больших корпусов. Основная идея состоит в том, чтобы взять большую коллекцию текста и вывести семантические отношения между словами (синонимы, антонимы, гипонимы, гипернимы и т. Д.) Из их распределений, то есть с какими словами они встречаются или близки к ним.

Это включает в себя большую часть предварительной обработки данных, а затем может включать в себя множество поисков ближайших соседей и N x N сравнений, которые хорошо подходят для распараллеливания в стиле MapReduce.

Посмотрите этот урок:

http://wordspace.collocations.de/doku.php/course:acl2010:start

3 голосов
/ 01 марта 2010

Если у вас есть большие корпуса на некоторых «необычных» языках (в смысле «тех, для которых было выполнено ограниченное количество компьютерной лингвистики»), повторение некоторых существующих работ по компьютерной лингвистике, уже выполненных для очень популярных языков (таких как английский) , Китайский, арабский, ...) - это совершенно подходящий проект (особенно в академической среде, но он может быть вполне подходящим и для промышленности - назад, когда я занимался компьютерной лингвистикой в ​​IBM Research, я получил интересную оценку от объединения корпус для итальянского языка и повторение [[в относительно новом IBM Scientific Center в Риме]] очень похожую работу на то, что уже проделал исследовательский коллектив IBM в Йорктаун-Хайтс [[из которого я принимал участие]] для английского языка.

Тяжелая работа, как правило, заключается в поиске / подготовке таких корпусов (в то время это была определенно самая большая часть моей работы, несмотря на искреннюю помощь IBM в Италии, которая позволила мне связаться с издательскими фирмами, которые владели соответствующими данными).

Итак, вопрос вырисовывается масштабно, и только вы можете ответить на него: к каким корпусам у вас есть доступ, или вы можете получить доступ (и очистить и т. Д.), Особенно на «необычных» языках? Если все, что вы можете сделать, это, например, английский, используя уже популярные корпорации, то шансы сделать работу, которая является новой и интересной, конечно, сложнее, хотя, конечно, могут быть некоторые.

Кстати, я полагаю, вы серьезно думаете об обработке «письменного» текста, верно? Если бы у вас был корпус из разговорного материала (в идеале с хорошими стенограммами), возможности были бы безграничны (было гораздо меньше работы по обработке разговорного текста, например, для параметризации вариантов произношения с помощью разные носители одного и того же письменного текста - действительно, такие вопросы часто даже не упоминаются на курсах бакалавриата CL!).

2 голосов
/ 01 марта 2010

Загрузите 300 миллионов слов из статей 60K OA, опубликованных BioMed Central. Попробуйте обнаружить пропозициональные установки и связанные с ними сентиментальные конструкции. Дело в том, что биомедицинская литература полна хеджирования и связанных с ней конструкций из-за трудности делать плоские декларативные заявления о живом мире и его созданиях - их форме и функциях, генетике и биохимии.

Мои чувства к Hadoop - это то, что это инструмент для размышления, но для размышления после того, как вы выполнили важные задачи по постановке целей. Ваши цели, стратегии и данные должны диктовать, как вы будете действовать в вычислительном отношении. Остерегайтесь молотка в поисках гвоздя подход к исследованию.

Это часть того, над чем моя лаборатория усердно работает.

  • Боб Футрель

    BioNLP.org

    Северо-Восточный университет

1 голос
/ 01 марта 2010

Как вы упомянули, есть набор инструментов Python NLTK, который можно использовать с dumbo для использования Hadoop.

PyCon 2010 хорошо поговорил только на эту тему. Вы можете получить доступ к слайдам из выступления, используя ссылку ниже.

...