Новое в НЛП, вопрос об аннотации - PullRequest
2 голосов
/ 30 ноября 2010

Я новичок в НЛП и ищу отправную точку, с точки зрения некоторых учебников, документации или примеров кода.Мне сказали исследовать возможности обработки естественного текста, чтобы извлечь из него некоторые структурированные данные.Например, я хочу извлечь (аннотировать) рост и вес из следующих утверждений.«Он 6 футов ростом и весит 200 фунтов» или «Его рост 6 футов, а вес 200» и т. Д. Я заглянул в UIMA, но он словно словарь REGEX, созданный самим собой и не имеющий тренировочных возможностей.Итак, в двух словах, какую среду Java я могу использовать для создания механизма аннотирования, который также может быть обучен!Любая помощь (указатели) по этому вопросу будет принята с благодарностью.Спасибо

Ответы [ 3 ]

5 голосов
/ 30 ноября 2010

Поскольку вы запрашивали указатели: LingPipe (уже упоминалось выше), OpenNLP и Stanford NLP-дистрибутивы .

Примечание: еслиPython является опцией, вы можете использовать Natural Language Toolkit .

3 голосов
/ 30 ноября 2010

Если вы действительно хотите использовать машинное обучение для обучения своего аннотатора, то GATE , вероятно, является лучшим выбором.Взгляните на главу о машинном обучении в их руководстве.

0 голосов
/ 30 августа 2017

Я бы использовал NER. Вот вывод, который я вижу для вашего ввода текста: * *enter image description here 1004

Вы можете попробовать это здесь: http://deagol.cs.illinois.edu:8080

...