Можно ли извлекать общие сущности, используя Lingpipe, кроме People, Org и Loc? - PullRequest
1 голос
/ 24 сентября 2011

Я прочитал Lingpipe для NLP и обнаружил, что у нас есть возможность идентифицировать упоминания имен людей, мест и организаций. Мои вопросы таковы: если у меня есть обучающий набор документов, в котором упоминаются, скажем, программные проекты внутри текста, могу ли я использовать этот обучающий набор для обучения распознавателя именованных сущностей? После того как обучение будет завершено, я смогу передать тестовый набор текстовых документов в обученную модель, и я смогу определить упоминания о программных проектах там.

Возможно ли использование этого общего NER с помощью NER? Если да, то какие функции я должен использовать, чтобы использовать?

Спасибо Абхишек С

Ответы [ 2 ]

1 голос
/ 25 сентября 2011

При условии, что у вас достаточно обучающих данных с помеченными проектами программного обеспечения, которые были бы возможны.

Если вы используете Lingpipe, я бы использовал модель n-грамм символов в качестве первого варианта для вашей задачи. Они просты и обычно делают работу. Если результаты недостаточно хороши, некоторые из стандартных функций NER:

  • лексема
  • часть речи (POS)
  • капитализация
  • punctuaction
  • символьные подписи: вот некоторые идеи: (LUCENE -> AAAAAA -> A), (Lucene -> Aaaaaa -> Aa), (Lucene-core -> Aaaaa-aaaa -> Aa-a)
  • также может быть полезно составить gazzeteer (список программных проектов), если вы можете получить его из Википедии, sourceforge или любого другого внутреннего ресурса.

Наконец, для каждого токена вы можете добавить контекстные функции, токены перед текущим (t-1, t-2 ...), токены после текущего (t + 1, t + 2 ...) в виде а также их биграмные комбинации (t-2 ^ t-1), (t + 1 ^ t + 2).

0 голосов
/ 26 сентября 2011

Конечно можно. Просто получите данные поезда со всеми нужными вам категориями и следуйте инструкциям http://alias -i.com / lingpipe / demos / tutorial / ne / read-me.html . Никакой настройки функций не требуется, поскольку в lingpipe используется только жестко закодированный (формы, слова последовательности и нграммы)

...