Фрагмент текста с помощью stanford-nlp - PullRequest
9 голосов
/ 28 ноября 2011

Я использую NLP Stanford Core и использую эту строку для загрузки некоторых модулей для обработки моего текста:

props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");

Это модуль, который я могу загрузить для фрагментов текста?

Или какое-нибудь предложение с альтернативным способом использовать ядро ​​Стэнфорда для разбиения текста на части?

Спасибо

Ответы [ 3 ]

5 голосов
/ 23 апреля 2013

Для использования чанкинга со Stanford NLP вы можете использовать следующие пакеты:

  • YamCha: NP-чанкер на основе SVM, также используемый для тегов POS, NER и т. Д. C / C ++ с открытым исходным кодом. Выиграл CoNLL 2000 с общим заданием. (Менее автоматический, чем специализированный POS-тегер для конечного пользователя.)
  • Фраза «Фраза существительного» Марка Гринвуда: переопределение Java для Рамшоу и Маркуса (1995).
  • fnTBL: быстрая и гибкая реализация трансформационного обучения в C ++. Включает в себя POS-тегер, а также модели NP-чанкинга и общего чанкинга.

Источник: http://www -nlp.stanford.edu / ссылки / statnlp.html # NPchunk

5 голосов
/ 13 ноября 2012

Я думаю, что вывод парсера может быть использован для получения фрагментов NP.Посмотрите на контекстное представление на веб-сайте Stanford Parser , в котором приведен пример вывода.

0 голосов
/ 12 мая 2019

Что вам нужно, так это вывод разбора группы в CoreNLP, который дает вам информацию о кусках, например, глагольные фразы (VP), существительные фразы (NPs) и т. Д. Насколько мне известно, хотяв CoreNLP нет способа выдать вам список фрагментов.Это означает, что вам нужно проанализировать фактический результат разбора избирателей, чтобы извлечь куски.

Например, это вывод парсера интересов CoreNLP для примера предложения:

(ROOT (S ("" "") (NP (NNP Anarchism)) (VP (VBZ is) (NP (NP (DT a) (JJ political) (NN philosophy)) (SBAR (WHNP (WDT that)) (S (VP (VBZ advocates) (NP (NP (JJ self-governed) (NNS societies)) (VP (VBN based) (PP (IN on) (NP (JJ voluntary) (, ,) (JJ cooperative) (NNS institutions))))))))) (, ,) (S (VP (VBG rejecting) (NP (JJ unjust) (NN hierarchy))))) (. .)))

Как видите, в строке есть теги NP и VP, теперь вам нужнопойти и извлечь фактический текст кусков, анализируя эту строку.Дайте мне знать, если вы можете найти метод, который дает вам список кусков?!

...