Способ извлечения фрагментов из CoreNLP заключается в использовании вывода constituency parser
. Насколько я знаю, в CoreNLP нет метода, который мог бы напрямую предоставить вам список чанков, однако вы можете анализировать выходные данные синтаксического анализатора группы участников, фактическую строку и составлять список чанков в зависимости от ваших потребностей. Например, для входного предложения типа "I bought the book because I read good reviews about it.
" вывод вашего метода будет выглядеть примерно так:
<class 'list'>:
[['NP', 'I'],
['NP', 'the book'],
['NP', 'I'],
['NP', 'good reviews'],
['NP', 'it'],
['SBAR', 'because I read good reviews about it'],
['VP', 'bought the book because I read good reviews about it'],
['VP', 'read good reviews about it']]
Вывод выше получен из метода, который я сам написал, я перечислил здесь только NP, VP и SBAR, но пока не опубликовал метод, так как мне нужно дополнительно протестировать и отладить его.
И, если вам нужны только существительные фразы, вы также можете взглянуть на Spacy и решение здесь , которое довольно быстрое. Все, что я упомянул, в основном касается вашего первого вопроса и частично вашего второго вопроса, и я не знаю, применимы ли эти решения также к датскому языку или нет.