Я выполнил разбор зависимостей для предложения с использованием spacy и получил синтаксис c тегов зависимостей.
import spacy
nlp = spacy.load('en')
doc = nlp('Wall Street Journal just published an interesting piece on crypto currencies')
for token in doc:
print("{0}/{1} <--{2}-- {3}/{4}".format(
token.text, token.tag_, token.dep_, token.head.text, token.head.tag_))
Вывод
Стена / NNP <- соединение - Улица / NNP </p>
Улица / NNP <- соединение-- Журнал / NNP </p>
Журнал / NNP <- nsubj-- опубликовано / VBD </p>
просто / RB <- advmod-- опубликовано / VBD </p>
опубликовано / VBD <- ROOT - опубликовано / VBD </p>
an / DT <- det-- фрагмент / NN </p>
интересно / JJ <- амод - кусок / NN </p>
кусок / NN <- dobj-- опубликовано / VBD </p>
on / IN <- prep-- piece / NN </p>
crypto / JJ <- составные-- валюты / NNS </p>
валют / NNS <- pobj-- вкл / IN </p>
Я не не могу понять, как я могу использовать эту информацию для создания основанных на зависимостях функций для классификации текста . Каковы возможные способы создания из этого элементов для классификации текста?
Заранее спасибо ............