Как применить ко-вхождение слова из spacy.tokens.doc.Doc, который содержит данные распознавания сущности? - PullRequest
0 голосов
/ 12 мая 2019

Я создал таблицу панд, содержащую статьи, и применил модель распознавания пространственных сущностей для извлечения сущностей. Теперь я хотел бы использовать эти признанные объекты для измерения совпадения слова. Проблема заключается в том, что сущности сохраняются в столбце кадра данных pandas, который содержит данные типа: spacy.tokens.doc.Doc, и я не знаю, как преобразовать эти данные в матрицу совместного использования.

Спасибо за помощь!

import spacy
import pandas as pd

nlp = spacy.load("es_core_news_sm")

data1['nlp'] = data1.TEXTO.apply(lambda x: nlp(x))

for article in data1['nlp']:
   items = [x.text for x in article.ents]
   print(Counter(items).most_common(3))

Прямо сейчас я получаю списки 3 самых распространенных сущностей в каждой статье, но я хотел бы применить совпадение слов к результатам, и я не знаю, как получить из spacy.tokens.doc.Doc матрица.

...