Я создал таблицу панд, содержащую статьи, и применил модель распознавания пространственных сущностей для извлечения сущностей. Теперь я хотел бы использовать эти признанные объекты для измерения совпадения слова.
Проблема заключается в том, что сущности сохраняются в столбце кадра данных pandas, который содержит данные типа: spacy.tokens.doc.Doc, и я не знаю, как преобразовать эти данные в матрицу совместного использования.
Спасибо за помощь!
import spacy
import pandas as pd
nlp = spacy.load("es_core_news_sm")
data1['nlp'] = data1.TEXTO.apply(lambda x: nlp(x))
for article in data1['nlp']:
items = [x.text for x in article.ents]
print(Counter(items).most_common(3))
Прямо сейчас я получаю списки 3 самых распространенных сущностей в каждой статье, но я хотел бы применить совпадение слов к результатам, и я не знаю, как получить из spacy.tokens.doc.Doc матрица.