Я сам изучал Python (и программировал) меньше недели и поэтому прошу прощения, если я непреднамеренно расплывчат.
Моя цель - использовать spacy для извлечения именованных сущностей, существительных кусков, глаголы и прилагательные от CSV.Я понимаю, что для простоты, чтобы сделать свое дело, импорт / экспорт будет в формате фрейма данных.Благодаря полезным ресурсам в Интернете, я до сих пор получил следующий код:
import spacy
nlp=spacy.load('en')
import pandas as pd
import xlsxwriter
#imported all the modules
emails=pd.read_csv('wassup.csv')
#defined the file
def explain_text_entities(text):
doc = nlp(text)
for ent in doc.ents:
print(f'Entity: {ent}, Label: {ent.label_},{spacy.explain(ent.label_)}')
#defined a named entity program
explain_text_entities(emails['text'][5])
#tested and this works to return me a sample analysis for the CSV file.
Для контекста, столбец A в файле CSV имеет заголовок в строке 1 («ранг»), а столбец B -заголовок ("текст") в строке 1. Включая заголовки, есть 338 строк.
Я понимаю, что приведенный выше код применяется только для идентификации именованных объектов в файле CSV.Но есть ли идеи, как действовать дальше, чтобы добавить больше функций и экспортировать этот анализ в CSV?Спейси продолжает говорить, что ожидает строку, но я дал ей датафрейм.Есть ли у вас какие-либо полезные ресурсы или какие-либо идеи о том, как структурировать мой код?
Еще раз спасибо!
Колтаин