Я прочитал файл pdf, используя PDFMiner
, и извлек из него текст для NLP analysis
. Поскольку я буду иметь дело с исследовательскими статьями, я сделал легкую очистку текстов, преобразовав абзацы текстов в список токенов предложений. Моя цель - выбрать предложения, содержащие интекстные цитаты, для дальнейшего анализа.
, например, данные представлены в следующем формате:
['this is my new project' , 'I am very excited about this (Abbasi, 2015)']
Ожидаемый результат:
1.This is my new project
2.I am very excited about this (Abbasi, 2015)
Можно ли преобразовать это в фрейм данных, чтобы я мог добавлять метки к каждому предложению?
Или будет разумно извлекать только предложения с цитатами в тексте?