Как преобразовать список токенов (после токенизации предложения) в формате абзаца в нумерованный список предложений или преобразовать его в фрейм данных? - PullRequest
0 голосов
/ 19 июня 2020

Я прочитал файл pdf, используя PDFMiner, и извлек из него текст для NLP analysis. Поскольку я буду иметь дело с исследовательскими статьями, я сделал легкую очистку текстов, преобразовав абзацы текстов в список токенов предложений. Моя цель - выбрать предложения, содержащие интекстные цитаты, для дальнейшего анализа.

, например, данные представлены в следующем формате:

['this is my new project' , 'I am very excited about this  (Abbasi, 2015)'] 

Ожидаемый результат:

1.This is my new project
2.I am very excited about this (Abbasi, 2015)

Можно ли преобразовать это в фрейм данных, чтобы я мог добавлять метки к каждому предложению?

Или будет разумно извлекать только предложения с цитатами в тексте?

1 Ответ

0 голосов
/ 19 июня 2020

Чтобы различать guish, содержат ли предложения целую цитату или нет, вы можете просто использовать следующее регулярное выражение:

i=[] 
for i in sentences:
    if re.match(pattern, i):
       print("label (1)")
       indices.append(i)
    else: print("label (0)") or pass

При совпадении шаблона добавьте индексы связанных предложений в массив. Наконец, превратите их в фрейм данных CSV.

NB: поскольку статьи имеют разные стили цитирования, проверьте RE rules , чтобы настроить свой собственный шаблон.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...