Question

Я прочитал файл pdf, используя PDFMiner, и извлек из него текст для NLP analysis. Поскольку я буду иметь дело с исследовательскими статьями, я сделал легкую очистку текстов, преобразовав абзацы текстов в список токенов предложений. Моя цель - выбрать предложения, содержащие интекстные цитаты, для дальнейшего анализа.

, например, данные представлены в следующем формате:

['this is my new project' , 'I am very excited about this  (Abbasi, 2015)']

Ожидаемый результат:

1.This is my new project
2.I am very excited about this (Abbasi, 2015)

Можно ли преобразовать это в фрейм данных, чтобы я мог добавлять метки к каждому предложению?

Или будет разумно извлекать только предложения с цитатами в тексте?

JoyeBright · Answer 1 · 19 июня 2020

Чтобы различать guish, содержат ли предложения целую цитату или нет, вы можете просто использовать следующее регулярное выражение:

i=[] 
for i in sentences:
    if re.match(pattern, i):
       print("label (1)")
       indices.append(i)
    else: print("label (0)") or pass

При совпадении шаблона добавьте индексы связанных предложений в массив. Наконец, превратите их в фрейм данных CSV.

NB: поскольку статьи имеют разные стили цитирования, проверьте RE rules , чтобы настроить свой собственный шаблон.

Как преобразовать список токенов (после токенизации предложения) в формате абзаца в нумерованный список предложений или преобразовать его в фрейм данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как преобразовать список токенов (после токенизации предложения) в формате абзаца в нумерованный список предложений или преобразовать его в фрейм данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы