Извлечь абзац, который содержит мой тег XML с помощью Python Regex - PullRequest
0 голосов
/ 27 февраля 2019

Я хотел бы извлечь абзац, который содержит тег.Я имею в виду текст с несколькими абзацами, причем в любом абзаце есть тег XML для сентиментального анализа.Я хотел бы извлечь каждый абзац, чтобы поместить его в столбец, каждый тег в этом абзаце в столбце и интенсивность слова.Пример:

Начало абзаца ...................... глубокая несправедливость .............. конец абзаца

Начало абзаца ...................... глубокая несправедливость .............. конец абзаца

...

_______________________________________________
|Paragraph      | Word sentiment   | Intensity |
+_______________+__________________+___________+
|  Paragraph 1  | Dissatisfaction  |     6     |
|  Paragraph 1  | satisfaction     |     8     |
|     ....      |      ....        |     ..    |
|               |                  |           |
________________________________________________

Чтобы извлечь настроение и интенсивность сусла, я написал это, и оно отлично работает.

csv = df['text'].str.extractall(r'^<(?P<Sentiments>\w+)\s*[int].*(?P<Intensite>\d)')

Вывод: result of regex

Мой вопрос заключается в том, как извлечь также соответствующий абзац и поместить его в столбец (добавив его или объединив в регулярное выражение выше) ??

Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...