Я хотел бы извлечь абзац, который содержит тег.Я имею в виду текст с несколькими абзацами, причем в любом абзаце есть тег XML для сентиментального анализа.Я хотел бы извлечь каждый абзац, чтобы поместить его в столбец, каждый тег в этом абзаце в столбце и интенсивность слова.Пример:
Начало абзаца ...................... глубокая несправедливость .............. конец абзаца
Начало абзаца ...................... глубокая несправедливость .............. конец абзаца
...
_______________________________________________
|Paragraph | Word sentiment | Intensity |
+_______________+__________________+___________+
| Paragraph 1 | Dissatisfaction | 6 |
| Paragraph 1 | satisfaction | 8 |
| .... | .... | .. |
| | | |
________________________________________________
Чтобы извлечь настроение и интенсивность сусла, я написал это, и оно отлично работает.
csv = df['text'].str.extractall(r'^<(?P<Sentiments>\w+)\s*[int].*(?P<Intensite>\d)')
Вывод:
Мой вопрос заключается в том, как извлечь также соответствующий абзац и поместить его в столбец (добавив его или объединив в регулярное выражение выше) ??
Спасибо