Я изменяю существующий скрипт Python, который извлекает текст из расписаний HTML с помощью регулярных выражений.Сценарий прекрасно работает, за исключением одной ситуации, которая выглядит следующим образом (очень упрощенно):
<tr>
<td class="month">September</td>
<td class="date">1</td>
<td class="date">8</td>
<td class="date">15<td>
</tr>
Я хочу вернуть:
('September', '1'),
('September', '8'),
('September', '15'),
... с одним регулярным выражением.Написание регулярного выражения для захвата групп является тривиальным.Я просто не могу понять, как создать желаемый результат с помощью регулярных выражений.Я пробовал несколько комбинаций lookaround, обратных ссылок и т. Д. Я предполагаю, что это просто, но просто не могу найти правильное регулярное выражение.Любая помощь приветствуется.
Кроме того, я полностью осознаю, что использование регулярных выражений в тексте HTML не лучший подход, но эта унаследованная система работает хорошо, и ей просто нужно разобраться с этим одним случаем.
Точно так жеЯ знаю, что могу вернуть отдельные группы и легко создать кортежи в Python.Такая постобработка просто не вписывается в существующий скрипт.