Я однажды проделал нечто подобное с кортами Дэни sh.
Я обнаружил, что язык в этом деле был ограничен: адвокат, судья, ответчик, номера дел, коды того и другого, но даже если содержание было структурировано примерно одинаково, суды использовали разные шаблоны и способы их представления, даже если все страницы выглядят одинаково.
Итак, я сначала преобразовал их в обычный текст с l xml (вы, вероятно, можете использовать суп)
Затем я использовал массив регулярных выражений для извлечения нужного мне содержимого и примитивный конечный автомат, чтобы запоминать, где я был, когда это необходимо. Я помню, что часто использовал прямой поиск
(?=...)
, чтобы убедиться, что я не съел часть следующего текста, который хотел найти.
Это заняло время, но, наконец, я получил их все . Потом «Они» исключили возможность это сделать и закрыли меня.
Осведомленные граждане не всегда счастливы.