Я работаю с большим набором HTML-документов. Одна из моих задач - извлечь весь текст из документов. Я продвинулся довольно далеко, но теперь я в тупике из-за использования таблиц в качестве контейнеров / структур форматирования для информации, которая не является числовой по своей природе
Моя цель - игнорировать - оставить позади - не извлекать «таблицу», если это таблица числовых полей
Я готовлюсь к реализации подхода на основе грубых правил, взяв таблицу, и, если в качестве цифр можно классифицировать более некоторого процента td.text_content (), я решу, что таблица представляет собой таблицу числовых значений *
Мне интересно, может ли кто-то еще предложить лучший подход