Классифицировать таблицу в lxml - PullRequest
0 голосов
/ 04 сентября 2010

Я работаю с большим набором HTML-документов. Одна из моих задач - извлечь весь текст из документов. Я продвинулся довольно далеко, но теперь я в тупике из-за использования таблиц в качестве контейнеров / структур форматирования для информации, которая не является числовой по своей природе

Моя цель - игнорировать - оставить позади - не извлекать «таблицу», если это таблица числовых полей

Я готовлюсь к реализации подхода на основе грубых правил, взяв таблицу, и, если в качестве цифр можно классифицировать более некоторого процента td.text_content (), я решу, что таблица представляет собой таблицу числовых значений *

Мне интересно, может ли кто-то еще предложить лучший подход

1 Ответ

0 голосов
/ 04 августа 2011

Я бы предложил синтаксический анализ данных, например, реализованный в IBM Watson , но я полагаю, что в противном случае невозможно классифицировать таблицу. Не могли бы вы опубликовать HTML примеры числовой и не числовой таблицы? Я обновлю свой ответ, когда они будут опубликованы.

...