Каков наилучший способ извлечь содержимое таблицы из группы файлов HTML? - PullRequest
1 голос
/ 16 сентября 2008

Как очистить папку, полную HTML-файлов, с помощью TIDY, как извлечь содержимое таблиц для дальнейшей обработки?

Ответы [ 6 ]

2 голосов
/ 16 сентября 2008

Я использовал BeautifulSoup для таких вещей в прошлом с большим успехом.

1 голос
/ 18 сентября 2008

После просмотра предложений я завелся с помощью HtmlUnit .

С помощью HtmlUnit я смог настроить код Java для открытия каждого HTML-файла в папке, перехода к тегу TABLE, запросить содержимое каждого столбца и извлечь данные, необходимые для создания файла CSV.

1 голос
/ 16 сентября 2008

Зависит от того, какую обработку вы хотите выполнить. Вы можете указать Tidy генерировать XHTML, который является типом XML, что означает, что вы можете использовать все обычные инструменты XML, такие как XSLT и XQuery, для результатов.

Если вы хотите обработать их в Microsoft Excel, тогда вы сможете вырезать таблицу из HTML и поместить ее в файл, а затем открыть этот файл в Excel: он с радостью преобразует таблицу HTML в страница электронной таблицы. Затем вы можете сохранить его как CSV или как книгу Excel и т. Д. (Вы даже можете использовать это на веб-сервере - вернуть таблицу HTML, но установить заголовок Content-Type на application/ms-vnd.excel: Excel откроет и импортирует таблицу и сдать в электронную таблицу.)

Если вы хотите, чтобы CSV подавал данные в базу данных, вы можете использовать Excel, как и раньше, или если вы хотите автоматизировать процесс, вы можете написать программу, которая использует API-интерфейс навигации XML по вашему выбору для итерации строки таблицы и сохранить их как CSV. Модули Python Elementtree и CSV облегчили бы эту задачу.

0 голосов
/ 17 ноября 2008

перебрать текст и использовать регулярное выражение:)

http://www.knowledgehouse.sg

0 голосов
/ 16 сентября 2008

Если вы хотите извлечь содержимое из разметки HTML, вам следует использовать синтаксический анализатор HTML некоторого типа. С этой целью есть много, и вот два, которые могут удовлетворить ваши потребности:

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

0 голосов
/ 16 сентября 2008

В .NET вы можете использовать HTMLAgilityPack .

См. предыдущий вопрос в StackOverflow для получения дополнительной информации.

...