Извлечение таблицы из HTML, чтобы преуспеть из командной строки - PullRequest
4 голосов
/ 18 марта 2009

Каков наилучший способ преобразовать таблицу в документе HTML в файл для чтения в формате Excel? Мне бы хотелось, чтобы это был инструмент командной строки, который я могу вызывать в bash на моем Mac, так как я хотел бы пакетно обрабатывать несколько файлов HTML.

Я знаю, что мог бы написать сценарий, чтобы сделать это довольно легко, но я ищу общие, существующие инструменты, которые можно вызывать из командной строки. Я бы предпочел, чтобы форматирование было сохранено в максимально возможной степени, но я бы предпочел использовать CSV, если ничего другого, что легко установить и настроить, отвечает всем требованиям.

Ответы [ 2 ]

3 голосов
/ 17 августа 2009

Excel может читать / открывать документы HTML с таблицами, без необходимости преобразования. Он автоматически сопоставит ячейки таблицы с ячейками таблицы.

Попробуйте это:

  • Сохраните данные ниже в файле с расширением .html.
  • Открыть файл в Excel
<table>
<tr>
<th>Heading1</th>
<th>Heading2</th>
</tr>
<tr>
<td>R1, C1</td>
<td>R1, C2</td>
</tr>
<tr>
<td>R2, C1</td>
<td>R2, C2</td>
</tr>
</table>
0 голосов
/ 18 марта 2009

html2text должен работать, по крайней мере, он должен иметь возможность генерировать что-то, что вы можете выбрать в виде списка через запятую (или довольно легко взломать его). Здесь много ссылок:

http://www.google.com/search?hl=en&q=html2text&btnG=Search

Имеет много флагов для управления форматированием вывода. Попытайся.

- Джеф

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...