html таблица в массив ruby - PullRequest
       1

html таблица в массив ruby

2 голосов
/ 16 октября 2010

Я занимаюсь скринингом с использованием watir и загружаю файл xls.Когда я открываю этот файл в блокноте, я обнаруживаю, что это просто куча HTML-таблиц.Есть ли какая-либо функция или гем, который преобразует эту страницу в кучу массивов.любые идеи приветствуются.

Ответы [ 3 ]

1 голос
/ 16 октября 2010
  1. Сузить до ...
  2. Очистить пробелы
  3. Заменить вкладки на "
  4. Заменить метки на ",
  5. Заменить & & метками на Ничего
  6. Замените теги на |
  7. Разделите строки с помощью |
  8. Разделите поля с помощью ,

Вы можете упростить это немного больше, но это суть.

1 голос
/ 22 октября 2010

XLS - это двоичный формат. Если вы видите HTML-таблицы в содержимом файла, это означает, что вы, вероятно, неправильно загрузили файл.

Как файл XLS загружается через Watir? Вам нужно автоматизировать окно загрузки файла или вы просто перешли по ссылке на файл XLS и записали содержимое в файл?

1 голос
/ 16 октября 2010

В общем, это простое упражнение - пройтись по HTML-файлу с таблицей и извлечь строки и столбцы, если они не используют атрибуты colspan или rowspan. Те запутывают логический поток, что требует некоторого ощущения пробелов, которые они вызывают, и необходимости заполнять пробелы повторяющимися значениями от * span. Как мне разобрать таблицу HTML с помощью Nokogiri? может помочь.

Глядя на файлы XLS на моем рабочем столе, я не думаю, что это XML или HTML. Я не уверен, что вы скачали. Я сделал быстрый поиск, и roo (http://roo.rubyforge.org/) представляется хорошей отправной точкой.

...