У меня есть несколько файлов данных для обработки из хранилища данных, которые имеют следующий формат:
:header 1 ...
:header n
# remarks 1 ...
# remarks n
# column header 1
# column header 2
DATA ROWS
(Example: "#### ## ## ##### ######## ####### ###afp## ##e###")
Данные разделены пробелами и имеют как числа, так и другие символы ASCII.Некоторые из этих фрагментов данных будут разделены и станут более значимыми.
Все данные будут помещены в базу данных, первоначально в базу данных SQLite для разработки, а затем отправлены в другое, более постоянное хранилище.
Эти файлы фактически будут извлечены через HTTPс удаленного сервера, и мне придется немного ползти, чтобы получить некоторые из них, поскольку они охватывают папки и много файлов.
Я надеялся получить некоторую информацию о том, какие лучшие инструменты и методы могут быть использованы для достижения этой цели.«Рубиновый путь», а также чтобы абстрагироваться от этого.В противном случае я остановлюсь на этом, вероятно, так же, как в Perl или других подобных подходах, которые я использовал ранее.
Я думал о том, как использовать OpenURI
, чтобы открыть каждый URL, затем, если вводэто HTML собирать ссылки для сканирования, иначе обрабатывать данные.Я бы использовал String.scan
для правильного разбиения файла каждый раз на многомерный массив, разбирающий каждый компонент на основе установленного форматирования поставщиком данных.По завершении поместите данные в базу данных.Перейти к следующему входному файлу / URI.Промойте и повторите.
Я полагаю, что мне не хватает некоторых библиотек, которые могли бы использовать те, у кого больше опыта, чтобы значительно очистить / ускорить этот процесс и сделать сценарий гораздо более гибким для повторного использования в других наборах данных.
Кроме того, я буду составлять графики и визуализировать эти данные, а также генерировать отчеты, так что, возможно, это тоже следует учитывать.
Любой вклад в то, что, возможно, лучше или склоняется просто к этому?