Какой формат файла лучше всего проанализировать? - PullRequest
2 голосов
/ 07 мая 2010

Сценарий: я работаю над приложением rails, которое будет принимать данные в виде загруженных текстовых файлов. Мне нужно проанализировать эти файлы перед импортом данных. Я могу выбрать тип файла, загруженного в приложение; программное обеспечение (Microsoft Access), используемое при загрузке, имеет несколько параметров экспорта в зависимости от типа файла.

Хотя это может быть незначительным, мне было интересно, существует ли конкретный тип файла, который наиболее эффективно анализируется. Я считаю, что этот вопрос можно рассматривать как независимый от языка.

(Хотя XML обычно анализируется, он не подходит для этого проекта.)

Ответы [ 4 ]

2 голосов
/ 07 мая 2010

Если это что-то, экспортируемое Access, самым простым будет CSV; тем более что Ruby содержит синтаксический анализатор CSV в стандартной библиотеке . Вам придется проделать определенную работу по определению диалекта CSV (что он использует для разделителя, как он обрабатывает кавычки); Я не знаю, насколько надежен анализатор ruby ​​с этими проблемами, но вы также должны иметь некоторый контроль со стороны Microsoft Access.

2 голосов
/ 07 мая 2010

Возможно, вы захотите взглянуть на JSON . Это легкий формат, и в отличие от XML, его действительно легко и просто анализировать, не требуя огромной библиотеки на сервере.

Может представлять типы, такие как строки, числа, ассоциативные массивы (объекты) и списки таких

0 голосов
/ 07 мая 2010

Если вам нужно развернуть свой собственный анализатор, я бы предложил CSV или какой-либо другой формат с разделителями.

Если вы можете использовать другие библиотеки, существует множество вариантов. JSON выглядит довольно увлекательно.

0 голосов
/ 07 мая 2010

Я бы предложил n-SV (где n - некоторый символ) для данных, которые не включают n . Это сделает лексирование файлов вопросом split.

Если у вас есть более гибкие данные, я бы предложил JSON.

...