Загрузка одного файла данных, содержащего несколько блоков различных схем, разделенных табуляцией - PullRequest
0 голосов
/ 16 августа 2011

Перед нами стоит загрузка файла, содержащего несколько различных типов записей, и получение этих записей в базу данных (в настоящее время Sql Server, но для долгосрочной работы требуется независимость от базы данных).Каждый блок содержит верхний и нижний колонтитулы, которые включают в себя количество строк и идентификаторы типов записей.

Во-первых, есть ли в Google такой термин для этого стиля файла?

Я подумываю сначала пройтись по файлу, чтобы найти записи заголовка и записать их местоположение.Затем со знанием начала и конца номеров строк и номеров записей, загружая этот блок.Будет значительная постобработка - нормализация и управление ключами, бизнес-логика.

Размер этих файлов обычно не превышает 600 КБ.Я думаю, что мы могли бы загрузить все в память, но задавался вопросом, существуют ли уже стратегии для загрузки файлов такого типа.

update

Отдельные блоки содержат записи с разделителями табуляции, каждая со своей собственной схемой.

1 Ответ

2 голосов
/ 16 августа 2011

Я хотел бы рассмотреть вопрос об использовании FileHelpers - это библиотека с открытым исходным кодом с отличными возможностями для обработки файлов.Он отлично работает с огромными файлами и имеет много опций для чтения и обработки записей CSV / TSV.Хотя я не уверен, как он будет работать с разными схемами записей в одном и том же файле, но определенно стоит проверить

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...