Выборка больших файлов данных - PullRequest
5 голосов
/ 01 апреля 2010

В настоящее время я работаю программистом в хранилище данных и поэтому вынужден размещать множество простых файлов в процессе ETL. Конечно, перед загрузкой файла я должен знать о его содержимом, проблема в том, что большинство файлов имеют размер> 1 ГБ, и я не могу открыть их, используя мой дорогой старый друг «Блокнот». Шучу. Я обычно использую VIM или Notepad ++, но для открытия файла все еще требуется некоторое время. Могу ли я выполнить «частичное» чтение файла с помощью VIM или другого редактора?

P.S. Я знаю, что мог бы написать сценарий из 10 строк для «выборки данных» файла, но было бы проще убедить членов команды использовать функцию редактора, чем сценарий, который я написал.

Спасибо за ваше понимание.

Ответы [ 6 ]

3 голосов
/ 01 апреля 2010

Вы сказали, что у вас есть VIM, что заставляет меня задуматься, есть ли у вас и среда unix?

Если хотите, вы можете передать данные через утилиту unix top и отобразить необработанный вывод на экране. Как это:

РЕДАКТИРОВАТЬ : (спасибо Honk)

terminal$> head -N 15 file.csv

(где 15 означает, что вы хотите видеть только 15 строк).

3 голосов
/ 01 апреля 2010

Если вы хотите использовать vim, вы можете взглянуть на скрипт LargeFile .

Кроме того, я всегда обнаруживал, что UltraEdit открывает большие файлы очень быстро.

2 голосов
/ 01 апреля 2010

используйте команду head.

2 голосов
/ 01 апреля 2010

Уверен, что есть множество похожих вопросов, но эй, Textpad - хороший выбор для этого.

1 голос
/ 01 апреля 2010

Используйте 'less' на солярисе ... используйте то же самое через cygwin на windows.На мэйнфреймах эта проблема не появляется, редактор ISPF справляется с этим довольно хорошо.

0 голосов
/ 01 апреля 2010

UltraEdit утверждает, что обрабатывает файлы размером более 4 ГБ ...

...