Question

У меня есть большой (по количеству строк) простой текстовый файл, который я хотел бы разбить на более мелкие файлы, в том числе по количеству строк. Поэтому, если мой файл содержит около 2 млн строк, я бы хотел разделить его на 10 файлов, содержащих 200 тыс. Строк, или 100 файлов, содержащих 20 тыс. Строк (плюс один файл с остатком; быть равномерно делимым не имеет значения).

Я мог бы сделать это довольно легко в Python, но мне интересно, есть ли какой-нибудь способ ниндзя сделать это, используя утилиты bash и unix (в отличие от ручного зацикливания и подсчета / разбиения строк).

Mark Byers · Answer 1 · 07 января 2010

Вы смотрели на команду split?

$ split --help
Usage: split [OPTION] [INPUT [PREFIX]]
Output fixed-size pieces of INPUT to PREFIXaa, PREFIXab, ...; default
size is 1000 lines, and default PREFIX is `x'.  With no INPUT, or when INPUT
is -, read standard input.

Mandatory arguments to long options are mandatory for short options too.
  -a, --suffix-length=N   use suffixes of length N (default 2)
  -b, --bytes=SIZE        put SIZE bytes per output file
  -C, --line-bytes=SIZE   put at most SIZE bytes of lines per output file
  -d, --numeric-suffixes  use numeric suffixes instead of alphabetic
  -l, --lines=NUMBER      put NUMBER lines per output file
      --verbose           print a diagnostic to standard error just
                            before each output file is opened
      --help     display this help and exit
      --version  output version information and exit

Вы можете сделать что-то вроде этого:

split -l 200000 filename

, который создаст файлы, каждый из которых содержит 200000 строк с именем xaa xab xac ...

Другая опция, разделенная по размеру выходного файла (по-прежнему разбивается на разрывы строк):

 split -C 20m --numeric-suffixes input_filename output_prefix

создает файлы типа output_prefix01 output_prefix02 output_prefix03 ..., каждый из которых имеет максимальный размер 20 мегабайт.

Dave Kirby · Answer 2 · 07 января 2010

Да, есть команда split. Он разделит файл на строки или байты.

$ split --help
Usage: split [OPTION]... [INPUT [PREFIX]]
Output fixed-size pieces of INPUT to PREFIXaa, PREFIXab, ...; default
size is 1000 lines, and default PREFIX is `x'.  With no INPUT, or when INPUT
is -, read standard input.

Mandatory arguments to long options are mandatory for short options too.
  -a, --suffix-length=N   use suffixes of length N (default 2)
  -b, --bytes=SIZE        put SIZE bytes per output file
  -C, --line-bytes=SIZE   put at most SIZE bytes of lines per output file
  -d, --numeric-suffixes  use numeric suffixes instead of alphabetic
  -l, --lines=NUMBER      put NUMBER lines per output file
      --verbose           print a diagnostic just before each
                            output file is opened
      --help     display this help and exit
      --version  output version information and exit

SIZE may have a multiplier suffix:
b 512, kB 1000, K 1024, MB 1000*1000, M 1024*1024,
GB 1000*1000*1000, G 1024*1024*1024, and so on for T, P, E, Z, Y.

zmbush · Answer 3 · 07 января 2010

использование split

Разбивает файл на части фиксированного размера, создает выходные файлы, содержащие последовательные разделы INPUT (стандартный ввод, если ничего не задано или INPUT равен `- ')

Syntax split [options] [INPUT [PREFIX]]

http://ss64.com/bash/split.html

Harshwardhan · Answer 4 · 21 апреля 2016

Использование:

sed -n '1,100p' filename > output.txt

Здесь 1 и 100 - номера строк, которые вы будете записывать в output.txt.

Denilson Sá Maia · Answer 5 · 30 мая 2018

split (из GNU coreutils, начиная с версия 8.8 от 2010-12-22 ) включает в себя следующий параметр:

-n, --number=CHUNKS     generate CHUNKS output files; see explanation below

CHUNKS may be:
  N       split into N files based on size of input
  K/N     output Kth of N to stdout
  l/N     split into N files without splitting lines/records
  l/K/N   output Kth of N to stdout without splitting lines/records
  r/N     like 'l' but use round robin distribution
  r/K/N   likewise but only output Kth of N to stdout

Таким образом, split -n 4 input output. сгенерирует четыре файла (output.a{a,b,c,d}) с одинаковым количеством байтов, но в середине строки могут быть разбиты.

Если мы хотим сохранить полные строки (то есть разделить на строки), то это должно работать:

split -n l/4 input output.

Связанный ответ: https://stackoverflow.com/a/19031247

erm3nda · Answer 6 · 24 октября 2017

В случае, если вы просто хотите разделить на x количество строк в каждом файле, данные ответы о split в порядке. Но мне интересно, чтобы никто не обращал внимания на требования:

"не считая их" -> используя wc + cut
"имея остаток в дополнительном файле" -> по умолчанию делает split

Я не могу сделать это без "wc + cut", но я использую это:

split -l  $(expr `wc $filename | cut -d ' ' -f3` / $chunks) $filename

Это может быть легко добавлено к вашим функциям bashrc, так что вы можете просто вызывать его, передавая имя файла и куски:

 split -l  $(expr `wc $1 | cut -d ' ' -f3` / $2) $1

В случае, если вы хотите, чтобы в дополнительном файле было только x кусков без остатка, просто измените формулу, чтобы суммировать ее (куски - 1) в каждом файле. Я использую этот подход, потому что обычно я просто хочу х количество файлов, а не х строк на файл:

split -l  $(expr `wc $1 | cut -d ' ' -f3` / $2 + `expr $2 - 1`) $1

Вы можете добавить это к сценарию и назвать его «способом ниндзя», потому что, если ничто не соответствует вашим потребностям, вы можете создать его: -)

ghostdog74 · Answer 7 · 07 января 2010

Вы также можете использовать awk

awk -vc=1 'NR%200000==0{++c}{print $0 > c".txt"}' largefile

Matiji66 · Answer 8 · 08 ноября 2017

HDFS getmerge небольшой файл и разлитый по размеру свойства.

Этот метод приведет к разрыву строки

split -b 125m compact.file -d -a 3 compact_prefix

Я пытаюсь получить getmerge и разделить на 128 МБ каждый файл.

# split into 128m ,judge sizeunit is M or G ,please test before use.

begainsize=`hdfs dfs -du -s -h /externaldata/$table_name/$date/ | awk '{ print $1}' `
sizeunit=`hdfs dfs -du -s -h /externaldata/$table_name/$date/ | awk '{ print $2}' `
if [ $sizeunit = "G" ];then
    res=$(printf "%.f" `echo "scale=5;$begainsize*8 "|bc`)
else
    res=$(printf "%.f" `echo "scale=5;$begainsize/128 "|bc`)  # celling ref http://blog.csdn.net/naiveloafer/article/details/8783518
fi
echo $res
# split into $res files with number suffix.  ref  http://blog.csdn.net/microzone/article/details/52839598
compact_file_name=$compact_file"_"
echo "compact_file_name :"$compact_file_name
split -n l/$res $basedir/$compact_file -d -a 3 $basedir/${compact_file_name}

Как разбить большой текстовый файл на более мелкие файлы с одинаковым количеством строк?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 10 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как разбить большой текстовый файл на более мелкие файлы с одинаковым количеством строк?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 10 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов