Как я могу разделить очень большой xml.bz2 на более мелкие куски, используя строку комментирования - PullRequest
0 голосов
/ 31 мая 2019

У меня есть этот действительно большой файл вики-страницы, который я загружаю здесь https://dumps.wikimedia.org/enwiki/latest/ Имя файла - enwiki-latest-pages-article.xml.bz2.Это файл 15G, который я планирую использовать для тренировки с ML.Тем не менее, я хочу сначала проверить его на меньшем наборе файла, чтобы увидеть, работает ли он.Мне интересно, есть ли способ сделать это в командной строке (mac envr)

1 Ответ

0 голосов
/ 31 мая 2019

, если это текстовый файл, используйте приведенную ниже команду, чтобы получить первые 10 данных из файла:

cat file |головка

...