Question

У меня есть набор данных с 1000 строк и 10 столбцов. Вот пример набора данных

A,B,C,D,E,F,
a,b,c,d,e,f,
g,h,i,j,k,l,
m,n,o,p,q,r,
s,t,u,v,w,x,

Из этого набора данных я хочу скопировать строки, значение столбца A которых равно «a» или «m», в новый файл CSV. Также я хочу, чтобы заголовок был скопирован.

Я пытался использовать awk. Он скопировал все строки, но не заголовок.

awk '{$1~/a//m/ print}' inputfile.csv > outputfile.csv

Как скопировать заголовок также в новый файл outputfile.csv?

Заранее спасибо.

potong · Answer 1 · 29 сентября 2019

Это может сработать для вас (GNU sed):

sed '1b;/^[am],/!d' oldFile >newFile

Всегда печатайте первую строку и удаляйте любую другую строку, которая не содержит a, или m,.

Альтернатива:

awk 'NR==1 || /^[am],/' oldFile >newFile

RavinderSingh13 · Answer 2 · 29 сентября 2019

Учитывая, что ваш заголовок будет в 1-й строке, пожалуйста, попробуйте выполнить следующее.

awk 'BEGIN{FS=OFS=","} FNR==1{print;next} $1 ~ /^a$|^m$/' Input_file > outputfile.csv

ИЛИ согласно комментарию Сира сэра, добавив следующее:

awk 'BEGIN{FS=OFS=","} FNR==1{print;next} $1 ~ /^(a|m)$/' Input_file > outputfile.csv

ИЛИ согласно Эд. Комментарий сэра, попробуйте следующее:

awk -F, 'NR==1 || $1~/^[am]$/' Input_file > outputfile.csv

Добавлены исправления в попытке ОП:

Добавлено FS и OFS как, здесь для всех строк, так как строки разделяются запятыми.
Добавлено условие FNR==1, которое означает, что здесь проверяется 1-я строка и просто печатается, поскольку мы хотим печатать заголовки в нашем файле. Он напечатает самую первую строку, а затем next пропустит все дальнейшие операторы отсюда.
Использовал лучшее регулярное выражение для проверки условия 1-го поля $1 ~ /^a$|^m$/

Ed Morton · Answer 3 · 30 сентября 2019

$ awk -F, 'BEGIN{split("a,m",tmp); for (i in tmp) tgts[tmp[i]]} NR==1 || $1 in tgts' file
A,B,C,D,E,F,
a,b,c,d,e,f,
m,n,o,p,q,r,

Cyrus · Answer 4 · 29 сентября 2019

с awk. Установите разделитель полей (FS) на , и выводите текущую строку, если это первая строка или если ее первый столбец содержит a или m.

awk 'NR==1 || $1=="a" || $1=="m"' FS=',' in.csv >out.csv

Вывод в out.csv:

A,B,C,D,E,F,
a,b,c,d,e,f,
m,n,o,p,q,r,

HelpfulHound · Answer 5 · 29 сентября 2019

Похоже, что по умолчанию в awk используется разделитель пробелов. Ссылка

Изменение разделителя можно обозначить с помощью переменной FS:

awk 'BEGIN { FS = "," } ; { print $2 }'

Фильтрация строк по значениям столбцов CSV-файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Фильтрация строк по значениям столбцов CSV-файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов