Question

Как вы анализируете файл CSV с помощью gawk? Просто установить FS="," недостаточно, так как заключенное в кавычки поле с запятой будет рассматриваться как несколько полей.

Пример использования FS=",", который не работает:

содержимое файла:

one,two,"three, four",five
"six, seven",eight,"nine"

скрипт gawk:

BEGIN { FS="," }
{
  for (i=1; i<=NF; i++) printf "field #%d: %s\n", i, $(i)
  printf "---------------------------\n"
}

плохой вывод:

field #1: one
field #2: two
field #3: "three
field #4:  four"
field #5: five
---------------------------
field #1: "six
field #2:  seven"
field #3: eight
field #4: "nine"
---------------------------

желаемый вывод:

field #1: one
field #2: two
field #3: "three, four"
field #4: five
---------------------------
field #1: "six, seven"
field #2: eight
field #3: "nine"
---------------------------

Jonathan Leffler · Answer 1 · 24 ноября 2008

Короткий ответ: «Я бы не использовал gawk для разбора CSV, если CSV содержит неловкие данные», где «неловкий» означает такие вещи, как запятые в полевых данных CSV.

Следующий вопрос: «Какую другую обработку вы собираетесь делать?», Поскольку это повлияет на то, какие альтернативы вы используете.

Я бы, вероятно, использовал Perl и модули Text :: CSV или Text :: CSV_XS для чтения и обработки данных. Помните, что Perl изначально был написан как убийца awk и sed - следовательно, программы a2p и s2p все еще распространяются с Perl, которые конвертируют awk и sed сценарии (соответственно) в Perl.

BCoates · Answer 2 · 13 января 2012

Руководство gawk версии 4 говорит, что нужно использовать FPAT = "([^,]*)|(\"[^\"]+\")"

Когда определено FPAT, оно отключает FS и определяет поля по содержимому, а не по разделителю.

D Bro · Answer 3 · 05 мая 2013

Вы можете использовать простую функцию-оболочку csvquote для очистки входных данных и их восстановления после того, как awk завершит их обработку. Передайте данные через них в начале и в конце, и все должно работать нормально:

перед:

gawk -f mypgoram.awk input.csv

после

csvquote input.csv | gawk -f mypgoram.awk | csvquote -u

См. https://github.com/dbro/csvquote для кода и документации.

ayaz · Answer 4 · 24 ноября 2008

Если это допустимо, я бы использовал модуль Python csv , уделяя особое внимание используемому диалекту и параметрам форматирования, необходимым , для анализа имеющегося у вас файла CSV.

Miguel A. Friginal · Answer 5 · 27 ноября 2008

csv2delim.awk

# csv2delim.awk converts comma delimited files with optional quotes to delim separated file
#     delim can be any character, defaults to tab
# assumes no repl characters in text, any delim in line converts to repl
#     repl can be any character, defaults to ~
# changes two consecutive quotes within quotes to '

# usage: gawk -f csv2delim.awk [-v delim=d] [-v repl=`"] input-file > output-file
#       -v delim    delimiter, defaults to tab
#       -v repl     replacement char, defaults to ~

# e.g. gawk -v delim=; -v repl=` -f csv2delim.awk test.csv > test.txt

# abe 2-28-7
# abe 8-8-8 1.0 fixed empty fields, added replacement option
# abe 8-27-8 1.1 used split
# abe 8-27-8 1.2 inline rpl and "" = '
# abe 8-27-8 1.3 revert to 1.0 as it is much faster, split most of the time
# abe 8-29-8 1.4 better message if delim present

BEGIN {
    if (delim == "") delim = "\t"
    if (repl == "") repl = "~"
    print "csv2delim.awk v.m 1.4 run at " strftime() > "/dev/stderr" ###########################################
}

{
    #if ($0 ~ repl) {
    #   print "Replacement character " repl " is on line " FNR ":" lineIn ";" > "/dev/stderr"
    #}
    if ($0 ~ delim) {
        print "Temp delimiter character " delim " is on line " FNR ":" lineIn ";" > "/dev/stderr"
        print "    replaced by " repl > "/dev/stderr"
    }
    gsub(delim, repl)

    $0 = gensub(/([^,])\"\"/, "\\1'", "g")
#   $0 = gensub(/\"\"([^,])/, "'\\1", "g")  # not needed above covers all cases

    out = ""
    #for (i = 1;  i <= length($0);  i++)
    n = length($0)
    for (i = 1;  i <= n;  i++)
        if ((ch = substr($0, i, 1)) == "\"")
            inString = (inString) ? 0 : 1 # toggle inString
        else
            out = out ((ch == "," && ! inString) ? delim : ch)
    print out
}

END {
    print NR " records processed from " FILENAME " at " strftime() > "/dev/stderr"
}

test.csv

"first","second","third"
"fir,st","second","third"
"first","sec""ond","third"
" first ",sec   ond,"third"
"first" , "second","th  ird"
"first","sec;ond","third"
"first","second","th;ird"
1,2,3
,2,3
1,2,
,2,
1,,2
1,"2",3
"1",2,"3"
"1",,"3"
1,"",3
"","",""
"","""aiyn","oh"""
"""","""",""""
11,2~2,3

test.bat

rem test csv2delim
rem default is: -v delim={tab} -v repl=~
gawk                      -f csv2delim.awk test.csv > test.txt
gawk -v delim=;           -f csv2delim.awk test.csv > testd.txt
gawk -v delim=; -v repl=` -f csv2delim.awk test.csv > testdr.txt
gawk            -v repl=` -f csv2delim.awk test.csv > testr.txt

kbulgrien · Answer 6 · 19 марта 2012

{
  ColumnCount = 0
  $0 = $0 ","                           # Assures all fields end with comma
  while($0)                             # Get fields by pattern, not by delimiter
  {
    match($0, / *"[^"]*" *,|[^,]*,/)    # Find a field with its delimiter suffix
    Field = substr($0, RSTART, RLENGTH) # Get the located field with its delimiter
    gsub(/^ *"?|"? *,$/, "", Field)     # Strip delimiter text: comma/space/quote
    Column[++ColumnCount] = Field       # Save field without delimiter in an array
    $0 = substr($0, RLENGTH + 1)        # Remove processed text from the raw data
  }
}

Шаблоны, следующие за этим, могут получить доступ к полям в столбце []. ColumnCount указывает количество найденных элементов в Column []. Если не все строки содержат одинаковое количество столбцов, Column [] содержит дополнительные данные после Column [ColumnCount] при обработке более коротких строк.

Эта реализация медленная, но, похоже, эмулирует функцию FPAT / patsplit(), обнаруженную в gawk> = 4.0.0, упомянутую в предыдущем ответе.

Ссылка

Vijay Dev · Answer 7 · 24 ноября 2008

Я не совсем уверен, правильно ли это делать. Я бы предпочел работать с CSV-файлом, в котором либо все значения указаны в кавычках, либо отсутствуют. Кстати, awk позволяет регулярным выражениям быть разделителями полей. Проверьте, полезно ли это.

Chris Koknat · Answer 8 · 28 октября 2015

В Perl есть модуль Text :: CSV_XS, специально созданный для обработки странностей, заключенных в кавычки.
Поочередно попробуйте модуль Text :: CSV.

perl -MText::CSV_XS -ne 'BEGIN{$csv=Text::CSV_XS->new()} if($csv->parse($_)){@f=$csv->fields();for $n (0..$#f) {print "field #$n: $f[$n]\n"};print "---\n"}' file.csv

Производит этот вывод:

field #0: one
field #1: two
field #2: three, four
field #3: five
---
field #0: six, seven
field #1: eight
field #2: nine
---

Вот читаемая человеком версия.
Сохраните его как parsecsv, chmod + x и запустите как "parsecsv file.csv"

#!/usr/bin/perl
use warnings;
use strict;
use Text::CSV_XS;
my $csv = Text::CSV_XS->new();
open(my $data, '<', $ARGV[0]) or die "Could not open '$ARGV[0]' $!\n";
while (my $line = <$data>) {
    if ($csv->parse($line)) {
        my @f = $csv->fields();
        for my $n (0..$#f) {
            print "field #$n: $f[$n]\n";
        }
        print "---\n";
    }
}

Возможно, вам потребуется указать другую версию perl на вашем компьютере, поскольку модуль Text :: CSV_XS может быть не установлен в вашей версии perl по умолчанию.

Can't locate Text/CSV_XS.pm in @INC (@INC contains: /home/gnu/lib/perl5/5.6.1/i686-linux /home/gnu/lib/perl5/5.6.1 /home/gnu/lib/perl5/site_perl/5.6.1/i686-linux /home/gnu/lib/perl5/site_perl/5.6.1 /home/gnu/lib/perl5/site_perl .).
BEGIN failed--compilation aborted.

Если ни в одной из ваших версий Perl не установлен Text :: CSV_XS, вам необходимо:
sudo apt-get install cpanminus
sudo cpanm Text::CSV_XS

MCS · Answer 9 · 24 ноября 2008

Вот что я придумал. Любые комментарии и / или лучшие решения будут оценены.

BEGIN { FS="," }
{
  for (i=1; i<=NF; i++) {
    f[++n] = $i
    if (substr(f[n],1,1)=="\"") {
      while (substr(f[n], length(f[n]))!="\"" || substr(f[n], length(f[n])-1, 1)=="\\") {
        f[n] = sprintf("%s,%s", f[n], $(++i))
      }
    }
  }
  for (i=1; i<=n; i++) printf "field #%d: %s\n", i, f[i]
  print "----------------------------------\n"
}

Основная идея состоит в том, что я перебираю поля, и любое поле, которое начинается с кавычки, но не заканчивается кавычкой, получает следующее поле, добавленное к нему.

Разбор файла CSV с помощью gawk

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

csv2delim.awk

test.csv

test.bat

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбор файла CSV с помощью gawk

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

csv2delim.awk

test.csv

test.bat

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы