Разбить строку, игнорируя разделы в кавычках - PullRequest
20 голосов
/ 08 августа 2008

С учетом такой строки:

a, «строка, с», различные, «значения и некоторые», в кавычках

Что является хорошим алгоритмом для разделения этого значения на запятые, игнорируя запятые внутри разделов в кавычках?

Выходные данные должны быть массивом:

["a", "строка, с", "различными", "значениями и некоторыми", "в кавычках"]

Ответы [ 13 ]

20 голосов
/ 08 августа 2008

Похоже, у вас есть хорошие ответы здесь.

Для тех из вас, кто хочет самостоятельно разбирать CSV-файл, прислушайтесь к советам экспертов и Не катите свой собственный анализатор CSV .

Ваша первая мысль: «Мне нужно обрабатывать запятые внутри кавычек».

Ваша следующая мысль будет: "О, дерьмо, мне нужно обрабатывать кавычки внутри кавычек. Кавычки с пробелами. Двойные кавычки. Одинарные кавычки ..."

Это дорога к безумию. Не пиши свое. Найдите библиотеку с обширным охватом модульных тестов, которая поразит все сложные части и прошла через ад. Для .NET используйте бесплатную библиотеку FileHelpers .

6 голосов
/ 09 августа 2008

Python:

import csv
reader = csv.reader(open("some.csv"))
for row in reader:
    print row
2 голосов
/ 08 августа 2008

Конечно, лучше использовать CSV-парсер, но просто для удовольствия вы можете:

Loop on the string letter by letter.
    If current_letter == quote : 
        toggle inside_quote variable.
    Else if (current_letter ==comma and not inside_quote) : 
        push current_word into array and clear current_word.
    Else 
        append the current_letter to current_word
When the loop is done push the current_word into array 
1 голос
/ 05 октября 2010

Вот простая реализация Python, основанная на псевдокоде Пата:

def splitIgnoringSingleQuote(string, split_char, remove_quotes=False):
    string_split = []
    current_word = ""
    inside_quote = False
    for letter in string:
      if letter == "'":
        if not remove_quotes:
           current_word += letter
        if inside_quote:
          inside_quote = False
        else:
          inside_quote = True
      elif letter == split_char and not inside_quote:
        string_split.append(current_word)
        current_word = ""
      else:
        current_word += letter
    string_split.append(current_word)
    return string_split
1 голос
/ 09 августа 2008

Что если появится нечетное количество кавычек в исходной строке?

Это выглядит странно, как разбор CSV, у которого есть некоторые особенности обработки полей в кавычках. Поле экранируется только в том случае, если оно разделено двойными кавычками, поэтому:

field1, «field2, field3», field4, «field5, field6» field7

становится

field1

field2, field3

Field4

"Field5

field6 "field7

Обратите внимание, что если оно не начинается и не заканчивается кавычкой, то это не поле в кавычках, а двойные кавычки просто рассматриваются как двойные кавычки.

Insedently мой код, с которым кто-то связался, фактически не обрабатывает это правильно, если я правильно помню.

1 голос
/ 08 августа 2008

Если бы мой предпочтительный язык не предлагал способ сделать это без размышлений, то я бы изначально рассмотрел два варианта как простой выход:

  1. Выполните предварительный анализ и замените запятые в строке другим управляющим символом, а затем разделите их, а затем повторите анализ массива, чтобы заменить ранее использовавшийся управляющий символ на запятые.

  2. В качестве альтернативы можно разделить их на запятые, а затем проанализировать полученный массив в другой массив, проверяя ведущие кавычки для каждой записи массива и конкатенируя записи, пока я не достигну завершающей кавычки.

Это, однако, хаки, и если это чисто «умственное» упражнение, то я подозреваю, что они окажутся бесполезными. Если это проблема реального мира, то было бы полезно знать язык, чтобы мы могли дать какой-то конкретный совет.

1 голос
/ 08 августа 2008

Автор здесь добавил код C #, который обрабатывает сценарий, с которым у вас возникли проблемы:

Импорт файлов CSV в .Net

Не должно быть слишком сложно для перевода.

0 голосов
/ 15 октября 2018

Поскольку вы сказали, что язык не зависит от языка, я написал свой алгоритм на языке, ближайшем к псевдокоду, как возможный:

def find_character_indices(s, ch):
    return [i for i, ltr in enumerate(s) if ltr == ch]


def split_text_preserving_quotes(content, include_quotes=False):
    quote_indices = find_character_indices(content, '"')

    output = content[:quote_indices[0]].split()

    for i in range(1, len(quote_indices)):
        if i % 2 == 1: # end of quoted sequence
            start = quote_indices[i - 1]
            end = quote_indices[i] + 1
            output.extend([content[start:end]])

        else:
            start = quote_indices[i - 1] + 1
            end = quote_indices[i]
            split_section = content[start:end].split()
            output.extend(split_section)

        output += content[quote_indices[-1] + 1:].split()                                                                 

    return output
0 голосов
/ 08 августа 2008

Я просто не мог удержаться, чтобы посмотреть, смогу ли я заставить его работать в однострочнике Python:

arr = [i.replace("|", ",") for i in re.sub('"([^"]*)\,([^"]*)"',"\g<1>|\g<2>", str_to_test).split(",")]

Возвращает ['a', 'string, with', 'Various', 'values ​​и some', 'quoted']

Он работает, сначала заменяя внутри кавычки ',' на другой разделитель (|), разбить строку на ',' и заменить | разделитель снова.

0 голосов
/ 08 августа 2008

Вот один в псевдокоде (a.k.a. Python) за один проход: -P

def parsecsv(instr):
    i = 0
    j = 0

    outstrs = []

    # i is fixed until a match occurs, then it advances
    # up to j. j inches forward each time through:

    while i < len(instr):

        if j < len(instr) and instr[j] == '"':
            # skip the opening quote...
            j += 1
            # then iterate until we find a closing quote.
            while instr[j] != '"':
                j += 1
                if j == len(instr):
                    raise Exception("Unmatched double quote at end of input.")

        if j == len(instr) or instr[j] == ',':
            s = instr[i:j]  # get the substring we've found
            s = s.strip()    # remove extra whitespace

            # remove surrounding quotes if they're there
            if len(s) > 2 and s[0] == '"' and s[-1] == '"':
                s = s[1:-1]

            # add it to the result
            outstrs.append(s)

            # skip over the comma, move i up (to where
            # j will be at the end of the iteration)
            i = j+1

        j = j+1

    return outstrs

def testcase(instr, expected):
    outstr = parsecsv(instr)
    print outstr
    assert expected == outstr

# Doesn't handle things like '1, 2, "a, b, c" d, 2' or
# escaped quotes, but those can be added pretty easily.

testcase('a, b, "1, 2, 3", c', ['a', 'b', '1, 2, 3', 'c'])
testcase('a,b,"1, 2, 3" , c', ['a', 'b', '1, 2, 3', 'c'])

# odd number of quotes gives a "unmatched quote" exception
#testcase('a,b,"1, 2, 3" , "c', ['a', 'b', '1, 2, 3', 'c'])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...