Question

С учетом такой строки:

a, «строка, с», различные, «значения и некоторые», в кавычках

Что является хорошим алгоритмом для разделения этого значения на запятые, игнорируя запятые внутри разделов в кавычках?

Выходные данные должны быть массивом:

["a", "строка, с", "различными", "значениями и некоторыми", "в кавычках"]

Judah Gabriel Himango · Answer 1 · 08 августа 2008

Похоже, у вас есть хорошие ответы здесь.

Для тех из вас, кто хочет самостоятельно разбирать CSV-файл, прислушайтесь к советам экспертов и Не катите свой собственный анализатор CSV .

Ваша первая мысль: «Мне нужно обрабатывать запятые внутри кавычек».

Ваша следующая мысль будет: "О, дерьмо, мне нужно обрабатывать кавычки внутри кавычек. Кавычки с пробелами. Двойные кавычки. Одинарные кавычки ..."

Это дорога к безумию. Не пиши свое. Найдите библиотеку с обширным охватом модульных тестов, которая поразит все сложные части и прошла через ад. Для .NET используйте бесплатную библиотеку FileHelpers .

Pat · Answer 2 · 08 августа 2008

Конечно, лучше использовать CSV-парсер, но просто для удовольствия вы можете:

Loop on the string letter by letter.
    If current_letter == quote : 
        toggle inside_quote variable.
    Else if (current_letter ==comma and not inside_quote) : 
        push current_word into array and clear current_word.
    Else 
        append the current_letter to current_word
When the loop is done push the current_word into array

Greg Bayer · Answer 3 · 05 октября 2010

Вот простая реализация Python, основанная на псевдокоде Пата:

def splitIgnoringSingleQuote(string, split_char, remove_quotes=False):
    string_split = []
    current_word = ""
    inside_quote = False
    for letter in string:
      if letter == "'":
        if not remove_quotes:
           current_word += letter
        if inside_quote:
          inside_quote = False
        else:
          inside_quote = True
      elif letter == split_char and not inside_quote:
        string_split.append(current_word)
        current_word = ""
      else:
        current_word += letter
    string_split.append(current_word)
    return string_split

ICR · Answer 4 · 09 августа 2008

Что если появится нечетное количество кавычек в исходной строке?

Это выглядит странно, как разбор CSV, у которого есть некоторые особенности обработки полей в кавычках. Поле экранируется только в том случае, если оно разделено двойными кавычками, поэтому:

field1, «field2, field3», field4, «field5, field6» field7

становится

field1

field2, field3

Field4

"Field5

field6 "field7

Обратите внимание, что если оно не начинается и не заканчивается кавычкой, то это не поле в кавычках, а двойные кавычки просто рассматриваются как двойные кавычки.

Insedently мой код, с которым кто-то связался, фактически не обрабатывает это правильно, если я правильно помню.

Martin · Answer 5 · 08 августа 2008

Если бы мой предпочтительный язык не предлагал способ сделать это без размышлений, то я бы изначально рассмотрел два варианта как простой выход:

Выполните предварительный анализ и замените запятые в строке другим управляющим символом, а затем разделите их, а затем повторите анализ массива, чтобы заменить ранее использовавшийся управляющий символ на запятые.
В качестве альтернативы можно разделить их на запятые, а затем проанализировать полученный массив в другой массив, проверяя ведущие кавычки для каждой записи массива и конкатенируя записи, пока я не достигну завершающей кавычки.

Это, однако, хаки, и если это чисто «умственное» упражнение, то я подозреваю, что они окажутся бесполезными. Если это проблема реального мира, то было бы полезно знать язык, чтобы мы могли дать какой-то конкретный совет.

Kev · Answer 6 · 08 августа 2008

Автор здесь добавил код C #, который обрабатывает сценарий, с которым у вас возникли проблемы:

Импорт файлов CSV в .Net

Не должно быть слишком сложно для перевода.

Goodword · Answer 7 · 15 октября 2018

Поскольку вы сказали, что язык не зависит от языка, я написал свой алгоритм на языке, ближайшем к псевдокоду, как возможный:

def find_character_indices(s, ch):
    return [i for i, ltr in enumerate(s) if ltr == ch]


def split_text_preserving_quotes(content, include_quotes=False):
    quote_indices = find_character_indices(content, '"')

    output = content[:quote_indices[0]].split()

    for i in range(1, len(quote_indices)):
        if i % 2 == 1: # end of quoted sequence
            start = quote_indices[i - 1]
            end = quote_indices[i] + 1
            output.extend([content[start:end]])

        else:
            start = quote_indices[i - 1] + 1
            end = quote_indices[i]
            split_section = content[start:end].split()
            output.extend(split_section)

        output += content[quote_indices[-1] + 1:].split()                                                                 

    return output

PabloG · Answer 8 · 08 августа 2008

Я просто не мог удержаться, чтобы посмотреть, смогу ли я заставить его работать в однострочнике Python:

arr = [i.replace("|", ",") for i in re.sub('"([^"]*)\,([^"]*)"',"\g<1>|\g<2>", str_to_test).split(",")]

Возвращает ['a', 'string, with', 'Various', 'values и some', 'quoted']

Он работает, сначала заменяя внутри кавычки ',' на другой разделитель (|), разбить строку на ',' и заменить | разделитель снова.

Brian Jorgensen · Answer 9 · 08 августа 2008

Вот один в псевдокоде (a.k.a. Python) за один проход: -P

def parsecsv(instr):
    i = 0
    j = 0

    outstrs = []

    # i is fixed until a match occurs, then it advances
    # up to j. j inches forward each time through:

    while i < len(instr):

        if j < len(instr) and instr[j] == '"':
            # skip the opening quote...
            j += 1
            # then iterate until we find a closing quote.
            while instr[j] != '"':
                j += 1
                if j == len(instr):
                    raise Exception("Unmatched double quote at end of input.")

        if j == len(instr) or instr[j] == ',':
            s = instr[i:j]  # get the substring we've found
            s = s.strip()    # remove extra whitespace

            # remove surrounding quotes if they're there
            if len(s) > 2 and s[0] == '"' and s[-1] == '"':
                s = s[1:-1]

            # add it to the result
            outstrs.append(s)

            # skip over the comma, move i up (to where
            # j will be at the end of the iteration)
            i = j+1

        j = j+1

    return outstrs

def testcase(instr, expected):
    outstr = parsecsv(instr)
    print outstr
    assert expected == outstr

# Doesn't handle things like '1, 2, "a, b, c" d, 2' or
# escaped quotes, but those can be added pretty easily.

testcase('a, b, "1, 2, 3", c', ['a', 'b', '1, 2, 3', 'c'])
testcase('a,b,"1, 2, 3" , c', ['a', 'b', '1, 2, 3', 'c'])

# odd number of quotes gives a "unmatched quote" exception
#testcase('a,b,"1, 2, 3" , "c', ['a', 'b', '1, 2, 3', 'c'])

Разбить строку, игнорируя разделы в кавычках

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 13 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Вот один в псевдокоде (a.k.a. Python) за один проход: -P

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбить строку, игнорируя разделы в кавычках

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 13 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Вот один в псевдокоде (a.k.a. Python) за один проход: -P

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов