Question

У меня есть неопределённая строка:

foo,bar,c;qual="baz,blurb",d;junk="quux,syzygy"

, который я хочу разделить запятыми - но мне нужно игнорировать запятые в кавычках. Как я могу это сделать? Похоже, что регулярное выражение терпит неудачу; Я полагаю, что я могу вручную сканировать и переходить в другой режим, когда вижу цитату, но было бы неплохо использовать уже существующие библиотеки. ( edit : Полагаю, я имел в виду библиотеки, которые уже являются частью JDK или уже входят в состав часто используемых библиотек, таких как Apache Commons.)

указанная выше строка должна быть разбита на:

foo
bar
c;qual="baz,blurb"
d;junk="quux,syzygy"

примечание: это НЕ файл CSV, это отдельная строка, содержащаяся в файле с большей общей структурой

Bart Kiers · Answer 1 · 18 ноября 2009

Попробуйте:

public class Main { 
    public static void main(String[] args) {
        String line = "foo,bar,c;qual=\"baz,blurb\",d;junk=\"quux,syzygy\"";
        String[] tokens = line.split(",(?=(?:[^\"]*\"[^\"]*\")*[^\"]*$)", -1);
        for(String t : tokens) {
            System.out.println("> "+t);
        }
    }
}

Выход:

> foo
> bar
> c;qual="baz,blurb"
> d;junk="quux,syzygy"

Другими словами: разделяйте запятую, только если эта запятая имеет ноль или четное число кавычек перед ней .

Или, немного дружелюбнее для глаз:

public class Main { 
    public static void main(String[] args) {
        String line = "foo,bar,c;qual=\"baz,blurb\",d;junk=\"quux,syzygy\"";

        String otherThanQuote = " [^\"] ";
        String quotedString = String.format(" \" %s* \" ", otherThanQuote);
        String regex = String.format("(?x) "+ // enable comments, ignore white spaces
                ",                         "+ // match a comma
                "(?=                       "+ // start positive look ahead
                "  (?:                     "+ //   start non-capturing group 1
                "    %s*                   "+ //     match 'otherThanQuote' zero or more times
                "    %s                    "+ //     match 'quotedString'
                "  )*                      "+ //   end group 1 and repeat it zero or more times
                "  %s*                     "+ //   match 'otherThanQuote'
                "  $                       "+ // match the end of the string
                ")                         ", // stop positive look ahead
                otherThanQuote, quotedString, otherThanQuote);

        String[] tokens = line.split(regex, -1);
        for(String t : tokens) {
            System.out.println("> "+t);
        }
    }
}

, который выдает то же, что и в первом примере.

EDIT

Как упомянуто @MikeFHay в комментариях:

Я предпочитаю использовать Splitter Guava , так как он имеет более разумные значения по умолчанию (см. Обсуждение выше о пустых совпадениях, обрезаемых String#split(), поэтому я сделал:
Splitter.on(Pattern.compile(",(?=(?:[^\"]*\"[^\"]*\")*[^\"]*$)"))

Fabian Steeg · Answer 2 · 23 января 2010

Хотя мне нравятся регулярные выражения в целом, для такого вида токенизации, зависящей от состояния, я считаю, что простой синтаксический анализатор (который в данном случае намного проще, чем это слово может сделать его звучащим), вероятно, является более чистым решением, в частности с в отношении ремонтопригодности, например:

String input = "foo,bar,c;qual=\"baz,blurb\",d;junk=\"quux,syzygy\"";
List<String> result = new ArrayList<String>();
int start = 0;
boolean inQuotes = false;
for (int current = 0; current < input.length(); current++) {
    if (input.charAt(current) == '\"') inQuotes = !inQuotes; // toggle state
    boolean atLastChar = (current == input.length() - 1);
    if(atLastChar) result.add(input.substring(start));
    else if (input.charAt(current) == ',' && !inQuotes) {
        result.add(input.substring(start, current));
        start = current + 1;
    }
}

Если вас не интересует сохранение запятых внутри кавычек, вы можете упростить этот подход (без обработки начального индекса, без последний символ особый случай), заменив запятые в кавычках чем-то другим и затем разделите запятыми:

String input = "foo,bar,c;qual=\"baz,blurb\",d;junk=\"quux,syzygy\"";
StringBuilder builder = new StringBuilder(input);
boolean inQuotes = false;
for (int currentIndex = 0; currentIndex < builder.length(); currentIndex++) {
    char currentChar = builder.charAt(currentIndex);
    if (currentChar == '\"') inQuotes = !inQuotes; // toggle state
    if (currentChar == ',' && inQuotes) {
        builder.setCharAt(currentIndex, ';'); // or '♡', and replace later
    }
}
List<String> result = Arrays.asList(builder.toString().split(","));

Jonathan Feinberg · Answer 3 · 18 ноября 2009

http://sourceforge.net/projects/javacsv/

https://github.com/pupi1985/JavaCSV-Reloaded (ветвь предыдущей библиотеки, которая позволит сгенерированным выводам иметь разделители строк Windows \r\n, когда Windows не работает)

http://opencsv.sourceforge.net/

CSV API для Java

Можете ли вы порекомендовать библиотеку Java для чтения (и, возможно, записи) файлов CSV?

Java lib или приложение для преобразования CSV в файл XML?

Marcin Kosinski · Answer 4 · 06 июня 2014

Я бы не советовал дать регулярное выражение от Барта, я нахожу решение для разбора лучше в данном конкретном случае (как предложил Фабиан). Я пробовал решение регулярных выражений и собственную реализацию синтаксического анализа, я обнаружил, что:

Разбор выполняется намного быстрее, чем разделение с помощью регулярных выражений с обратными ссылками - ~ в 20 раз быстрее для коротких строк, ~ в 40 раз быстрее для длинных строк.
Regex не может найти пустую строку после последней запятой. Это не было в оригинальном вопросе, хотя, это было мое требование.

Мое решение и тест ниже.

String tested = "foo,bar,c;qual=\"baz,blurb\",d;junk=\"quux,syzygy\",";
long start = System.nanoTime();
String[] tokens = tested.split(",(?=([^\"]*\"[^\"]*\")*[^\"]*$)");
long timeWithSplitting = System.nanoTime() - start;

start = System.nanoTime(); 
List<String> tokensList = new ArrayList<String>();
boolean inQuotes = false;
StringBuilder b = new StringBuilder();
for (char c : tested.toCharArray()) {
    switch (c) {
    case ',':
        if (inQuotes) {
            b.append(c);
        } else {
            tokensList.add(b.toString());
            b = new StringBuilder();
        }
        break;
    case '\"':
        inQuotes = !inQuotes;
    default:
        b.append(c);
    break;
    }
}
tokensList.add(b.toString());
long timeWithParsing = System.nanoTime() - start;

System.out.println(Arrays.toString(tokens));
System.out.println(tokensList.toString());
System.out.printf("Time with splitting:\t%10d\n",timeWithSplitting);
System.out.printf("Time with parsing:\t%10d\n",timeWithParsing);

Конечно, вы можете свободно переключаться на else-if в этом фрагменте, если вам неловко от его уродства. Обратите внимание на отсутствие разрыва после выключателя с разделителем. Вместо этого StringBuilder был выбран вместо StringBuffer для увеличения скорости, где безопасность потоков не имеет значения.

Jason S · Answer 5 · 18 ноября 2009

Я был нетерпелив и решил не ждать ответов ... для справки не выглядит так сложно сделать что-то подобное (что работает для моего приложения, мне не нужно беспокоиться о экранированных кавычках, так как содержимое в кавычках ограничено несколькими ограниченными формами):

final static private Pattern splitSearchPattern = Pattern.compile("[\",]"); 
private List<String> splitByCommasNotInQuotes(String s) {
    if (s == null)
        return Collections.emptyList();

    List<String> list = new ArrayList<String>();
    Matcher m = splitSearchPattern.matcher(s);
    int pos = 0;
    boolean quoteMode = false;
    while (m.find())
    {
        String sep = m.group();
        if ("\"".equals(sep))
        {
            quoteMode = !quoteMode;
        }
        else if (!quoteMode && ",".equals(sep))
        {
            int toPos = m.start(); 
            list.add(s.substring(pos, toPos));
            pos = m.end();
        }
    }
    if (pos < s.length())
        list.add(s.substring(pos));
    return list;
}

(упражнение для читателя: перейдите к обработке экранированных кавычек, ища также обратную косую черту.)

djna · Answer 6 · 18 ноября 2009

Вы находитесь в этой надоедливой граничной области, где регулярные выражения почти не подходят (как указывал Барт, выход из кавычек усложнил бы жизнь), и все же полноценный парсер кажется избыточным.

Если вам, скорее всего, понадобится больше сложности в ближайшее время, я бы поехал искать библиотеку синтаксического анализатора. Например этот

Matthew Sowders · Answer 7 · 18 ноября 2009

Попробуйте lookaround , как (?!\"),(?!\"). Это должно соответствовать ,, которые не окружены ".

Stefan Kendall · Answer 8 · 18 ноября 2009

Вместо того, чтобы использовать lookahead и другие сумасшедшие регулярные выражения, сначала вытащите кавычки. То есть для каждой группировки цитат замените эту группировку на __IDENTIFIER_1 или каким-либо другим индикатором и сопоставьте эту группировку с картой строки, строки.

После разделения на запятую замените все сопоставленные идентификаторы исходными строковыми значениями.

Woot4Moo · Answer 9 · 18 ноября 2009

Я бы сделал что-то вроде этого:

boolean foundQuote = false;

if(charAtIndex(currentStringIndex) == '"')
{
   foundQuote = true;
}

if(foundQuote == true)
{
   //do nothing
}

else 

{
  string[] split = currentString.split(',');  
}

Java: разделение запятой строки, но игнорирование запятых в кавычках

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

EDIT

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Java: разделение запятой строки, но игнорирование запятых в кавычках

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

EDIT

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов