Мое регулярное выражение вызывает переполнение стека в Java; что мне не хватает? - PullRequest
6 голосов
/ 10 сентября 2010

Я пытаюсь использовать регулярное выражение со сканером для сопоставления строки из файла.Регулярное выражение работает со всем содержимым файла, за исключением этой строки:

DNA="ITTTAITATIATYAAAYIYI[....]ITYTYITTIYAIAIYIT"

в реальном файле, многоточие представляет еще несколько тысяч символов.

Когда цикл, который читаетфайл приходит на строку, содержащую базы, возникает ошибка переполнения стека.

Вот цикл:

while (scanFile.hasNextLine()) {
   final String currentLine = scanFile.findInLine(".*");
   System.out.println("trying to match '" + currentLine + "'");
   Scanner internalScanner = new Scanner(currentLine);
   String matchResult = internalScanner.findInLine(Constants.ANIMAL_INFO_REGEX);
   assert matchResult != null : "there's no reason not to find a match"; 
   matches.put(internalScanner.match().group(1), internalScanner.match().group(2));
   scanFile.nextLine();
  }

и регулярное выражение:

static final String ANIMAL_INFO_REGEX = "([a-zA-Z]+) *= *\"(([a-zA-Z_.]| |\\.)+)";

след ошибки:

java.lang.StackOverflowError
    at java.util.regex.Pattern$CharProperty.match(Pattern.java:3360)
    at java.util.regex.Pattern$Branch.match(Pattern.java:4131)
    at java.util.regex.Pattern$GroupHead.match(Pattern.java:4185)
    at java.util.regex.Pattern$Loop.match(Pattern.java:4312)
    at java.util.regex.Pattern$GroupTail.match(Pattern.java:4244)
    at java.util.regex.Pattern$BranchConn.match(Pattern.java:4095)
    at java.util.regex.Pattern$CharProperty.match(Pattern.java:3362)
    at java.util.regex.Pattern$Branch.match(Pattern.java:4131)
    at java.util.regex.Pattern$GroupHead.match(Pattern.java:4185)
    at java.util.regex.Pattern$Loop.match(Pattern.java:4312)
    at java.util.regex.Pattern$GroupTail.match(Pattern.java:4244)
    at java.util.regex.Pattern$BranchConn.match(Pattern.java:4095)
    at java.util.regex.Pattern$CharProperty.match(Pattern.java:3362)
    at java.util.regex.Pattern$Branch.match(Pattern.java:4131)
    at java.util.regex.Pattern$GroupHead.match(Pattern.java:4185)
    at java.util.regex.Pattern$Loop.match(Pattern.java:4312)
    at java.util.regex.Pattern$GroupTail.match(Pattern.java:4244)
    at java.util.regex.Pattern$BranchConn.match(Pattern.java:4095)
    ...etc (it's all regex).

Большое спасибо!

Ответы [ 4 ]

4 голосов
/ 10 сентября 2010

Это выглядит как ошибка 5050507 . Я согласен с Асафом, что устранение чередования должно помочь; ошибка, в частности, гласит: «Избегайте чередования, когда это возможно». Я думаю, что вы можете пойти, вероятно, даже проще:

"^([a-zA-Z]+) *= *\"([^\"]+)"
3 голосов
/ 10 сентября 2010

Попробуйте эту упрощенную версию вашего регулярного выражения, которая удаляет некоторые ненужные | операторы (которые могли быть причиной того, что механизм регулярных выражений делает много ветвлений) и включает в себя начало и конец якоря строки.

static final String ANIMAL_INFO_REGEX = "^([a-zA-Z]+) *= *\"([a-zA-Z_. ]+)\"$";
2 голосов
/ 10 сентября 2010

прочитайте это, чтобы понять проблему: http://www.regular -expressions.info / catastrophic.html ... и затем используйте одно из других предложений

1 голос
/ 10 сентября 2010

Как уже говорили другие, ваше регулярное выражение гораздо менее эффективно, чем должно быть. Я бы сделал еще один шаг и использовал бы собственнические квантификаторы:

"^([a-zA-Z]++) *+= *+\"([^\"]++)\"$"

Но то, как вы используете сканер, также не имеет особого смысла. Нет необходимости использовать findInLine(".*") для чтения строки; это то, что делает nextLine(). И вам не нужно создавать другой сканер, чтобы применить свое регулярное выражение; просто используйте Matcher.

static final Pattern ANIMAL_INFO_PATTERN = 
    Pattern.compile("^([a-zA-Z]++) *+= *+\"([^\"]++)\"$");

...

  Matcher lineMatcher = ANIMAL_INFO_PATTERN.matcher("");
  while (scanFile.hasNextLine()) {
    String currentLine = scanFile.nextLine();
    if (lineMatcher.reset(currentLine).matches()) {
      matches.put(lineMatcher.group(1), lineMatcher.group(2));
    }
  }
...