Question

Итак, у меня есть строка:

//Blah blah blach
// sdfkjlasdf
"Another //thing"

И я использую регулярное выражение java, чтобы заменить все строки, которые имеют двойную косую черту, например:

theString = Pattern.compile("//(.*?)\\n", Pattern.DOTALL).matcher(theString).replaceAll("");

большая часть, но проблема в том, что он удаляет все вхождения, и мне нужно найти способ, чтобы он не удалял цитируемое вхождение.Как мне это сделать?

Bart Kiers · Answer 1 · 18 февраля 2010

Вместо использования синтаксического анализатора, который анализирует весь исходный файл Java, или написания чего-то самостоятельно, анализирующего только те части, которые вам интересны, вы можете использовать какой-нибудь сторонний инструмент, например ANTLR.

ANTLR имеет возможность определять только те токены, которые вам интересны (и, конечно, токены, которые могут испортить ваш поток токенов, например многострочные комментарии и литералы строк и символов). Таким образом, вам нужно только определить лексер (другое слово для токенизатора), который правильно обрабатывает эти токены.

Это называется грамматикой. В ANTLR такая грамматика может выглядеть так:

lexer grammar FuzzyJavaLexer;

options{filter=true;}

SingleLineComment
  :  '//' ~( '\r' | '\n' )*
  ;

MultiLineComment
  :  '/*' .* '*/'
  ;

StringLiteral
  :  '"' ( '\\' . | ~( '"' | '\\' ) )* '"'
  ;

CharLiteral
  :  '\'' ( '\\' . | ~( '\'' | '\\' ) )* '\''
  ;

Сохраните все вышеперечисленное в файле с именем FuzzyJavaLexer.g. Теперь скачайте ANTLR 3.2 здесь и сохраните его в той же папке, что и файл FuzzyJavaLexer.g.

Выполнить следующую команду:

java -cp antlr-3.2.jar org.antlr.Tool FuzzyJavaLexer.g

, который создаст FuzzyJavaLexer.java исходный класс.

Конечно, вам нужно протестировать лексер, что вы можете сделать, создав файл с именем FuzzyJavaLexerTest.java и скопировав в него приведенный ниже код:

import org.antlr.runtime.*;

public class FuzzyJavaLexerTest {
    public static void main(String[] args) throws Exception {
        String source = 
            "class Test {                                 \n"+
            "  String s = \" ... \\\" // no comment \";   \n"+
            "  /*                                         \n"+
            "   * also no comment: // foo                 \n"+
            "   */                                        \n"+
            "  char quote = '\"';                         \n"+
            "  // yes, a comment, finally!!!              \n"+
            "  int i = 0; // another comment              \n"+
            "}                                            \n";
        System.out.println("===== source =====");
        System.out.println(source);
        System.out.println("==================");
        ANTLRStringStream in = new ANTLRStringStream(source);
        FuzzyJavaLexer lexer = new FuzzyJavaLexer(in);
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        for(Object obj : tokens.getTokens()) {
            Token token = (Token)obj;
            if(token.getType() == FuzzyJavaLexer.SingleLineComment) {
                System.out.println("Found a SingleLineComment on line "+token.getLine()+
                        ", starting at column "+token.getCharPositionInLine()+
                        ", text: "+token.getText());
            }
        }
    }
}

Затем скомпилируйте FuzzyJavaLexer.java и FuzzyJavaLexerTest.java, выполнив:

javac -cp .:antlr-3.2.jar *.java

и, наконец, выполните файл FuzzyJavaLexerTest.class:

// *nix/MacOS
java -cp .:antlr-3.2.jar FuzzyJavaLexerTest

или

// Windows
java -cp .;antlr-3.2.jar FuzzyJavaLexerTest

, после чего вы увидите следующее сообщение:

===== source =====
class Test {                                 
  String s = " ... \" // no comment ";   
  /*                                         
   * also no comment: // foo                 
   */                                        
  char quote = '"';                         
  // yes, a comment, finally!!!              
  int i = 0; // another comment              
}                                            

==================
Found a SingleLineComment on line 7, starting at column 2, text: // yes, a comment, finally!!!              
Found a SingleLineComment on line 8, starting at column 13, text: // another comment

Довольно просто, а? :)

BalusC · Answer 2 · 18 февраля 2010

Используйте синтаксический анализатор, определите его char-by-char.

Пример запуска:

StringBuilder builder = new StringBuilder();
boolean quoted = false;

for (String line : string.split("\\n")) {
    for (int i = 0; i < line.length(); i++) {
        char c = line.charAt(i);
        if (c == '"') {
            quoted = !quoted;
        }
        if (!quoted && c == '/' && i + 1 < line.length() && line.charAt(i + 1) == '/') {
            break;
        } else {
            builder.append(c);
        }
    }
    builder.append("\n");
}

String parsed = builder.toString();
System.out.println(parsed);

Adrian Pronk · Answer 3 · 18 февраля 2010

Ниже приводится программа, похожая на grep, которую я написал (на Perl) несколько лет назад.У него есть возможность удалить комментарии Java перед обработкой файла:

# ============================================================================
# ============================================================================
#
# strip_java_comments
# -------------------
#
# Strip the comments from a Java-like file.  Multi-line comments are
# replaced with the equivalent number of blank lines so that all text
# left behind stays on the same line.
#
# Comments are replaced by at least one space .
#
# The text for an entire file is assumed to be in $_ and is returned
# in $_
#
# ============================================================================
# ============================================================================

sub strip_java_comments
{
      s!(  (?: \" [^\"\\]*   (?:  \\.  [^\"\\]* )*  \" )
         | (?: \' [^\'\\]*   (?:  \\.  [^\'\\]* )*  \' )
         | (?: \/\/  [^\n] *)
         | (?: \/\*  .*? \*\/)
       )
       !
         my $x = $1;
         my $first = substr($x, 0, 1);
         if ($first eq '/')
         {
             "\n" x ($x =~ tr/\n//);
         }
         else
         {
             $x;
         }
       !esxg;
}

Этот код на самом деле работает правильно и не может быть обманут хитрыми комбинациями комментарий / цитата.Вероятно, он будет одурачен выходами из Юникода (\ u0022 и т. Д.), Но вы можете легко справиться с ними в первую очередь, если хотите.

Поскольку это Perl, а не Java, код замены придется изменить.Я быстро разбьюсь в создании эквивалентной Java.Ожидание ...

РЕДАКТИРОВАТЬ : Я только что сделал это.Наверное, понадобится работа:

// The trick is to search for both comments and quoted strings.
// That way we won't notice a (partial or full) comment withing a quoted string
// or a (partial or full) quoted-string within a comment.
// (I may not have translated the back-slashes accurately.  You'll figure it out)

Pattern p = Pattern.compile(
       "(  (?: \" [^\"\\\\]*   (?:  \\\\.  [^\"\\\\]* )*  \" )" +  //    " ... "
       "  | (?: ' [^'\\\\]*    (?:  \\\\.  [^'\\\\]*  )*  '  )" +  // or ' ... '
       "  | (?: //  [^\\n] *    )" +                               // or // ...
       "  | (?: /\\*  .*? \\* / )" +                               // or /* ... */
       ")",
       Pattern.DOTALL  | Pattern.COMMENTS
);

Matcher m = p.matcher(entireInputFileAsAString);

StringBuilder output = new StringBuilder();

while (m.find())
{
    if (m.group(1).startsWith("/"))
    {
        // This is a comment. Replace it with a space...
        m.appendReplacement(output, " ");

        // ... or replace it with an equivalent number of newlines
        // (exercise for reader)
    }
    else
    {
        // We matched a quoted string.  Put it back
        m.appendReplacement(output, "$1");
    }
}

m.appendTail(output);
return output.toString();

Alan Moore · Answer 4 · 18 февраля 2010

(Это ответ на вопрос @finnw, заданный в комментарии под его ответом . Это не столько ответ на вопрос ОП, сколько расширенное объяснение того, почему регулярное выражение является неправильным инструментом. )

Вот мой тестовый код:

String r0 = "(?m)^((?:[^\"]|\"(?:[^\"]|\\\")*\")*)//.*$";
String r1 = "(?m)^((?:[^\"\r\n]|\"(?:[^\"\r\n]|\\\")*\")*)//.*$";
String r2 = "(?m)^((?:[^\"\r\n]|\"(?:[^\"\r\n\\\\]|\\\\\")*\")*)//.*$";

String test = 
    "class Test {                                 \n"+
    "  String s = \" ... \\\" // no comment \";   \n"+
    "  /*                                         \n"+
    "   * also no comment: // but no harm         \n"+
    "   */                                        \n"+
    "  /* no comment: // much harm  */            \n"+
    "  char quote = '\"';  // comment             \n"+
    "  // another comment                         \n"+
    "  int i = 0; // and another                  \n"+
    "}                                            \n"
    .replaceAll(" +$", "");
System.out.printf("%n%s%n", test);

System.out.printf("%n%s%n", test.replaceAll(r0, "$1"));
System.out.printf("%n%s%n", test.replaceAll(r1, "$1"));
System.out.printf("%n%s%n", test.replaceAll(r2, "$1"));

r0 - отредактированное регулярное выражение из вашего ответа; он удаляет только последний комментарий (// and another), потому что все остальное соответствует группе (1). Настройка многострочного режима ((?m)) необходима для правильной работы ^ и $, но это не решает эту проблему, потому что ваши классы персонажей все еще могут соответствовать символам новой строки.

r1 имеет дело с проблемой перевода строки, но она по-прежнему неправильно соответствует // no comment в строковом литерале по двум причинам: вы не включили обратную косую черту в первой части (?:[^\"\r\n]|\\\"); и вы использовали только два из них, чтобы соответствовать обратному слешу во второй части.

r2 исправляет это, но не пытается справиться с кавычкой в буквальном или * однострочном комментарии char внутри многострочных комментариев. С ними, вероятно, тоже можно справиться, но это регулярное выражение уже Baby Godzilla; ты действительно хочешь увидеть все это повзрослевшим?

Piotr Czapla · Answer 5 · 18 февраля 2010

Вы не можете сказать, используя регулярные выражения, если вы в строке в двойных кавычках или нет. В конце концов, регулярное выражение - это просто конечный автомат (иногда расширенный abit). Я бы использовал парсер, предоставленный BalusC или этот .

Если вы хотите знать, почему регулярные выражения ограничены, читайте о формальных грамматиках. Википедия статья - хорошее начало.

Как сопоставить комментарий, если он не находится в строке в кавычках?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сопоставить комментарий, если он не находится в строке в кавычках?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы