Извлечение содержимого из строки с помощью Regex - PullRequest
0 голосов
/ 17 февраля 2012

Я использую Apache Tika для извлечения содержимого PDF-файла в строку. Тем не менее, мне нужно найти несколько шаблонов в файле.

Полагаю, мне нужно использовать регулярное выражение для поиска строки. Это правильный подход и использование Tika, чтобы проверить, существует ли определенное ключевое слово в файле PDF.

Я использую следующий код, но он не находит соответствия для регулярного выражения. keyword - это строка, которую я хочу найти в моем тексте.

for (int i=0; i<num_keywords; i++) {            
            String keyword = keywords.get(i);
            Pattern p = Pattern.compile(keyword);
            Matcher m = p.matcher(handlerContent);
            if(m.find())
            {
                System.out.println("Found comment: "+m.group());
            }
            //updatelog(keyword,f.getName());
        }   
...