Я использую Apache Tika для извлечения содержимого PDF-файла в строку. Тем не менее, мне нужно найти несколько шаблонов в файле.
Полагаю, мне нужно использовать регулярное выражение для поиска строки. Это правильный подход и использование Tika, чтобы проверить, существует ли определенное ключевое слово в файле PDF.
Я использую следующий код, но он не находит соответствия для регулярного выражения. keyword
- это строка, которую я хочу найти в моем тексте.
for (int i=0; i<num_keywords; i++) {
String keyword = keywords.get(i);
Pattern p = Pattern.compile(keyword);
Matcher m = p.matcher(handlerContent);
if(m.find())
{
System.out.println("Found comment: "+m.group());
}
//updatelog(keyword,f.getName());
}