Каков наилучший способ индексирования PDF-документов?Должен ли я индексировать их путем преобразования PDF-документов в TXT или есть лучший способ индексировать PDF-файлы?
Если вы говорите о solr: см. ExtractingRequestHandler .