Похоже, что Solr неправильно анализирует мои PDF-файлы.Мне было интересно, есть ли какая-либо другая альтернатива использованию Apache Tika (который, я считаю, использует PDFBox для внутреннего использования) для анализа файлов PDF?Я, кажется, получаю случайные пробелы между моим контентом при использовании этого.Я изолировал проблему, запустив PDF через PDFBox напрямую (последняя версия), в которой есть та же проблема.
Некоторые коммерческие программы OCR, такие как Omnifind, отлично работают с PDF, но мы не можем интегрировать их с Solr в одном и том жепуть и покупка тоже не вариант.