Я собираюсь обратить умный анализ Даниэля здесь к ответу для протокола.Не голосуйте за это, просто найдите что-то его, чтобы голосовать: -)
Есть два способа получить несоответствие направленности с текстом RTL.Вы можете индексировать его задом наперед или запрашивать его задом наперед.Простая HTML-форма, запрашивающая Solr, никогда не испортит направленность.Для этого Халед извлекал текст из PDF-файла, используя библиотеку, которая становится жертвой тенденции PDF-файлов содержать текст «визуального порядка», а не «логического порядка».Таким образом, индекс был полон отсталого арабского языка.Чтобы это исправить, ему нужно будет создать рабочую библиотеку, которая извлекает текст из PDF-файлов.
Может помочь принудительное использование Apache Tika последней версии Apache PDFbox, или его PDF может быть настолько странным, что даже последняя версия PDFBoxне могу справиться с этим.В этом случае у него серьезные проблемы.