Я пытаюсь создать приложение для обработки текста на Java, которое требует ввода текста.Теперь я извлекаю этот ввод из PDF-файла, указанного пользователем.Я использую PdfBox для извлечения текста.У меня проблема в том, что файл PDF может содержать таблицы, уравнения и специальные символы, поэтому текст, который извлекает PdfBox, содержит мусор во многих местах.Из-за этого мое приложение для обработки текста не дает своего оптимального результата.Я хотел знать, имеет ли PDF конкретный формат для таблицы, чтобы я мог добраться до корневого уровня и исключить их при извлечении.Кроме того, во многих случаях извлеченный текст содержит неизвестные символы, отображаемые как '?'хотя в реальном PDF они кажутся нормальными алфавитами.Я также пробовал другую библиотеку - IText, но результаты не были удовлетворительными.Короче говоря, все, что я хочу, это извлечь простые предложения из PDF-файлов, исключая весь другой мусор.Было бы здорово, если бы кто-то мог помочь мне, предложив способ обойти эту проблему или другую лучшую библиотеку извлечения для Java.Спасибо.