Конечно, ни один метод не будет идеальным.
Обычно существует два класса проблем извлечения текста:
1 - ничего не извлекается.
Это может быть связано с тем, что у вас есть отсканированный документ или что-то недопустимое в PDF.
Обычно это легко обнаружить, вам не нужен сложный код для проверки.
2 - Вы получаете мусор.
В большинстве случаев, потому что файл PDF странно закодирован.
Это может быть из-за того, что самодельная кодировка не была должным образом объявлена, или, возможно, автору PDF понадобились символы, не распознаваемые PDF (например, турецкий S с cedilla некоторое время отсутствовал в списке глиняных глифов: вы не могли создать правильно закодированный файл с этим внутри, так что вам пришлось обманывать, чтобы визуально увидеть его на странице).
Я использую метод, основанный на ngram, для обнаружения языков PDF-файлов на основе извлеченного текста (с разными технологиями, но идея та же). Файлы, язык которых не был распознан, обычно являются подозреваемыми в проблеме ...
О проверке орфографии Я полагаю, это даст вам массу ложных срабатываний, особенно если у вас несколько языков!