Я пытаюсь выделить отдельные слова в файле pdf, но при чтении файла с использованием гема pdf-reader текст получается сломанным, как это
"A lit"
"tle "
"bit of tex"
"t"
Так что я планирую собрать их вместе, используя некоторые эвристики. Для этого мне нужна библиотека, которая проверяет, является ли данная строка действительным английским словом, например
"tree".is_english? # => true
"askdjfah".is_english? # => false
Это существует? В идеале это также будет работать с немецким текстом.
Если нет, есть ли какой-нибудь свободно доступный словарь онлайн? Я думаю, я мог бы написать свою собственную древовидную структуру для поиска, если бы мне пришлось.