Что такое быстрый и неконтролируемый способ проверки качества PDF-извлеченного текста? - PullRequest
4 голосов
/ 21 сентября 2009

Я работаю над несколько большим корпусом, статьи которого насчитывают десятки тысяч. В настоящее время я использую PDFBox для извлечения файлов с различным успехом, и я ищу способ программной проверки каждого файла, чтобы увидеть, было ли извлечение умеренно успешным или нет. В настоящее время я думаю запустить проверку правописания на каждом из них, но язык может отличаться, я еще не уверен, с какими языками я имею дело. Обнаружение естественного языка с оценками также может быть идеей.

О, и любой метод также должен хорошо работать с Java, быть быстрым и относительно быстрым для интеграции.

Ответы [ 3 ]

2 голосов
/ 21 сентября 2009

Попробуйте автоматическую проверку правописания. Это не так страшно, как кажется: начните с большого словаря, содержащего все слова, которые вы можете встретить. Это может быть из нескольких языков.

При сканировании PDF разрешите определенное количество неизвестных слов (скажем, 5%). Если какое-либо из этих слов повторяется достаточно часто (скажем, 5 раз), добавьте их в словарь. Если PDF-файл содержит более 5% неизвестных слов, это очень вероятно, что-то, что не может быть обработано.

Сканер научится со временем, что позволит вам сократить количество неизвестных слов, если это будет необходимо. Если это слишком много, очень хороший словарь тоже должен сработать.

Если у вас нет словаря, вручную обработайте пару документов и попросите сканер изучить. После дюжины файлов или около того ваш новый словарь должен быть достаточно большим для разумного уровня воды.

2 голосов
/ 21 сентября 2009

Вы можете просто запустить корпус со списком стоп-слов (наиболее часто встречающиеся слова, которые игнорируются поисковыми системами, например «и» и «the»), но тогда вам, очевидно, сначала понадобятся списки стоп-слов для всех возможных / вероятных языков .

1 голос
/ 21 сентября 2009

Конечно, ни один метод не будет идеальным.

Обычно существует два класса проблем извлечения текста:

1 - ничего не извлекается. Это может быть связано с тем, что у вас есть отсканированный документ или что-то недопустимое в PDF.

Обычно это легко обнаружить, вам не нужен сложный код для проверки.

2 - Вы получаете мусор. В большинстве случаев, потому что файл PDF странно закодирован. Это может быть из-за того, что самодельная кодировка не была должным образом объявлена, или, возможно, автору PDF понадобились символы, не распознаваемые PDF (например, турецкий S с cedilla некоторое время отсутствовал в списке глиняных глифов: вы не могли создать правильно закодированный файл с этим внутри, так что вам пришлось обманывать, чтобы визуально увидеть его на странице).

Я использую метод, основанный на ngram, для обнаружения языков PDF-файлов на основе извлеченного текста (с разными технологиями, но идея та же). Файлы, язык которых не был распознан, обычно являются подозреваемыми в проблеме ...

О проверке орфографии Я полагаю, это даст вам массу ложных срабатываний, особенно если у вас несколько языков!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...