Могу ли я оцифровать словарь? - PullRequest
3 голосов
/ 22 марта 2011

Я нашел общедоступный латинский <-> португальский словарь в PDF, который я хотел бы преобразовать в обычный текст, проанализировать и использовать в качестве базы данных программы.Однако после некоторого тестирования я немного скептически отнесся.Взгляните на оригинальный файл и на получившийся текст gocr .Есть ли надежда, что я смогу достичь 99% + точности в каком-то методе?Я думал о базе данных reCaptcha, но я думаю, что это собственность Google, не так ли?

Спасибо!

Ответы [ 2 ]

2 голосов
/ 22 марта 2011

Или WordNet .

РЕДАКТИРОВАТЬ: Я только что заметил, что это словарь латинского / португальского языка, поэтому WordNet явно не годится.

2 голосов
/ 22 марта 2011

Другой способ - использовать один из свободно доступных файлов словарей, например http://www.brothersoft.com/downloads/dictionary-database.html

...