Объедините два файла BDIC из Chrome (hunspell) в один - PullRequest
3 голосов
/ 30 июля 2011

У меня есть два файла BDIC (двоичный словарь?) Из программы проверки орфографии Google Chrome (на основе hunspell). Я хочу объединить эти два файла в один BDIC для всех слов.

Вот читатель / писатель (chromium / src / third_party / hunspell / google / bdict_reader.h) этого формата из источников Chrome (LGPL / C ++)

Как объединить два файла с помощью C ++ или утилиты командной строки?

1 Ответ

3 голосов
/ 25 марта 2015

Объединить два словаря Hunspell легко, есть такие инструменты, как https://github.com/arty-name/hunspell-merge, которые могут помочь вам объединить любое количество исходных словарей вместе.

Создать bdict файл, который понимает Chrome, сложнее. Chrome использует этот формат для оптимизации и использует инструмент convert_dict для преобразования файлов aff и dic в bdict. Я не смог найти этот инструмент в Интернете, поэтому он оставил только один вариант, построив его из источников Chromium. Google имеет довольно простую настройку, которая при тщательном выполнении позволит вам создать этот инструмент. Сначала вы должны выполнить http://dev.chromium.org/developers/how-tos/get-the-code, чтобы получить код и настроить базу среды на своей платформе. После этого выполните ninja -C out\Debug convert_dict и, если завершено без ошибок, найдите исполняемый файл convert_dict в папке out/Debug.

Вы не можете добавить пользовательский язык в Chrome (насколько я знаю), поэтому вам придется заменить один из предопределенных. Я предлагаю установить один из языков, которые вы не понимаете, и использовать его для вашего объединенного. Файлы bdict можно найти в папке профиля пользователя Chrome.

...