У меня есть куча нграмм переменной орфографии, и я хочу сопоставить каждую нграм со своим словом наилучшего соответствия из списка известных желаемых выходных данных.
Например, ['mob', 'MOB',' mobi ',' MOBIL ',' Mobile] сопоставляются с желаемым выходом 'mobile'.
Каждый вход от ['desk', 'Desk + Tab', 'Tab + Desk', 'Рабочий стол »,« dsk »] отображается на желаемый результат« рабочий стол »
У меня есть около 30 из этих« выходных »слов и куча около нескольких миллионов нграмм (гораздо меньше уникальных).
Моя лучшая идея на данный момент заключалась в том, чтобы получить все уникальные ngram, скопировать и вставить их в Excel и вручную создать таблицу сопоставления, это заняло слишком много времени и не было расширяемым.Второй идеей было что-то с нечетким (нечетким-нечетким) соответствием, но оно не очень хорошо соответствовало.
У меня совсем нет опыта работы с терминологией или библиотеками естественного языка, поэтому я не могу найти ответ на вопрос, как это можно сделать лучше, быстрее и эффективнее, когда число уникальных нграмм увеличивается или «выводится»слова меняются.
Есть совет?