обнаружение неправильного написания по новому списку слов, которых нет в словаре? (например, названия лекарств) - PullRequest
0 голосов
/ 07 марта 2019

У меня в списке лекарств говорят:

['EXEMESTANE', 'FILGRASTIM', 'FLUCONAZOLE', 'FLUDARABINE', 'FLUOROURACIL', 'FOLINIC ACID', 'FULVESTRANT', 'GANETESPIB', 'GEFETINIB', 'GEFITINIB', 'GEMCITABINE','GEMTUZUMAB', 'GEMTUZUMAB OZOGAMICIN', 'GEMTUZUMAB OZOGAMYCIN', 'GONADORELIN', 'GOSERELIN', 'HERCEPTIN', 'HYDROCORTISONE', 'HYDROXYCARBAMIDE', 'HYDROXYCARBIMIDE', 'IBANDRONATE', 'IBRITINIB', 'IBRUTANIB', 'IBRUTINIB', 'IDARUBICIN']

Кто-нибудь знает какую-либо библиотеку / алгоритм, который может быстро обнаружить, например, что одна из 'GEFETINIB' или 'GEFITINIB' является неправильным написанием?

Вывод должен возвращать список, в котором нет орфографических ошибок, таких как:

['EXEMESTANE', 'FILGRASTIM', 'FLUCONAZOLE', 'FLUDARABINE', 'FLUOROURACIL', 'FOLINIC ACID', 'FULVESTRANT', 'GANETESPIB', 'GEFETINIB', 'GEMCITABINE', 'GEMTUZUMAB', 'GEMTUZUMAB OZOGAMYCIN', 'GONADORELIN', 'GOSERELIN', 'HERCEPTIN',
 'HYDROCORTISONE', 'HYDROXYCARBAMIDE', 'IBANDRONATE', 'IBRUTANIB', 'IDARUBICIN']

Неважно, какое из них является правильным написанием, я просто хотел бы в конце список уникальных лекарств без дублирования одного и того же лекарства, но с разным написанием.

Исходный список содержит около 1000 наименований.

...