У меня есть набор данных около 1 миллиона имен работодателей. Эти имена взяты из текстового поля произвольной формы, поэтому они содержат неправильные написания и различия в способе их ввода (например, "Amazon" .. "Amzaon" .. "Amazon.com" .. "Amazon Web Services" .. "AWS ").
Я хочу либо А) сгруппировать эти 1 миллион, так что у меня есть довольно точное представление о том, сколько уникальных работодателей содержится в наборе данных, или Б) найти все варианты любого конкретного работодателя.
До сих пор я использовал данные в Таблице, затем фильтровал по «имени работодателя» и искал все возможные варианты имени. Но это утомительно, и я почти уверен, что пропускаю многих.
Я также использовал нечеткую надстройку для Excel, но она плохо работала с орфографическими ошибками, специальными символами ...