Группировка похожих строк, которые имеют орфографические ошибки, различия в интервалах и т. Д. - PullRequest
2 голосов
/ 30 января 2020

У меня есть набор данных около 1 миллиона имен работодателей. Эти имена взяты из текстового поля произвольной формы, поэтому они содержат неправильные написания и различия в способе их ввода (например, "Amazon" .. "Amzaon" .. "Amazon.com" .. "Amazon Web Services" .. "AWS ").

Я хочу либо А) сгруппировать эти 1 миллион, так что у меня есть довольно точное представление о том, сколько уникальных работодателей содержится в наборе данных, или Б) найти все варианты любого конкретного работодателя.

До сих пор я использовал данные в Таблице, затем фильтровал по «имени работодателя» и искал все возможные варианты имени. Но это утомительно, и я почти уверен, что пропускаю многих.

Я также использовал нечеткую надстройку для Excel, но она плохо работала с орфографическими ошибками, специальными символами ...

Ответы [ 2 ]

1 голос
/ 31 января 2020

Tableau просто не подходит для проведения такого анализа прямо из коробки, и я настоятельно рекомендую выполнить некоторую предварительную обработку ваших данных, прежде чем пытаться построить рабочую книгу на ее основе.

Как сказал другой комментатор, вы можете изучить возможность использования Tableau Prep Builder для одноразового преобразования набора данных, но если вы хотите автоматизировать этот процесс, стоит добавить дополнительные функциональные возможности к любой установке Tableau Server, которую вы используете. иметь.

Если вы знакомы с Python или R (и интеграция между Tableau Server и этими службами поддерживается вашей организацией), вы можете изучить создание сценария для запуска преобразования в реальном времени, но это, вероятно, не будет слишком эффективным.

0 голосов
/ 30 января 2020

Попробуйте поэкспериментировать с Tableau Prep Builder - сопутствующим инструментом, который поставляется с вашей лицензией Tableau Creator. Он имеет групповую функцию, предназначенную именно для этих проблем.

В Prep Builder вам просто нужно подключиться к вашим данным, добавить этап очистки, а затем добавить группу на этапе очистки.

...