В настоящее время я пытаюсь помочь нашей команде по исследованию рынка подготовить / очистить некоторые очень грязные данные опроса.Мне дали файл CSV (планируется импортировать в таблицу БД) с ответами около 2000 человек на 30 вопросов.
В опросе задавались вопросы типа «какое твое любимое телешоу?»или "в какие 3 мобильных игры вы играете регулярно?"Респонденты могли отвечать на вопросы так, как они хотели, так что, как вы можете себе представить, данные крайне беспорядочные.
Таким образом, в случае вопроса о мобильных играх ответы часто менялись следующим образом:
1. Candy Crush and Clash of Clans
2. Candy Crush Saga, Clash, Bejeweled Blitz
3. BEJEWELED
4. Pac-man
5. PACMAN
etc etc
Какой подход я должен использовать для очистки и унификации этих данных с помощью SQL или Excel?Очевидно, не пытаясь получить все, но как можно больше.