У меня есть проект, над которым я работаю, который собирает данные с различных веб-сайтов посредством очистки, а затем очищает входные данные и сохраняет их в монго.
В настоящее время мне приходится внедрять множество собственных решений длянормализация или дезинфекция грязных / некрасивых данных по мере их удаления. Например, заменив все вхождения США, США, США и США просто «США», чтобы обеспечить единообразие представлений, а также нормализовать представления валют и числовые значения. Поэтому в основном я должен регулярно делать следующее:
- «Нечеткие» соответствия необработанных строковых значений для нормализации представления (США; США, США -> США)
- Диапазоны разбора (datetimesили числовые) из текста в (min, max,) кортеж («от 1200 до 1500»; «50 - 60»; «12 +»)
- Определение валюты и числового значения из текста ($ 200; £1 200;)
Мои текущие реализации работают, но я часто нахожу случаи, которые мне не нравятся, в моем обширном списке утверждений elif. Я не могу не чувствовать, что заново изобретаю колесо (что плохо), наверняка должна быть библиотека Python, которая решает эту проблему?