Библиотека для очистки и нормализации грязных очищенных данных - PullRequest
0 голосов
/ 31 октября 2019

У меня есть проект, над которым я работаю, который собирает данные с различных веб-сайтов посредством очистки, а затем очищает входные данные и сохраняет их в монго.

В настоящее время мне приходится внедрять множество собственных решений длянормализация или дезинфекция грязных / некрасивых данных по мере их удаления. Например, заменив все вхождения США, США, США и США просто «США», чтобы обеспечить единообразие представлений, а также нормализовать представления валют и числовые значения. Поэтому в основном я должен регулярно делать следующее:

  • «Нечеткие» соответствия необработанных строковых значений для нормализации представления (США; США, США -> США)
  • Диапазоны разбора (datetimesили числовые) из текста в (min, max,) кортеж («от 1200 до 1500»; «50 - 60»; «12 +»)
  • Определение валюты и числового значения из текста ($ 200; £1 200;)

Мои текущие реализации работают, но я часто нахожу случаи, которые мне не нравятся, в моем обширном списке утверждений elif. Я не могу не чувствовать, что заново изобретаю колесо (что плохо), наверняка должна быть библиотека Python, которая решает эту проблему?

1 Ответ

0 голосов
/ 06 ноября 2019
  • Для дат используйте dateparser

  • Для цен и валют используйте Price-parser

  • Для стран pycountry может работать

  • Для числовых диапазонов, как представляется, pynumparser

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...