Question

У меня есть проект, над которым я работаю, который собирает данные с различных веб-сайтов посредством очистки, а затем очищает входные данные и сохраняет их в монго.

В настоящее время мне приходится внедрять множество собственных решений длянормализация или дезинфекция грязных / некрасивых данных по мере их удаления. Например, заменив все вхождения США, США, США и США просто «США», чтобы обеспечить единообразие представлений, а также нормализовать представления валют и числовые значения. Поэтому в основном я должен регулярно делать следующее:

«Нечеткие» соответствия необработанных строковых значений для нормализации представления (США; США, США -> США)
Диапазоны разбора (datetimesили числовые) из текста в (min, max,) кортеж («от 1200 до 1500»; «50 - 60»; «12 +»)
Определение валюты и числового значения из текста ($ 200; £1 200;)

Мои текущие реализации работают, но я часто нахожу случаи, которые мне не нравятся, в моем обширном списке утверждений elif. Я не могу не чувствовать, что заново изобретаю колесо (что плохо), наверняка должна быть библиотека Python, которая решает эту проблему?

Gallaecio · Answer 1 · 06 ноября 2019

Для дат используйте dateparser
Для цен и валют используйте Price-parser
Для стран pycountry может работать
Для числовых диапазонов, как представляется, pynumparser

Библиотека для очистки и нормализации грязных очищенных данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Библиотека для очистки и нормализации грязных очищенных данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы