Интеллектуальный анализ данных с помощью python (pandas) (очистка данных) - PullRequest
0 голосов
/ 08 октября 2019

Пожалуйста, кто-нибудь может мне помочь, я новичок в области интеллектуального анализа данных, и я ищу способ добавить BaltimoreWashington и Baltimore-Washington, включая их значения и как единое целое, а также сделать Денвер единым и добавить все егозначения в единицу. (Очистка данных) Пожалуйста, смотрите данные ниже для лучшего понимания ..

df3=pd.read_sql_query('select * from avocado', con=engine)
df3["region"].value_counts()
Tampa                   169
Northeast               169
Sacramento              169
NewYork                 169
Plains                  169
Jacksonville            169
Orlando                 169
Boston                  169
Portland                169
Nashville               169
StLouis                 169
LasVegas                169
DallasFtWorth           169
SanDiego                169
Midsouth                169
BuffaloRochester        169
RichmondNorfolk         169
TotalUS                 169
NorthernNewEngland      169
Albany                  169
Chicago                 169
Seattle                 169
Spokane                 169
SouthCentral            169
West                    169
Southeast               169
GreatLakes              169
Atlanta                 169
Detroit                 169
Houston                 169
SouthCarolina           169
CincinnatiDayton        169
LosAngeles              169
Syracuse                169
GrandRapids             169
Philadelphia            169
PhoenixTucson           169
HartfordSpringfield     169
HarrisburgScranton      169
California              169
Indianapolis            169
Boise                   169
MiamiFtLauderdale       169
RaleighGreensboro       169
Louisville              169
Charlotte               169
Pittsburgh              169
SanFrancisco            169
Columbus                169
Roanoke                 169
NewOrleansMobile        169
WestTexNewMexico        167
Denver                  100
BaltimoreWashington      89
Baltimore-Washington     80
 Denver                  50
 Denver                  19
Name: region, dtype: int64

1 Ответ

0 голосов
/ 08 октября 2019

Вам необходимо понять ваш формат данных. Ваши города в основном представляют собой категории, представленные в виде строки, поэтому value_counts () подсчитывает численность населения для каждой категории, еще раз на основе строкового представления.

Таким образом, у вас есть как минимум два варианта для объединения ваших категорий. Сначала вы можете изменить строковое представление выданных вами категорий. В основном замените "-" на "" для Вашингтона и "" на "" для Денвера.

Или вы можете найти в своем datamart (если он существует) другое представление ваших категорий, менее чувствительное к опечаткам,как закрытые числовые категории. Здесь все зависит от качества данных, вы можете анализировать данные, если ваша разделенная категория действительно разделена для каждого представления.

Надеюсь, это помогло.

...