Замена строк (категорий) в одном столбце, который состоит из целых чисел, чисел с плавающей точкой и категориальных строк - Панды - PullRequest
0 голосов
/ 24 октября 2018

У меня есть столбец Pandas, который содержит в основном целые числа, немного чисел с плавающей точкой и некоторые строки, такие как «да», «нет» и несколько других строк.Чем я могу заменить эти строки?Поскольку столбец не является полностью категоричным, я не могу сделать общее горячее кодирование или подобное.Каковы лучшие практики в этом случае?

ОБНОВЛЕНИЕ: По какой-то причине не очевидно, как выглядит этот столбец, поэтому вот пример:

column_name
   1000
    45
    3.0
    yes
    no
    340.0
     p
     k
     4
     .
     .
     .

Данные полностью составлены,Единственное, что мне нужно знать, каковы лучшие практики работы со строками, подобными этой, в столбце.

1 Ответ

0 голосов
/ 25 октября 2018

для сопоставления категориальных данных, вам нужно использовать

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html

пример:

import pandas as pd
df = pd.DataFrame({'A':[1,2,3,4], 'B': ['a', 'b', 'c', 'd'], 'C': [1,'e', 'f', 3]})

# all strings:
pd.get_dummies(df['B'])

    a   b   c   d
0   1   0   0   0
1   0   1   0   0
2   0   0   1   0
3   0   0   0   1

# mixed types:
pd.get_dummies(df['C'])


    1   3   e   f
0   1   0   0   0
1   0   0   1   0
2   0   0   0   1
3   0   1   0   0
...