Преобразование строки столбца на основе уникальных значений - PullRequest
0 голосов
/ 20 ноября 2018

Есть ли способ заменить строковые значения в столбцах двумерного массива упорядоченными числами в Python?

Например, скажем, у вас есть двумерный массив:

a = np.array([['A',0,'C'],['A',0.3,'B'],['D',1,'D']])
a
Out[57]: 
array([['A', '0', 'C'],
       ['A', '0.3', 'B'],
       ['D', '1', 'D']], dtype='<U3')

Если бы я хотелзаменить строковые значения «A», «A», «D» в первом столбце числами 0,0,1 и «C», «B», «D» на 0,1,2, есть ли эффективныйспособ сделать это.

Может быть полезно знать:

  • Номера замен в разных столбцах не зависят от столбца.т. е. каждый столбец, строки которого были заменены числами, будет начинаться с 0 и увеличиваться до количества уникальных значений в этом столбце.
  • Выше приведен тестовый пример, и реальные данные намного больше с большим количеством столбцов.строк.

Вот пример метода решения этой проблемы, который я быстро придумал:

for  j in range(a.shape[1]):
    b = list(set(a[:,j]))
    length = len(b)
    for i in range(len(b)):
        indices = np.where(a[:,j]==b[i])[0]
        print(indices)
        a[indices,j]=i

Однако это кажется неэффективным способом для достижения этой цели и также не может отличитьмежду плавающими или строковыми значениями в столбцах и по умолчанию заменяет значения на строки чисел:

a
Out[91]: 
array([['1.0', '0.0', '2.0'],
       ['1.0', '1.0', '0.0'],
       ['0.0', '2.0', '1.0']], dtype='<U3')

Любая помощь по этому вопросу будет принята с благодарностью!

Ответы [ 2 ]

0 голосов
/ 20 ноября 2018

Кажется, вы пытаетесь сделать label encoding.

Я могу представить два варианта: pandas.factorize и sklearn.preprocessing.LabelEncoder .

Использование LabelEncoder

from sklearn.preprocessing import LabelEncoder

b = np.zeros_like(a, np.int) 
for column in range(a.shape[1]):
    b[:, column] = LabelEncoder().fit_transform(a[:, column])

Тогда b будет:

array([[0, 0, 1],
       [0, 1, 0],
       [1, 2, 2]])

Если вы хотите иметь возможность вернуться к исходным значениям, вам необходимо сохранить кодировщики.Вы можете сделать это следующим образом:

from sklearn.preprocessing import LabelEncoder

encoders = {}
b = np.zeros_like(a, np.int)
for column in range(a.shape[1]):
    encoders[column] = LabelEncoder()
    b[:, column] = encoders[column].fit_transform(a[:, column])

Теперь encoders[0].classes_ будет иметь:

array(['A', 'D'], dtype='<U3')

Это означает, что «A» было сопоставлено с 0, а «D» - 1.

Наконец, если вы используете переопределение кодирования a вместо использования новой матрицы c, вы получите целые числа в виде строк ("1" вместо 1), вы можете решитьэто с astype(int):

encoders = {}
for column in range(a.shape[1]):
    encoders[column] = LabelEncoder()
    a[:, column] = encoders[column].fit_transform(a[:, column])

# At this point, a will have strings instead of ints because a had type str
# array([['0', '0', '1'],
#       ['0', '1', '0'],
#       ['1', '2', '2']], dtype='<U3')

a = a.astype(int)

# Now `a` is of type int
# array([[0, 0, 1],
#        [0, 1, 0],
#        [1, 2, 2]])

Использование pd.factorize

factorize возвращает закодированный столбец и отображение кодировки, поэтому, если вам это не важно, вы можете избежатьсохраняя его:

for column in range(a.shape[1]):
    a[:, column], _ = pd.factorize(a[:, column]) # Drop mapping

a = a.astype(int) # same as above, it's of type str
# a is
# array([[0, 0, 1],
#        [0, 1, 0],
#        [1, 2, 2]])

Если вы хотите сохранить сопоставления кодировки:

mappings = []
for column in range(a.shape[1]):
    a[:, column], mapping = pd.factorize(a[:, column])
    mappings.append(mapping)

a = a.astype(int)

Теперь mappings[0] будет иметь следующие данные:

array(['A', 'D'], dtype=object)

Какиеимеет ту же семантику, что и encoders[0].classes_ решения Sklearn LabelEncoder.

0 голосов
/ 20 ноября 2018

Вы можете делать то, что хотите, эффективно, просто с помощью Numpy.

По сути, вы перебираете значения в каждом столбце ввода, отслеживая наблюдаемые буквы в наборе или в диктовке.Это похоже на то, что у вас уже было, но немного более эффективно (во-первых, вы избегаете вызова np.where).

Вот функция charToIx, которая будет делать то, что вы хотите:

from collections import defaultdict
from string import ascii_letters

class Ix:
    def __init__(self):
        self._val = 0

    def __call__(self):
        val = self._val
        self._val += 1
        return val

def charToIx(arr, dtype=None, out=None):
    if dtype is None:
        dtype = arr.dtype

    if out is None:
        out = np.zeros(arr.shape, dtype=dtype)

    for incol,outcol in zip(arr.T, out.T):
        ix = Ix()
        cixDict = defaultdict(lambda: ix())
        for i,x in enumerate(incol):
            if x in cixDict or x in ascii_letters:
                outcol[i] = cixDict[x]
            else:
                outcol[i] = x

    return out

Вы указываете тип выходного массива при вызове функции.Таким образом, вывод:

a = np.array([['A',0,'C'],['A',0.3,'B'],['D',1,'D']])
print(charToIx(a, dtype=float))

будет массивом float:

array([[0. , 0. , 0. ],
       [0. , 0.3, 1. ],
       [1. , 1. , 2. ]])
...