Question

Я пытаюсь сделать что-то очень похожее на предыдущий вопрос , но я сталкиваюсь с ошибкой.У меня есть фрейм данных pandas, содержащий функции и метку, мне нужно сделать какое-то преобразование, чтобы отправить функции и переменную метки в объект машинного обучения:

import pandas
import milk
from scikits.statsmodels.tools import categorical

, тогда у меня есть:

trainedData=bigdata[bigdata['meta']<15]
untrained=bigdata[bigdata['meta']>=15]
#print trainedData
#extract two columns from trainedData
#convert to numpy array
features=trainedData.ix[:,['ratio','area']].as_matrix(['ratio','area'])
un_features=untrained.ix[:,['ratio','area']].as_matrix(['ratio','area'])
print 'features'
print features[:5]
##label is a string:single, touching,nuclei,dust
print 'labels'

labels=trainedData.ix[:,['type']].as_matrix(['type'])
print labels[:5]
#convert single to 0, touching to 1, nuclei to 2, dusts to 3
#
tmp=categorical(labels,drop=True)
targets=categorical(labels,drop=True).argmax(1)
print targets

Выходная консоль выдает сначала:

features
[[ 0.38846334  0.97681855]
[ 3.8318634   0.5724734 ]
[ 0.67710876  1.01816444]
[ 1.12024943  0.91508699]
[ 7.51749674  1.00156707]]
labels
[[single]
[touching]
[single]
[single]
[nuclei]]

Затем я встречаю следующую ошибку:

Traceback (most recent call last):
File "/home/claire/Applications/ProjetPython/projet particule et objet/karyotyper/DAPI-Trainer02-MILK.py", line 83, in <module>
tmp=categorical(labels,drop=True)
File "/usr/local/lib/python2.6/dist-packages/scikits.statsmodels-0.3.0rc1-py2.6.egg/scikits/statsmodels/tools/tools.py", line 206, in categorical
tmp_dummy = (tmp_arr[:,None]==data).astype(float)
AttributeError: 'bool' object has no attribute 'astype'

Возможно ли преобразовать переменную категории 'type' в кадре данных в int?'type' может принимать значения 'single', 'touch', 'kernels', 'dusts', и мне нужно преобразовать со значениями типа int, такими как 0, 1, 2, 3.

tomp · Answer 1 · 09 мая 2016

Предыдущие ответы устарели, поэтому здесь есть решение для сопоставления строк с числами, которое работает с версией 0.18.1 Pandas.

Для серии:

In [1]: import pandas as pd
In [2]: s = pd.Series(['single', 'touching', 'nuclei', 'dusts',
                       'touching', 'single', 'nuclei'])
In [3]: s_enc = pd.factorize(s)
In [4]: s_enc[0]
Out[4]: array([0, 1, 2, 3, 1, 0, 2])
In [5]: s_enc[1]
Out[5]: Index([u'single', u'touching', u'nuclei', u'dusts'], dtype='object')

Для фрейма данных:

In [1]: import pandas as pd
In [2]: df = pd.DataFrame({'labels': ['single', 'touching', 'nuclei', 
                       'dusts', 'touching', 'single', 'nuclei']})
In [3]: catenc = pd.factorize(df['labels'])
In [4]: catenc
Out[4]: (array([0, 1, 2, 3, 1, 0, 2]), 
        Index([u'single', u'touching', u'nuclei', u'dusts'],
        dtype='object'))
In [5]: df['labels_enc'] = catenc[0]
In [6]: df
Out[4]:
         labels  labels_enc
    0    single           0
    1  touching           1
    2    nuclei           2
    3     dusts           3
    4  touching           1
    5    single           0
    6    nuclei           2

Wes McKinney · Answer 2 · 19 октября 2011

Если у вас есть вектор строк или других объектов, и вы хотите присвоить ему категориальные метки, вы можете использовать класс Factor (доступный в пространстве имен pandas):

In [1]: s = Series(['single', 'touching', 'nuclei', 'dusts', 'touching', 'single', 'nuclei'])

In [2]: s
Out[2]: 
0    single
1    touching
2    nuclei
3    dusts
4    touching
5    single
6    nuclei
Name: None, Length: 7

In [4]: Factor(s)
Out[4]: 
Factor:
array([single, touching, nuclei, dusts, touching, single, nuclei], dtype=object)
Levels (4): [dusts nuclei single touching]

Фактор имеет атрибуты labels и levels:

In [7]: f = Factor(s)

In [8]: f.labels
Out[8]: array([2, 3, 1, 0, 3, 2, 1], dtype=int32)

In [9]: f.levels
Out[9]: Index([dusts, nuclei, single, touching], dtype=object)

Это предназначено для одномерных векторов, поэтому не уверен, что оно может быть сразу применено к вашей проблеме, но посмотрите.

Кстати, я рекомендую вам задать эти вопросы в списках рассылки statsmodels и / или scikit-learn, поскольку большинство из нас не являются частыми пользователями SO.

D. A. · Answer 3 · 07 февраля 2013

Я отвечаю на вопрос для Панд 0.10.1.Factor.from_array кажется, добивается цели.

>>> s = pandas.Series(['a', 'b', 'a', 'c', 'a', 'b', 'a'])
>>> s
0    a
1    b
2    a
3    c
4    a
5    b
6    a
>>> f = pandas.Factor.from_array(s)
>>> f
Categorical: 
array([a, b, a, c, a, b, a], dtype=object)
Levels (3): Index([a, b, c], dtype=object)
>>> f.labels
array([0, 1, 0, 2, 0, 1, 0])
>>> f.levels
Index([a, b, c], dtype=object)

skjerns · Answer 4 · 22 марта 2018

, поскольку ни один из этих способов не работает для измерений> 1, я сделал некоторый код, работающий для любой размерности массива:

def encode_categorical(array):
    d = {key: value for (key, value) in zip(np.unique(array), np.arange(len(u)))}
    shape = array.shape
    array = array.ravel()
    new_array = np.zeros(array.shape, dtype=np.int)
    for i in range(len(array)):
        new_array[i] = d[array[i]]
    return new_array.reshape(shape)

Конвертировать массив строк (категорий) в массив int из кадра данных pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Конвертировать массив строк (категорий) в массив int из кадра данных pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов