Эффективный метод для преобразования строк внутри фреймов данных в массивы - PullRequest
0 голосов
/ 15 февраля 2020

Я работаю с набором данных из нескольких таблиц CSV. Одна из этих таблиц, состоящая из двух столбцов, имеет массивы с плавающей точкой с 512 элементами в виде строк. Таблица довольно большая, поэтому мне было интересно, есть ли какой-нибудь эффективный метод для преобразования их в фактические массивы в виде столбцов вместо простой итерации по записям.

Форма исходной таблицы :( Несколько миллионов записей, 2)

Желаемая форма вывода: (Несколько миллионов записей, 513) Или, может быть (Несколько миллионов записей, 2), но теперь второй столбец содержит NumPy массивы, а не строки.

1 Ответ

0 голосов
/ 15 февраля 2020

Итак, в основном вам нужно преобразовать strings, хранящийся в кадре данных pandas, имеющий значения некоторых чисел с плавающей запятой, например '1.05', для преобразования в массив numpy.

Итак, вы можете преобразовать эти строки в плавающее, как показано ниже:

df['col1'] = df['col1'].astype(float)

И затем вы можете преобразовать весь массив данных в массив numpy следующим образом:

array = df.to_numpy()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...