Question

Интересно, существует ли прямой способ импортировать содержимое файла CSV в массив записей, во многом так, как семейство R's read.table(), read.delim() и read.csv() импортирует данные во фрейм данных R?

Или это лучший способ использовать csv.reader () , а затем применить что-то вроде numpy.core.records.fromrecords()?

Andrew · Answer 1 · 19 августа 2010

Вы можете использовать метод Numpy genfromtxt() для этого, установив delimiter kwarg запятой.

from numpy import genfromtxt
my_data = genfromtxt('my_file.csv', delimiter=',')

Более подробную информацию о функции можно найти в соответствующей документации .

atomh33ls · Answer 2 · 10 октября 2014

Я бы порекомендовал функцию read_csv из библиотеки pandas:

import pandas as pd
df=pd.read_csv('myfile.csv', sep=',',header=None)
df.values
array([[ 1. ,  2. ,  3. ],
       [ 4. ,  5.5,  6. ]])

Это дает пандам DataFrame - что позволяет многополезные функции манипулирования данными, которые не доступны напрямую с массивами записей numy .

DataFrame - это двумерная помеченная структура данных со столбцами потенциально разных типов.Вы можете думать об этом как о электронной таблице или таблице SQL ...

Я бы также порекомендовал genfromtxt.Тем не менее, поскольку вопрос требует массив записей , в отличие от обычного массива, параметр dtype=None необходимо добавить к вызову genfromtxt:

, учитывая входной файл, myfile.csv:

1.0, 2, 3
4, 5.5, 6

import numpy as np
np.genfromtxt('myfile.csv',delimiter=',')

дает массив:

array([[ 1. ,  2. ,  3. ],
       [ 4. ,  5.5,  6. ]])

и

np.genfromtxt('myfile.csv',delimiter=',',dtype=None)

дает массив записи:

array([(1.0, 2.0, 3), (4.0, 5.5, 6)], 
      dtype=[('f0', '<f8'), ('f1', '<f8'), ('f2', '<i4')])

Это имеет то преимущество, что файл с несколькими типами данных (включая строки) может быть легко импортирован .

btel · Answer 3 · 18 января 2011

Вы также можете попробовать recfromcsv(), который может угадывать типы данных и возвращать правильно отформатированный массив записей.

William komp · Answer 4 · 17 февраля 2015

Я рассчитал

from numpy import genfromtxt
genfromtxt(fname = dest_file, dtype = (<whatever options>))

против

import csv
import numpy as np
with open(dest_file,'r') as dest_f:
    data_iter = csv.reader(dest_f,
                           delimiter = delimiter,
                           quotechar = '"')
    data = [data for data in data_iter]
data_array = np.asarray(data, dtype = <whatever options>)

на 4,6 миллиона строк с примерно 70 столбцами и обнаружил, что путь NumPy занял 2 минуты 16 секунд, и понимание csv-listметод занял 13 секунд.

Я бы порекомендовал метод понимания csv-list, поскольку он, скорее всего, опирается на предварительно скомпилированные библиотеки, а не на интерпретатор, а на NumPy.Я подозреваю, что у метода панд были бы похожие интерпретаторы.

HVNSweeting · Answer 5 · 13 октября 2017

Поскольку я пробовал оба способа, используя NumPy и Pandas, использование панд имеет много преимуществ:

Быстрее
Меньше использования процессора
1/3 использования ОЗУ по сравнению с NumPy genfromtxt

Это мой тестовый код:

$ for f in test_pandas.py test_numpy_csv.py ; do  /usr/bin/time python $f; done
2.94user 0.41system 0:03.05elapsed 109%CPU (0avgtext+0avgdata 502068maxresident)k
0inputs+24outputs (0major+107147minor)pagefaults 0swaps

23.29user 0.72system 0:23.72elapsed 101%CPU (0avgtext+0avgdata 1680888maxresident)k
0inputs+0outputs (0major+416145minor)pagefaults 0swaps

test_numpy_csv.py

from numpy import genfromtxt
train = genfromtxt('/home/hvn/me/notebook/train.csv', delimiter=',')

test_pandas.py

from pandas import read_csv
df = read_csv('/home/hvn/me/notebook/train.csv')

Файл данных:

du -h ~/me/notebook/train.csv
 59M    /home/hvn/me/notebook/train.csv

С NumPy и пандами в версиях:

$ pip freeze | egrep -i 'pandas|numpy'
numpy==1.13.3
pandas==0.20.2

chamzz.dot · Answer 6 · 21 июня 2017

Вы можете использовать этот код для отправки данных файла CSV в массив:

import numpy as np
csv = np.genfromtxt('test.csv', delimiter=",")
print(csv)

muTheTechie · Answer 7 · 03 августа 2017

Я пробовал это:

import pandas as p
import numpy as n

closingValue = p.read_csv("<FILENAME>", usecols=[4], dtype=float)
print(closingValue)

Matthew Park · Answer 8 · 14 июня 2018

Это самый простой способ:

import csv with open('testfile.csv', newline='') as csvfile: data = list(csv.reader(csvfile))

Теперь каждая запись данных представляет собой запись, представленную в виде массива.Итак, у вас есть 2D-массив.Это сэкономило мне столько времени.

Xiaojian Chen · Answer 9 · 30 января 2018

Использование numpy.loadtxt

Довольно простой метод.Но для этого нужно, чтобы все элементы были плавающими (int и т. Д.)

import numpy as np 
data = np.loadtxt('c:\\1.csv',delimiter=',',skiprows=0)

Jatin Mandav · Answer 10 · 22 июня 2018

Я бы предложил использовать таблицы (pip3 install tables).Вы можете сохранить файл .csv в .h5, используя pandas (pip3 install pandas),

import pandas as pd
data = pd.read_csv("dataset.csv")
store = pd.HDFStore('dataset.h5')
store['mydata'] = data
store.close()

Затем вы можете легко и с меньшими затратами времени даже для огромного объема данных загрузить свои данные в массив NumPy .

import pandas as pd
store = pd.HDFStore('dataset.h5')
data = store['mydata']
store.close()

# Data in NumPy format
data = data.values

Как мне прочитать данные CSV в массив записей в NumPy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 10 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

test_numpy_csv.py

test_pandas.py

Файл данных:

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как мне прочитать данные CSV в массив записей в NumPy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 10 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

test_numpy_csv.py

test_pandas.py

Файл данных:

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы