Question

Хорошо известно [1] [2], что numpy.loadtxt не особенно быстро загружает простые текстовые файлы, содержащие числа.

Я искал альтернативные варианты и, конечно же, наткнулся на pandas.read_csv и astropy io.ascii. Тем не менее, эти читатели, кажется, не легко отделить от своей библиотеки, и я хотел бы не добавлять 200 МБ гориллы с 5-секундным временем импорта только для чтения некоторых файлов ascii.

Файлы, которые я обычно читаю, простые, без пропущенных данных, без искаженных строк, без NaN, только с плавающей запятой, через пробел или запятую. Но мне нужны массивы в виде вывода.

Кто-нибудь знает, может ли какой-либо из приведенных выше анализаторов использоваться автономно или о любом другом быстром анализаторе, который я мог бы использовать?

Заранее спасибо.

[1] Загрузка NumPy csv СЛИШКОМ медленная по сравнению с Matlab

[2] http://wesmckinney.com/blog/a-new-high-performance-memory-efficient-file-parser-engine-for-pandas/

[Редактировать 1]

Для ясности и уменьшения фонового шума: как я уже говорил в начале, мои файлы ascii содержат простые числа, нет научной нотации, нет данных на фортране, нет ничего смешного, нет ничего, кроме простых чисел .

Пример:

{

arr = np.random.rand(1000,100)
np.savetxt('float.csv',arr)

}

Christoph · Answer 1 · 08 сентября 2018

Лично я для этого просто использую pandas и astropy. Да, они большие и медленные при импорте, но очень широко доступны и на моей машине импортируются менее чем за секунду, так что они не так уж плохи. Я не пробовал, но я бы предположил, что извлечь CSV-ридер из панд или астропии и заставить его создать и запустить автономный процесс не так просто, вероятно, не очень хороший путь.

Можно ли записать свой собственный CSV в считыватель массива Numpy? Если CSV прост, это должно быть возможно сделать с ~ 100 строк, например C / Cython, и если вы знаете свой формат CSV, вы можете получить производительность и размер пакета, который не может быть побежден универсальным решением.

Другой вариант, на который вы можете посмотреть: https://odo.readthedocs.io/. У меня нет опыта с этим, с первого взгляда я не увидел прямой CSV -> Numpy. Но это делает быструю CSV -> базу данных простой, и я уверен, что есть быстрые опции базы данных -> Numpy. Так что можно быстро набрать, например, CSV -> SQLite в памяти -> массив Numpy через odo и, возможно, второй пакет.

Быстрый загрузчик ascii в массивы NumPy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Быстрый загрузчик ascii в массивы NumPy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы