Как исправить вывод [nan] из файла csv? - PullRequest
0 голосов
/ 23 июня 2019

Я пытаюсь работать с очень большим CSV-файлом (15 500), который содержит поля Дата, Время (ЧЧ: ММ), Имя, Высокий, Низкий.В идеале этот проект даст мне временные интервалы для данных, чтобы показать, во сколько обычно продается товар с наивысшей и самой низкой ценой.Первый шаг, который я попробовал, - просто вставить данные в python, и у меня уже есть проблемы.Прежде чем я смогу начать думать о том, как достичь конечной цели, я застрял.Я, очевидно, настолько новичок в этом, поэтому, пожалуйста, будьте добры ... `

import numpy as np

my_data = np.genfromtxt('http://localhost:8888/edit/Downloads/sales.csv', delimiter= " , ", invalid_raise = False)


print (my_data)

output

[nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan]

На этом этапе я просто хотел бычтобы убедиться, что мои данные были импортированы правильно.

Следующим шагом, на мой взгляд, будет поиск максимума и минимума для каждой даты, а затем выяснение, в какое время это произошло.

Будет ли это просто цикл for для даты, а затем встроенный цикл for для поиска max и min?

Мне бы хотелось, чтобы простой гистограмма временных корзин внизу показывала, есть ли время, когда продается самый дорогой товар, и когда продается наименее дорогой товар (данные уже в 5-минутных корзинах).

1 Ответ

0 голосов
/ 23 июня 2019

Вокруг "," есть пробелы, попробуйте удалить их. Кроме того, попробуйте добавить dtype = None, encoding = 'utf-8'. Так что попробуйте:

my_data = np.genfromtxt('Downloads/sales.csv', delimiter=",", dtype=None, encoding='utf-8')

Кроме того, если у CSV есть заголовки, вы можете попробовать добавить names=True. Если вы сделаете это, вы можете получить к ним доступ, набрав my_data['header_name']. (И (500,15) не кажется таким большим, он может справиться с гораздо большими массивами.) И вам не следует использовать блокнот Jupyter для загрузки этого файла. Просто измените путь к правильному имени файла.

...