Как я могу распределить данные с множеством двойных кавычек, которые помещаются в один столбец в пандах - PullRequest
2 голосов
/ 03 мая 2019

У меня есть CSV-файл из 2 умных часов. Файл содержит данные о времени, дате, HR и т. Д. когда я пытаюсь прочитать файл с пандами, он укладывает все в первый столбец, а затем заполняет остальные столбцы с помощью Nan.

Первый ряд:

Тип деятельности, Дата, Избранное, Название, Расстояние, Калории, Время, Средняя ЧСС, Макс. ЧСС, Средняя скорость, Макс. Скорость, Повышение высоты, Потеря высоты, Средняя длина шага, Среднее вертикальное соотношение, Среднее вертикальное колебание, Тренировочный стресс Score®, Grit, Flow, Total Strokes, Avg. Swolf, средняя скорость хода, минимальное время, минимальная температура, интервал поверхности, декомпрессия, лучшее время круга, количество прогонов, максимальная температура

и данные выглядят так:

"road_biking, 2018-08-29 13: 02: 00, false," "bike" "," 51,60 "", "" 1.192 "", "" 02:10:05 "", " "-"», "" - "", "" 23,8 "", "" - "", "" - "", "" - "", "" 0,00 "" "" 0,0 "", "" 0,0 "", "" 0,0 "", "" 0,0 "", "" 0,0 "", "" - "", "" - - "", "" - "", "" 0:00 "", "" 0,0 "", "" 0:00 "", "" Нет "", "" 00: 00,00 "",» "1" " "" 0,0 """

Я пробовал разные вещи из stackoverflow, такие как df = pd.read_csv (имя файла, sep = ','). replace ('"', '', regex = True)

( данные панд с двойной кавычкой )

import numpy as np
import pandas as pd

df_garmin = pd.read_csv("dogacapanoglu garmindata until may1st2019.csv")
df_garmin.to_csv("garmindata_till_may2019")
df_garmin = pd.read_csv("garmindata_till_may2019").set_index("Unnamed: 0")
df_garmin.head()



df_garmin.columns

возвращает это: Индекс ([«Тип деятельности», «Дата», «Избранное», «Название», «Расстояние», «Калории», «Time», «Avg HR», «Max HR», «Avg Speed», «Max Speed», «Elev Gain», «Потеря высоты», «Средняя длина шага», «Среднее вертикальное соотношение», «Avg Vertical Oscillation», «Training Stress Score®», «Grit», «Flow», «Всего ударов», «Ср. Swolf »,« Средняя частота инсультов »,« Bottom Time », «Min Temp», «Surface Interval», «Decompression», «Best Lap Time», «Количество прогонов», «Максимальная температура»], DTYPE = 'объект')

df_garmin.dtypes

возвращает все столбцы float64, кроме «Тип действия» (возвращает как объект)

Я получаю все столбцы без проблем, но код складывает все данные в столбец «Тип действия». Остальные столбцы заполнены NaN.

Что я могу сделать, чтобы распределить данные по соответствующим столбцам?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...