У меня есть два файла CSV, заполненные данными, мы можем назвать его data.csv , и с метками, аналогично tags.csv . Каждая строка в data.csv представляет данные одного 1D-датчика (длина 1900 столбцов). Связанная строка в tags.csv является горячим кодировщиком для той же строки в файле data.csv .
Существует более 1300 классов и несколько метки в данных (примерно 80% данных имеют несколько меток). Это означает, что отдельные данные в data.csv могут принадлежать нескольким классам, которые будут представлены в горячем кодировании.
До тех пор, пока данные не станут большими ~ 20 ГБ, я прочитал бы оба в фрейм данных,
data = pd.read_csv('mixture.csv'), header = None)
labels = pd.read_csv('label.csv'), header = None)
И отсюда я мог бы разделиться на мой поезд и тестирование, что сразу делает его готовым к тренировке (и смешивает данные, которые необходимы в моем случае).
X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.25, random_state=12)
Это работало нормально, когда мои данные были маленькими ~ 7,5 ГБ, но теперь, когда файл data.csv превышает 26 ГБ, я продолжаю сталкиваться с проблемами при его загрузке (ОЗУ). заполняет и вылетает).
У меня такой вопрос:
Читая о том, как обрабатывать большие наборы данных, я наткнулся на этот пример здесь , где они используют tf .data, чтобы читать кусками своих данных во время тренировки. В этом примере метка была столбцом в .csv, и каждый столбец в .csv представлял различные функции. Пример, кажется, близок к тому, что мне нужно, но отдален для меня, чтобы соединить точки - поскольку каждая строка в моем data.csv представляет один пример, и он имеет несколько меток в отдельном labels.csv . Как я могу прочитать из большого файла CSV, где метки и данные находятся в отдельных файлах (и в формате, который я описал выше), чтобы я мог обучить их?