У меня есть данные обучения (~ 500 ГБ), хранящиеся в облачных хранилищах Google. Данные представлены в формате CSV-файлов и распределяются в разных сегментах. Я хочу использовать стратегию распределения tenorflow для нескольких работников, чтобы обучить мою функциональную модель keras.
Я смог найти только tf.data.experimental.make_csv_dataset
api для чтения файла csv на gcs. Но это не работает для меня. Я получаю ошибку ниже
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb8 in position 10: invalid start byte
Кроме того, я должен выполнить преобразование этих данных перед вводом в модель. Как я могу достичь всего этого?