Подача данных из GCS csv zip bucket в тензорную модель партиями - PullRequest
0 голосов
/ 30 января 2020

У меня есть данные обучения (~ 500 ГБ), хранящиеся в облачных хранилищах Google. Данные представлены в формате CSV-файлов и распределяются в разных сегментах. Я хочу использовать стратегию распределения tenorflow для нескольких работников, чтобы обучить мою функциональную модель keras.

Я смог найти только tf.data.experimental.make_csv_dataset api для чтения файла csv на gcs. Но это не работает для меня. Я получаю ошибку ниже

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb8 in position 10: invalid start byte

Кроме того, я должен выполнить преобразование этих данных перед вводом в модель. Как я могу достичь всего этого?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...