У меня есть набор двоичных данных более 15G. Я хочу извлечь данные для обучения модели с использованием TF 2.0. В настоящее время я делаю вот что:
import numpy as np
import tensorflow as tf
data1 = np.fromfile('binary_file1', dtype='uint8')
data2 = np.fromfile('binary_file2', dtype='uint8')
dataset = tf.data.Dataset.from_tensor_slices((data1, data2))
# then do something like batch, shuffle, prefetch, etc.
for sample in dataset:
pass
, но это поглощает мою память, и я не думаю, что это хороший способ иметь дело с такими большими файлами. Что мне делать, чтобы справиться с этой проблемой?