Последнее замечание об использовании другого набора данных относится к этому веб-сайту , который включает файлы с разделителями табуляции.
Вам в основном необходимо изменить значения в этой ячейке в соответствии со ссылкой нанужный вам zip-файл.
# Download the file
path_to_zip = tf.keras.utils.get_file(
'spa-eng.zip', origin='http://storage.googleapis.com/download.tensorflow.org/data/spa-eng.zip',
extract=True)
path_to_file = os.path.dirname(path_to_zip)+"/spa-eng/spa.txt"
Вы можете попробовать другие наборы данных из:
Однако в этих корпусах источник и цель находятся в двух отдельных файлах, поэтому вам нужно настроить код, извлекающий пары, вместо split('\t')
он должен открыть два файла и получить источники цель строка за строкой.