Я пытаюсь следовать примеру модели трансформатора of tenorflow, и он прекрасно работает с набором данных ted_hrlr_translate/pt_to_en
, который приведен в примере.
Я хочу попробовать использовать это на мои собственные данные. Мои данные представляют собой текстовый файл, который выглядит следующим образом:
english sentence 1 \t spanish translation 1
english sentence 2 \t spanish translation 2
Я пытаюсь передать эти данные в трансформатор, но у меня возникают проблемы. В настоящее время я делаю это:
df = pd.read_csv(path_to_file, index_col=None, delimiter = '\t', header=None)
dataset = tf.data.Dataset.from_tensor_slices(dict(df))
При печати с использованием
for t in dataset:
print(t)
Я получаю
{0: <tf.Tensor: id=36, shape=(), dtype=string, numpy=b'We who are diplomats , we are trained to deal with conflicts between states and issues between states .'>, 1: <tf.Tensor: id=37, shape=(), dtype=string, numpy=b'Nosotros , los diplom\xc3\xa1ticos , estamos preparados para abordar conflictos y problemas entre estados .'>}
Для справки набор данных ted_hrlr_translate/pt_to_en
выглядит следующим образом :
(<tf.Tensor: id=332, shape=(), dtype=string, numpy=b'o problema \xc3\xa9 que nunca vivi l\xc3\xa1 um \xc3\xbanico dia .'>, <tf.Tensor: id=333, shape=(), dtype=string, numpy=b"except , i 've never lived one day of my life there .">)
Как я могу преобразовать мой набор данных в тот же формат, что и набор данных ted_hrlr_translate/pt_to_en
?