Как я могу подать свои собственные данные в трансформер модели тензорного потока? - PullRequest
0 голосов
/ 20 января 2020

Я пытаюсь следовать примеру модели трансформатора of tenorflow, и он прекрасно работает с набором данных ted_hrlr_translate/pt_to_en, который приведен в примере.

Я хочу попробовать использовать это на мои собственные данные. Мои данные представляют собой текстовый файл, который выглядит следующим образом:

english sentence 1 \t spanish translation 1
english sentence 2 \t spanish translation 2

Я пытаюсь передать эти данные в трансформатор, но у меня возникают проблемы. В настоящее время я делаю это:

df = pd.read_csv(path_to_file, index_col=None, delimiter = '\t', header=None)
dataset = tf.data.Dataset.from_tensor_slices(dict(df))

При печати с использованием

for t in dataset:
    print(t)

Я получаю

{0: <tf.Tensor: id=36, shape=(), dtype=string, numpy=b'We who are diplomats , we are trained to deal with conflicts between states and issues between states .'>, 1: <tf.Tensor: id=37, shape=(), dtype=string, numpy=b'Nosotros , los diplom\xc3\xa1ticos , estamos preparados para abordar conflictos y problemas entre estados .'>}

Для справки набор данных ted_hrlr_translate/pt_to_en выглядит следующим образом :

(<tf.Tensor: id=332, shape=(), dtype=string, numpy=b'o problema \xc3\xa9 que nunca vivi l\xc3\xa1 um \xc3\xbanico dia .'>, <tf.Tensor: id=333, shape=(), dtype=string, numpy=b"except , i 've never lived one day of my life there .">)

Как я могу преобразовать мой набор данных в тот же формат, что и набор данных ted_hrlr_translate/pt_to_en?

...