Анализ файлов и токенизация с помощью "\ t" - PullRequest
0 голосов
/ 26 мая 2020

Сейчас я играю со следующим git репо - https://github.com/threelittlemonkeys/rnn-encoder-decoder-pytorch

У меня проблемы с настройкой входного файла. Согласно github нам нужны файлы в следующем формате:

source_sequence \ t target_sequence

source_sequence \ t target_sequence

Глядя на код, он разбирает каждую строку и разбивая его вокруг разделителя "\ t". Однако, когда я запускаю prepare.py, я получаю следующую ошибку: «Недостаточно значений для распаковки (ожидалось 2, получено 1)»

Похоже, это происходит, когда он выполняет line.split («\ t» ). Каждая из моих входных строк представляет собой последовательность, за которой следует \ t, за которой следует другая последовательность. Может ли кто-нибудь объяснить мне, что происходит?

...