я запускаю скрипт в потоке данных (apache beam), он запускается в python 2.7.12 и выполняет некоторую обработку текста со строками Unicode.
Среди обработки я делаю следующее, где существительное и фраза являются Unicode (я думаю ...)
# -*- coding: utf-8 -*-
...
key = u"{}_{}".format(
noun, phrase.replace(u" ", u"_")
)
Однако это приводит к ошибкам декодирования ASCII
'ascii' codec can't decode byte 0xe2 in position 1: ordinal not in range(128)
Я могу включить отладку и получить повтор строк, используемых как существительное и фраза , но в настоящее время у меня их нет, так как моя регистрация не выводила их.
Я не понимаю ошибку декодирования ascii, когда думаю, что достаточно конкретен, что хочу все в юникоде!
Можете ли вы дать несколько советов, или я должен вернуться с дополнительной информацией о входных строках?