Вероятно, ошибка возникает из-за того, что ktrain пытается автоматически определить кодировку символов с помощью open(train_filepath, 'rb')
, что может вызвать проблемы c с Google Cloud Storage. Одним из решений является явное предоставление в качестве аргумента от encoding
до texts_from_csv
, чтобы этот шаг пропускался (по умолчанию None, что означает автоматическое обнаружение).
В качестве альтернативы вы можете прочитать данные в себе как a pandas DataFrame с использованием одного из этих методов . Например, pandas очевидно поддерживает GCS, поэтому вы можете просто сделать это: df = pd.read_csv('gs://bucket/your_path.csv')
Затем, используя ktrain , вы можете использовать ktrain.text.texts_from_df
( или ktrain.text.texts_from_array
) для загрузки и предварительной обработки ваших данных.