Я работаю с большими файлами на французском и немецком языках.В основном, запись строк символов из одного файла в другой, сбор данных из них и так далее.К сожалению, я не знаю, что импортировать, чтобы позволить Python обрабатывать эти символы.
Даже при сборе данных из файлов, которые Python уже конвертировал (на французском языке вы получаете странные вещи, такие как à © couteur ça)Я получаю ключевые ошибки при проверке диктов на предмет того, что я знаю, уже помещен в этот диктант, но только тогда, когда в предметах есть специальные символы, как в примере с «couteur».
Например, когда кортеж ('à © couteur', 'ça') был добавлен к диктовке, которая собирает частоту, с которой встречается любая пара слов, вы получаете ошибку ключа при зондированииэто диктует для кортежа ('à © couteur', 'ça'), но не при проверке диктанта для других кортежей, которые не содержат дурацких символов.
Кто-нибудь знает быстрый способобойти эту проблему на каждом уровне?
Бест, Джорджина