Я пытаюсь переформатировать текстовый файл, чтобы я мог загрузить его в конвейер (QIIME2) - я протестировал первые несколько строк моего файла .txt (но он разделен табуляцией), и преобразование прошло успешно.Однако, когда я пытаюсь запустить сценарий для всего файла, я сталкиваюсь с ошибкой:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x96 in position 16: invalid start byte
Я обнаружил, что кодировка файла - Utf8, поэтому я не уверен, откуда возникает проблема.
$ file filename.txt
filename: UTF-8 Unicode text, with very long lines, with CRLF line terminator
Я также рассмотрел некоторые строки, связанные с ошибкой, и не могу визуально идентифицировать какие-либо неортодоксальные символы.
Я попытался принудительно закодировать его, используя:
$iconv -f UTF8 -t UTF8 filename.txt > new_file.txt
Однако получена ошибка:
iconv: illegal input sequence at position 152683
Как я понимаю, это то, что любой символпроисходит в позиции, не читаемой / переводимой с использованием кодировки utf-8, но я не уверен, почему файл считается закодированным в utf-8.
Я запускаю это в Linux, и сами данные представляют собой информацию о последовательности из базы данных BOLD (если кто-то сталкивался с подобными проблемами при попытке преобразовать это в формат, подходящий для QIIME2).