Я работаю над объединением ежемесячных CSV из своевременного набора данных производительности FAA в один большой плоский файл с согласованным форматированием.
Двенадцать месяцев этих данных (2001-02до 2002-02) странно искаженные значения для поля Tail Number.Например:
- N299US становится N299äâ
- N728UW становится N728Ræ
- N615MQ становится -N615M
Эти значения кодируются в ISO 8859-1 (неверно utf8).Я нашел нешифрованные значения путем поиска уникальных совпадений для части "N ###" номера хвоста в наборе данных следующего хорошего месяца (номера хвостов являются регистрационными номерами для самолетов и не меняются месяц-месяц, поэтомуЯ чувствую себя достаточно уверенно в этом).
Я не могу понять, является ли это какой-то причудливой схемой кодирования текста, которую я раньше не видел, которую я мог бы преобразовать обратно в UTF8 - или была какая-то ошибка вкод, который FAA использует для компиляции CSV, и эти данные являются просто мусором.
Любая помощь в выяснении этого будет принята.Спасибо!