Прикольная кодировка текста в CSV - PullRequest
0 голосов
/ 01 июня 2018

Я работаю над объединением ежемесячных CSV из своевременного набора данных производительности FAA в один большой плоский файл с согласованным форматированием.

Двенадцать месяцев этих данных (2001-02до 2002-02) странно искаженные значения для поля Tail Number.Например:

  • N299US становится N299äâ
  • N728UW становится N728Ræ
  • N615MQ становится -N615M

Эти значения кодируются в ISO 8859-1 (неверно utf8).Я нашел нешифрованные значения путем поиска уникальных совпадений для части "N ###" номера хвоста в наборе данных следующего хорошего месяца (номера хвостов являются регистрационными номерами для самолетов и не меняются месяц-месяц, поэтомуЯ чувствую себя достаточно уверенно в этом).

Я не могу понять, является ли это какой-то причудливой схемой кодирования текста, которую я раньше не видел, которую я мог бы преобразовать обратно в UTF8 - или была какая-то ошибка вкод, который FAA использует для компиляции CSV, и эти данные являются просто мусором.

Любая помощь в выяснении этого будет принята.Спасибо!

1 Ответ

0 голосов
/ 06 июня 2018

Я связался с Управлением Авиакомпании США.Очевидно, что все, что случилось с данными, с потерями, и нет никакого способа восстановить правильные номера хвостов.

...