Кажется, что нет никакой проблемы с кодировкой символов, только ложные данные, а именно байты 0xC3 0x82, которые представляют символ при интерпретации в UTF-8, который является объявленной кодировкой. В противном случае, кажется, что все содержимое является ASCII, потому что имена представлены в «интернационализированном», то есть в англоязычной форме, например Джокович вместо Локовича, Содерлинг вместо Седерлинга и т. Д. С этими данными не имеет большого значения, как вы объявляете его кодировку, поскольку символы ASCII в большинстве случаев имеют одинаковое представление.
Я понятия не имею, откуда байт берутся, но они, похоже, систематически появляются между запятой и пробелом, так что, очевидно, что-то в коде, который генерирует таблицу.