Исправить (преобразовать / удалить) недопустимые символы UTF-8 в R - PullRequest
0 голосов
/ 16 июня 2020

У меня проблема с кодированием UTF-8 в огромном фрейме данных (миллионы строк). Я использовал этот вопрос , но я не исправил проблему.

Мой столбец (символ) очень прост:

Start date
12/01/2019
12/01/2019
12/02/2019

Я пытаюсь преобразовать в дату

taxi_2020_test$`Start Date` <- mdy(taxi_2020_test$`Start Date`)

и получите это

Error in gsub(reg$alpha_exact[["A"]], "%A", x, ignore.case = T, perl = T) : input string 1 is invalid UTF-8

Это 100% проблема с UTF-8, потому что в Python я даже не могу импортировать этот набор данных в Jupyter, это дает мне ошибку, снова упоминая UTF-8.

Как исправить или хотя бы сбросить? У меня миллионы строк, и если это небольшое количество плохих строк, меня это устраивает.

...