Я работаю с некоторыми данными GTFS из Берлина, и сейчас я встаю на стену.
Для всех Busstops в Берлине существует файл stop_times.txt с 5 миллионами строк.Два столбца (Arrival_time и Departure_time) содержат аномалии, такие как
Arrival_time: 112: 30: 0 вместо обычного формата 11: 20: 30.
Я действительно не знаю, как извлечь этиконкретные строки и стереть их из набора данных.Я не могу придумать алгоритм, который может его обнаружить.Я попытался указать длину строки (должно быть 8 00:00:00 = 8 символов), но ошибочные также имеют длину 8.
Вы знаете простой способ убедиться, что форматвсегда xx: xx: xx и удалить все остальные?
Спасибо ...
Редактировать:
Итак, теперь, после попытки предложенного ниже решения, это не сработало, потому чтоон просто скажет мне, сколько строк было вредоносным, а не где и как я мог их удалить.
Моя идея в основном сейчас:
- Найти каждую отметку времени, которая не соответствуетэтот точный формат:
'00: 00: 00 ', где он должен иметь длину «8» и 2 цифры, разделенные «:».Есть ли способ обнаружить аномалии в этом паттерне и затем удалить их?Я действительно не знаю, как решить эту проблему.
Спасибо