Я все еще очень плохо знаком с наукой о данных и R, но моя работа требует, чтобы я работал с некоторыми очень большими, очень грязными наборами данных, практически не имея структуры. В настоящее время я работаю с текстовым файлом грузовых перевозок США (приблизительно 48 000 символов, 13 341 строк и 1 столбца), содержащим такую информацию, как коды FIPS, идентификационные номера весовых станций, веса грузовых автомобилей и т. Д., И данные форматируются следующим образом:
Интервал не действует как разделитель, на самом деле ничего не является.
S02000101 11171R1T13 00 13 00 2PLP001700000000 8196762351650150252360 9100170Y170000008007Y3000000030 ШОССЕ ПАРКОВ В ЧУЛИТНЕ - NB
И чтобы дополнительно объяснить сами данные, символы кодируются для идентификации конкретных вещей, таких как S, обозначающий тип записи, 02 - это код FIPS для Аляски, 000101 - это идентификационный код станции.
Я действительно не знаю, где взять этот набор данных и очистить его, добавив новые столбцы для разделения типа записи, кода FIPS, кода идентификации станции и т. Д. Предложения?
Номера столбцов Укажите местоположение каждой записи в каждом фрагменте данных станции.