Как привести в порядок данные, представляющие собой одну длинную строку чисел - PullRequest
1 голос
/ 08 марта 2019

Я все еще очень плохо знаком с наукой о данных и R, но моя работа требует, чтобы я работал с некоторыми очень большими, очень грязными наборами данных, практически не имея структуры. В настоящее время я работаю с текстовым файлом грузовых перевозок США (приблизительно 48 000 символов, 13 341 строк и 1 столбца), содержащим такую ​​информацию, как коды FIPS, идентификационные номера весовых станций, веса грузовых автомобилей и т. Д., И данные форматируются следующим образом:

enter image description here

Интервал не действует как разделитель, на самом деле ничего не является.

S02000101 11171R1T13 00 13 00 2PLP001700000000 8196762351650150252360 9100170Y170000008007Y3000000030 ШОССЕ ПАРКОВ В ЧУЛИТНЕ - NB

И чтобы дополнительно объяснить сами данные, символы кодируются для идентификации конкретных вещей, таких как S, обозначающий тип записи, 02 - это код FIPS для Аляски, 000101 - это идентификационный код станции.

Я действительно не знаю, где взять этот набор данных и очистить его, добавив новые столбцы для разделения типа записи, кода FIPS, кода идентификации станции и т. Д. Предложения?

Номера столбцов Укажите местоположение каждой записи в каждом фрагменте данных станции. enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...