Я получил очень длинный телефонный журнал в виде текстового файла, и я попытался прочитать его в R, но на самом деле это не работает.Текст имеет структуру, но это, безусловно, не таблица.Его структура следующая:
- Каждая запись состоит из нескольких строк, поэтому readLines не совсем уместны
- Каждая строка каждой записи представляет собой отдельное поле
- Некоторые записииметь дополнительное поле после второго поля
- Каждая новая запись отмечена пустой строкой.
readLines
или scan
работали бы, если бы можно было указать, что записи разделены "\ n \ n", а поля (или столбцы) разделены "\ n"
ЗдесьВот пример:
TheInstitute 5467
telephone line 4125526987 x 4567
datetime 2011110516 12:56
blay blay blah who knows what, but anyway it may have a comma
TheInstitute 5467
telephone line 4125526987 x 4567
datetime 2011110516 12:58
blay blay blah who knows what
TheInstitute 5467
telephone line 412552999 x 4999
bump phone line 4125527777
datetime 2011110516 12:59
blay blay blah who knows what
TheInstitute 5467
telephone line 4125526987 x 4567
bump phone line 4125527777
datetime 2011110516 13:51
blay blay blah who knows what, but anyway it may have a comma
TheInstitute 5467
telephone line 4125526987 x 4567
datetime 2011110516 14:56
blay blay blah who knows what
Как я могу сделать это в R?Я пробовал трюки со сканированием, вставкой, strsplit, но я вращаюсь в кругах.Возможно, мне придется поместить его в список, поскольку он может обрабатывать неодинаковое количество элементов.Я хотел бы, чтобы все записи имели одинаковое количество полей, и для тех записей, у которых нет одного поля (здесь называемого bump phone), я бы хотел, чтобы они имели просто NA в качестве значения в этом поле.Я был бы признателен за помощь даже для начала.Оттуда я могу играть и играть.