Как вставить строки для отсутствующих данных в R, если местоположение отсутствующих данных неизвестно? - PullRequest
0 голосов
/ 03 апреля 2019

Я пытаюсь исправить свой набор данных для статистического анализа. Я обнаружил, что отсутствуют пропущенные точки данных и что временные метки в наборе данных часто бывают неправильными, что приводит к трудностям при корректировке набора данных. Мой набор данных (должен) содержать 20 точек данных, содержащих значения x, y, z одной и той же метки времени (20 Гц), однако из-за ошибки обработки он равен либо 24, либо 12 (за некоторыми исключениями). Проблема в том, что на самом деле это 20 Гц, отображение данных неверно, а не количество точек данных, за исключением случаев, когда я пропускаю точки. Вместе это становится сложной проблемой. Я обнаружил, что это правда, что на каждые шесть секунд всегда должно быть 120 точек данных, и если это не так, то отсутствуют точки данных, все остальные пропущенные точки связаны с неправильными метками времени. Коротко о проблемах:

- Incorrect timestamps with 20Hz (x, y, z) recordings
- Missing data points with unknown location
- Only known factor: ever 6 seconds of data MUST contain 120 data points

В следующей таблице показана небольшая часть набора данных (частота: время UTC_time)

UTC_date    UTC_time       x       y       z    Freq
11/04/2018  11:02:58    -133    918     319     24
11/04/2018  11:02:58    -194    1030    203     24
11/04/2018  11:02:58    -192    1002    127     24
11/04/2018  11:02:58    -154    905     36      24
11/04/2018  11:02:58    -71     938     31      24
11/04/2018  11:02:58    -206    1071    -43     24
11/04/2018  11:02:58    -381    1127    -65     24
11/04/2018  11:02:58    -373    927     -25     24
11/04/2018  11:02:58    -457    951     -113    24
11/04/2018  11:02:58    -436    1023    -189    24
11/04/2018  11:02:58    -294    1068    -113    24
11/04/2018  11:02:58    -257    943     -92     24
11/04/2018  11:02:58    -291    981     -145    24
11/04/2018  11:02:58    -46     927     -8      24
11/04/2018  11:02:58    -82     932     79      24
11/04/2018  11:02:58    -122    812     355     24
11/04/2018  11:02:58    -708    806     175     24
11/04/2018  11:02:58    -776    800     197     24
11/04/2018  11:02:58    -807    748     351     24
11/04/2018  11:02:58    -836    790     478     24
11/04/2018  11:02:58    -597    502     943     24
11/04/2018  11:02:58    -863    852     59      24
11/04/2018  11:02:58    -485    732     319     24
11/04/2018  11:02:58    -447    766     117     24
11/04/2018  11:02:59    -497    997     -49     12
11/04/2018  11:02:59    -582    991     -63     12

Что я уже пробовал и что я сейчас пытаюсь: Я попытался сделать еще один df, содержащий пустые ячейки, которые могли бы быть заполнены доступными данными, это не работает, потому что я не знаю, которые на самом деле отсутствуют. Я пытался написать какое-то исправление с несколькими функциями if (loop). Однако, поскольку я новичок в R, это происходит очень медленно и дает мне много ошибок.

То, что я хотел бы иметь: набор данных с правильными временными метками и включающими отсутствующие точки в виде «NA», чтобы каждая секунда имела 20 точек данных (даже если некоторые из них были «NA»).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...