Я пытаюсь исправить свой набор данных для статистического анализа. Я обнаружил, что отсутствуют пропущенные точки данных и что временные метки в наборе данных часто бывают неправильными, что приводит к трудностям при корректировке набора данных.
Мой набор данных (должен) содержать 20 точек данных, содержащих значения x, y, z одной и той же метки времени (20 Гц), однако из-за ошибки обработки он равен либо 24, либо 12 (за некоторыми исключениями).
Проблема в том, что на самом деле это 20 Гц, отображение данных неверно, а не количество точек данных, за исключением случаев, когда я пропускаю точки. Вместе это становится сложной проблемой.
Я обнаружил, что это правда, что на каждые шесть секунд всегда должно быть 120 точек данных, и если это не так, то отсутствуют точки данных, все остальные пропущенные точки связаны с неправильными метками времени.
Коротко о проблемах:
- Incorrect timestamps with 20Hz (x, y, z) recordings
- Missing data points with unknown location
- Only known factor: ever 6 seconds of data MUST contain 120 data points
В следующей таблице показана небольшая часть набора данных (частота: время UTC_time)
UTC_date UTC_time x y z Freq
11/04/2018 11:02:58 -133 918 319 24
11/04/2018 11:02:58 -194 1030 203 24
11/04/2018 11:02:58 -192 1002 127 24
11/04/2018 11:02:58 -154 905 36 24
11/04/2018 11:02:58 -71 938 31 24
11/04/2018 11:02:58 -206 1071 -43 24
11/04/2018 11:02:58 -381 1127 -65 24
11/04/2018 11:02:58 -373 927 -25 24
11/04/2018 11:02:58 -457 951 -113 24
11/04/2018 11:02:58 -436 1023 -189 24
11/04/2018 11:02:58 -294 1068 -113 24
11/04/2018 11:02:58 -257 943 -92 24
11/04/2018 11:02:58 -291 981 -145 24
11/04/2018 11:02:58 -46 927 -8 24
11/04/2018 11:02:58 -82 932 79 24
11/04/2018 11:02:58 -122 812 355 24
11/04/2018 11:02:58 -708 806 175 24
11/04/2018 11:02:58 -776 800 197 24
11/04/2018 11:02:58 -807 748 351 24
11/04/2018 11:02:58 -836 790 478 24
11/04/2018 11:02:58 -597 502 943 24
11/04/2018 11:02:58 -863 852 59 24
11/04/2018 11:02:58 -485 732 319 24
11/04/2018 11:02:58 -447 766 117 24
11/04/2018 11:02:59 -497 997 -49 12
11/04/2018 11:02:59 -582 991 -63 12
Что я уже пробовал и что я сейчас пытаюсь:
Я попытался сделать еще один df, содержащий пустые ячейки, которые могли бы быть заполнены доступными данными, это не работает, потому что я не знаю, которые на самом деле отсутствуют.
Я пытался написать какое-то исправление с несколькими функциями if (loop). Однако, поскольку я новичок в R, это происходит очень медленно и дает мне много ошибок.
То, что я хотел бы иметь: набор данных с правильными временными метками и включающими отсутствующие точки в виде «NA», чтобы каждая секунда имела 20 точек данных (даже если некоторые из них были «NA»).