Справочная информация: у меня есть журналы, которые создаются во время тестирования устройств после изготовления. Каждое устройство имеет серийный номер и соответствующий файл журнала CSV со всеми данными. Как то так.
DATE,TESTSTEP,READING,LIMIT,RESULT
01/01/2019 07:37:17.432 AM,1,23,10,FAIL
01/01/2019 07:37:23.661 AM,2,3,3,PASS
Так что существует много таких файлов журналов. Каждый с данными испытаний.
У меня есть серийный номер устройства, которое вышло из строя в поле. Я хочу создать модель, используя эти файлы журнала. И затем используйте его, чтобы предсказать, есть ли вероятность того, что у данного устройства произойдет сбой в поле, учитывая его файл журнала.
До сих пор, как часть обучения, я работал с такими данными, как цена на жилье. Каждый ряд был завершен. В зависимости от площади, количества комнат и т. Д. Было легко определить модель для ожидаемой цены продажи.
Здесь я нахожусь в тупике, чтобы найти способ каким-то образом сгладить все журналы в один ряд.
Я думаю о том, чтобы иметь что-то вроде:
DATE_1,TESTSTEP_1,READING_1,LIMIT_1,RESULT_1,DATE_2,TESTSTEP_2,READING_2,LIMIT_2,RESULT_2
1/1/2019 07:37:17.432 AM,1,23,10,FAIL,01/01/2019 07:37:23.661 AM,2,3,3,PASS
Первая проблема заключается в том, что я не уверен, что это правильный способ справиться с такого рода данными. Если да, то, пожалуйста, несколько указателей.
Кроме того, если это правильный путь, то имеет ли Pandas какую-либо встроенную поддержку для этого?
Я буду использовать scikit-learn для создания моделей.