Данные Provenance и Dataframes - PullRequest
       5

Данные Provenance и Dataframes

0 голосов
/ 31 марта 2020

Я использую Pandas фреймы данных и использую целый ряд инструментов, которые работают с DF для представления данных и их очистки, например, pyJanitor. Мне нужно вести подробный журнал всех изменений, которые я делаю в своих данных. например, если я изменяю значение в кадре данных, я хотел бы записать старое значение и в идеале сообщение с подробным описанием причин его изменения.

Я создал этот прототип, создав класс Provenance и сохранив его в фрейме данных. Однако это означает, что тип хранимых данных имеет тип Provenance, а не тип Panda. Это означает, что доступные инструменты не обрабатывают содержимое фрейма данных, как ожидалось.

Я исследовал ряд методов для удовлетворения требований, но не могу найти хороший подход. В идеале я бы выделил или украсил бы pandas dtypes и переопределил бы методы set / update для записи любых изменений. Я смотрел на украшение фреймов данных и методов доступа без особого успеха.

Может кто-нибудь предложить эффективный и, надеюсь, простой подход к этой проблеме.

Спасибо

Ян

...