У меня есть набор данных с 4229 столбцами и около 512 000 строк. Я пытаюсь использовать импьют для заполнения пропущенных значений в наборе данных. Поскольку набор данных настолько велик, я попытался разбить его на 100 частей.
Когда я делаю это, чтобы заполнить пропущенные значения
from impyute.imputation.cs import mice
# start the MICE training
a=mice(data[0].values)
для первого подмножества, он работает больше часа. Мне интересно, есть ли способ немного ускорить это. Вот спецификации компьютера, на котором я его запускаю:
У меня также есть графический процессор NVIDIA GeForce RTX 2080.