Python Dataframe и Multi обработка с использованием общего словаря - PullRequest
0 голосов
/ 19 ноября 2018

У меня около 300 миллионов строк данных Пример данных .

Для каждого отдельного значения столбца "A" я получу полные данные при объединении различных тегов "m", "m2", "m3" столбца "B".

Мой подход: Я веду словарь следующим образом: {'d1': {'m3': 45, 'm': 0, 'm2': 23}, 'd2': {'m3': 47, 'm': нет, 'm2': нет}}

всякий раз, когда я нахожу все три тега из столбца «B», для отдельного столбца «A» я записываю его обратно во фрейм данных. и сохраните номер строки (который имеет тег «m» в столбце «B». здесь это индекс 0). и записать, а затем записать все эти строки в новый фрейм данных.

Но проблема здесь в 300 миллионах строк. Я хочу использовать общий словарь и список, чтобы отслеживать вышеупомянутые вычисления с использованием мультиобработки.

Я использую python 3. Любые предложения о том, как это сделать, полезны. Спасибо.

Пример выходного кадра данных

Пример выходного кадра данных может выглядеть как на картинке.

...