У меня около 300 миллионов строк данных Пример данных .
Для каждого отдельного значения столбца "A" я получу полные данные при объединении различных тегов "m", "m2", "m3" столбца "B".
Мой подход:
Я веду словарь следующим образом:
{'d1': {'m3': 45, 'm': 0, 'm2': 23}, 'd2': {'m3': 47, 'm': нет, 'm2': нет}}
всякий раз, когда я нахожу все три тега из столбца «B», для отдельного столбца «A» я записываю его обратно во фрейм данных. и сохраните номер строки (который имеет тег «m» в столбце «B». здесь это индекс 0). и записать, а затем записать все эти строки в новый фрейм данных.
Но проблема здесь в 300 миллионах строк. Я хочу использовать общий словарь и список, чтобы отслеживать вышеупомянутые вычисления с использованием мультиобработки.
Я использую python 3. Любые предложения о том, как это сделать, полезны. Спасибо.
Пример выходного кадра данных
Пример выходного кадра данных может выглядеть как на картинке.