Как читать Большой JSON-файл, используя MPI, используя несколько процессов.Где каждый процесс может читать свой кусок файла одновременно - PullRequest
2 голосов
/ 04 апреля 2019

У меня большой файл JSON, его размер в гигабайтах.Этот файл содержит данные твитов.Мне нужно прочитать этот файл, используя MPI для нескольких процессов Python таким образом, чтобы каждый процесс мог одновременно считывать файл из своей собственной части.

В настоящее время я занимаюсь разделением файла на куски по размеру.Но проблема в том, что это повреждает мои данные JSON.Поскольку файл может быть разделен таким образом, что он создает неверные данные JSON.

Как разделить файл, не мешая объектам JSON внутри.

...