Параллельное программирование для разбора гигабайтного файла в один глобальный словарь - PullRequest
0 голосов
/ 09 мая 2018

У меня текстовый файл 2Gig. В моей программе я читаю построчно, используя mmap, и формирую упорядоченный словарь. Это займет почти 40 минут, чтобы закончить программу. Я думаю о совпадении пути, чтобы сократить сроки. Программа разделит файл на 50 половинок по размеру. И передавайте порции данных каждому потоку за раз. И все проанализированные порции по 50 потоков будут обновлять один глобальный словарь. Там могут повторяться данные в чанке, и это необходимо. Меня беспокоит, будет ли потеря данных или каковы будут последствия для этого кода. Предоставьте предложения или альтернативные решения. Заранее спасибо

...