У меня текстовый файл 2Gig. В моей программе я читаю построчно, используя mmap, и формирую упорядоченный словарь. Это займет почти 40 минут, чтобы закончить программу.
Я думаю о совпадении пути, чтобы сократить сроки.
Программа разделит файл на 50 половинок по размеру. И передавайте порции данных каждому потоку за раз.
И все проанализированные порции по 50 потоков будут обновлять один глобальный словарь.
Там могут повторяться данные в чанке, и это необходимо.
Меня беспокоит, будет ли потеря данных или каковы будут последствия для этого кода.
Предоставьте предложения или альтернативные решения.
Заранее спасибо