Параллельная загрузка Python (разреженной) матрицы - PullRequest
0 голосов
/ 25 июня 2019

Я пытаюсь построить большую разреженную матрицу, каждый вектор или ее набор читается из отдельных файлов в каталоге.У меня есть около 3 миллионов в объеме данных на 300 векторном пространстве измерения.

Для построения разреженной матрицы я хотел сделать параллельные 2 части: чтение всех каталогов параллельно (поскольку os.walk не может быть распараллелен из-за ограничений ввода-вывода - не уверен на 100%), и обновить синхронизированныйочереди файлов, затем создайте синхронизированную разреженную матрицу в матрице сжатых разреженных строк sciPy.

Я закончил первую часть, которой могу без проблем поделиться в коде, но мне интересно, если поставить потоковую блокировку.Разреженная матрица numpy / sciPy непродуктивна из-за ее стоимости, поскольку в худшем случае я могу загружать каждый вектор из одного файла.

Я спорю, не облегчит ли это мою жизнь простовывести все в один CSV, а затем восстановить из него?(поскольку для файлового ввода-вывода мне не нужно изобретать колесо, создавая многопоточность. Блокировка)

Я был бы очень признателен за любые мнения,

...