Я пытаюсь построить большую разреженную матрицу, каждый вектор или ее набор читается из отдельных файлов в каталоге.У меня есть около 3 миллионов в объеме данных на 300 векторном пространстве измерения.
Для построения разреженной матрицы я хотел сделать параллельные 2 части: чтение всех каталогов параллельно (поскольку os.walk не может быть распараллелен из-за ограничений ввода-вывода - не уверен на 100%), и обновить синхронизированныйочереди файлов, затем создайте синхронизированную разреженную матрицу в матрице сжатых разреженных строк sciPy.
Я закончил первую часть, которой могу без проблем поделиться в коде, но мне интересно, если поставить потоковую блокировку.Разреженная матрица numpy / sciPy непродуктивна из-за ее стоимости, поскольку в худшем случае я могу загружать каждый вектор из одного файла.
Я спорю, не облегчит ли это мою жизнь простовывести все в один CSV, а затем восстановить из него?(поскольку для файлового ввода-вывода мне не нужно изобретать колесо, создавая многопоточность. Блокировка)
Я был бы очень признателен за любые мнения,