Я пытаюсь предварительно обработать большие объемы данных (один файл tfrecord ~ 1Go), используя тензор-преобразование v0.11.0 и луч только локально.
Мой код в значительной степени основан на https://github.com/tensorflow/transform/blob/master/examples/census_example.py
У меня есть конвейер луча, который работает с меньшими наборами данных (<100Mo), но время обработки резко увеличивается, когда я добавляю больше данных. Будучи новичком в tf-transform и apache Beam, мне трудно находить причины и решения этой проблемы ... И я бы хотел избежать использования Google DataFlow. </p>
Мой конвейер работает локально с использованием луча directRunner, если я правильно понял, но он использует только одно ядро. Использование нескольких ядер может быть одним из способов улучшить время предварительной обработки, но я не знаю, возможно ли это с лучом directRunner. Есть ли способ заставить конвейер с преобразованием тензорного потока работать на нескольких ядрах на моей машине?
Я посмотрел параметры конвейера луча и directRunner, и не могу найти никаких указаний на то, чтобы позволить бегуну получить доступ к нескольким ядрам или создать несколько DirectRunner для конвейера.
Большое спасибо за любую помощь, которую я могу получить!