Question

У меня есть конвейер обработки данных, включающий 3 метода (скажем, A (), B (), C () последовательно) для входного текстового файла. Но я должен повторить этот конвейер для 10000 разных файлов. Я использовал многопоточность adhoc: создайте 10000 потоков и добавьте их в threadPool ... Теперь я переключаюсь на Spark для достижения этой параллели. Мой вопрос:

Если Spark может выполнять свою работу лучше, назовите мне основные шаги, потому что я новичок в Spark.
Если я использую многопоточность adhoc, разверните ее в кластере. Как я могу управлять ресурсами, чтобы распределять потоки, работающие одинаково между узлами. Я новичок в системе HPC.

Надеюсь, я задам правильные вопросы, спасибо!

многопоточность adhoc и Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

многопоточность adhoc и Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов