У меня есть конвейер обработки данных, включающий 3 метода (скажем, A (), B (), C () последовательно) для входного текстового файла. Но я должен повторить этот конвейер для 10000 разных файлов. Я использовал многопоточность adhoc: создайте 10000 потоков и добавьте их в threadPool ... Теперь я переключаюсь на Spark для достижения этой параллели. Мой вопрос:
- Если Spark может выполнять свою работу лучше, назовите мне основные шаги, потому что я новичок в Spark.
- Если я использую многопоточность adhoc, разверните ее в кластере. Как я могу управлять ресурсами, чтобы распределять потоки, работающие одинаково между узлами. Я новичок в системе HPC.
Надеюсь, я задам правильные вопросы, спасибо!