многопоточность adhoc и Spark - PullRequest
0 голосов
/ 02 мая 2018

У меня есть конвейер обработки данных, включающий 3 метода (скажем, A (), B (), C () последовательно) для входного текстового файла. Но я должен повторить этот конвейер для 10000 разных файлов. Я использовал многопоточность adhoc: создайте 10000 потоков и добавьте их в threadPool ... Теперь я переключаюсь на Spark для достижения этой параллели. Мой вопрос:

  1. Если Spark может выполнять свою работу лучше, назовите мне основные шаги, потому что я новичок в Spark.
  2. Если я использую многопоточность adhoc, разверните ее в кластере. Как я могу управлять ресурсами, чтобы распределять потоки, работающие одинаково между узлами. Я новичок в системе HPC.

Надеюсь, я задам правильные вопросы, спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...