Когда использовать EC2 или EMR для Jupyterhub? - PullRequest
0 голосов
/ 02 октября 2019

Я сейчас новичок в больших данных. Мне нужно настроить Jupytertub с PySpark, чтобы делать некоторые прогнозы с использованием Python, и это займет много времени для анализа. Я запутался, который является лучшим способом сделать это. Лучше установить Jupyter в EC2 для тестирования, так как это может занять много времени и дешевле, или лучше поиграть в EMR, но нас беспокоит стоимость?

Это для Jupytertub с PySpark. Данные для анализа хранятся как паркет в S3.

Я буду играть большой набор данных. Можете ли вы поделиться процессом или влиянием его на EC2? Это потерпит неудачу?

...