Question

Что люди используют для предоставления самообслуживаемых, масштабируемых данных?

Ограничения таковы: система должна работать в AWS и не использовать EMR (или вообще не иметь hadoop / hdfs, так что никаких клудеров)

Для ясности, требования:

загрузить один или несколько файлов с рабочего стола (может быть вызовом пользовательского интерфейса или API) на S3 и решить, сделать ли это личным файлом (видимым только для пользователя, который его загрузил) или поделиться с конкретными пользователями
возможность SQL-запроса этих файлов, включая объединения между файлами, загруженными другими пользователями + общий доступ
запускать Python, R, Java, Scala-код в масштабе (не один узел), используя кластер EC2 без sshing в ec2. бонусные баллы за возможность регулярно планировать эти рабочие процессы

стек возможностей самообслуживания данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.