У меня есть большие файлы CSV или JSON, например, GB в AWS S3. Каждая строка или объект json в массиве представляет сущность в нашей модели данных, которая может иметь размер до МБ. Позже сущность должна быть извлечена в течение секунды по ID в ней.
Моя первоначальная идея состояла в том, чтобы разбить исходный файл на столько файлов, сколько их было бы, и назвать его идентификатором. Таким образом, это не только разделение файла, но и его анализ. Я мог бы использовать некоторые тяжелые инструменты, такие как Apache Spark, но чем легче, тем лучше.
Есть ли легкие инструменты, чтобы сделать это вместо этого? Или есть подходы лучше?
Не рекомендуется просить пользователей разделить их файл данных, и несколько файлов могут быть загружены параллельно.