У меня есть большая база данных с около 500 гигабайт данных столбца.Я пытаюсь получить доступ к данным, используя Spark для DataBricks, но запрос слишком длинный, чтобы позволить мне получить данные, которые меня интересуют. Я новичок в этом, поэтому, пожалуйста, извините, если вопрос не имеет полного смысла.
Единственный способ сделать это прямо сейчас - это разбить запрос, использовать его часть и повторить.
SELECT *
FROM myDataTable
WHERE rollID in ('1', '2', '148', '123', '21432'....)
Ожидается: получить все данные одновременно, чтобы я могможно провести анализ кластера.