У меня есть файл / папка для паркета (около 1 ГБ), которую я хотел бы загрузить в мою локальную базу данных Cassandra. К сожалению, я не смог найти никакого способа (кроме как через SPARK (в Scala)) напрямую загрузить этот файл в CDB. Если я добавлю паркет в CSV, он станет слишком большим для моего ноутбука.
Я настраиваю Cassandra DB для анализа больших данных (у меня есть около 25 ТБ необработанных данных, которые нам нужны для быстрого поиска). Прямо сейчас я провожу некоторые локальные тесты того, как оптимально спроектировать пространства ключей, индексы и таблицы, прежде чем переходить на Cassandra как сервис на Hyperscaler. Преобразование данных в CSV не вариант, так как это слишком много.
COPY firmographics.company (col1,col2,col3.....) FROM 'C:\Users\Public\Downloads\companies.csv' WITH DELIMITER='\t' AND HEADER=TRUE;