Нужен код для импорта файла .csv через Python или код ruby ​​в Cassandra 3.11.3 DB (производственное использование) - PullRequest
0 голосов
/ 09 мая 2019

У нас есть производственный кластер Cassandra 3.11.3 с 7 узлами, мы получаем дамп информации о билетах на промежуточный сервер, мне нужно прочитать этот файл .csv и импортировать данные .csv в таблицу cassandra.Я пробовал код ruby, который мне было легко написать, но он не заботится обо всех значениях столбцов (так как этот .csv будет содержать специальные символы, вводит / разные строки, выдает UTF, слишком много текстового описания, как в билетеинструмент), так как данные постоянно меняются в каждой строке в .csv.

Я хочу знать, хорошо ли ruby ​​или python для выполнения этого действия в рабочей среде, или у кого-нибудь есть хороший пример кода для смягчения проблем, упомянутых выше, ивыполнять этот вид деятельности в производственной среде?

1 Ответ

1 голос
/ 09 мая 2019

И Ruby, и Python идеально подходят для такого рода задач, но если ваш исходный файл имеет неправильный формат, то любой потенциальный инструмент может потерпеть неудачу - не существует инструмента с волшебными кнопками, который мог бы вывести контекст из (поврежденного) файла данных иисправить все проблемы для вас автоматически.

Я бы предложил разделить задачу на две части: 1) исправить проблемы с кодированием и качеством данных (и выполнить любые преобразования данных, если необходимо), а затем 2) импортировать чистые данные.

Задача 2 может быть легко выполнена практически с любым языком программирования (который имеет соответствующий драйвер cassandra), но если у вас хорошо отформатированный исходный код csv, вам, вероятно, вообще не понадобится никакой взлом (в зависимости от варианта использования, конечно же)) - Cassandra поддерживает команду copy ... from, которая позволяет импортировать данные непосредственно из csv (https://docs.datastax.com/en/cql/3.3/cql/cql_reference/cqlshCopy.html).

...