Что такое хороший инструмент массовой загрузки данных для Cassandra - PullRequest
3 голосов
/ 06 мая 2011

Я ищу инструмент для загрузки CSV в Cassandra. Я надеялся использовать RazorSQL для этого, но мне сказали, что это будет через несколько месяцев.

Что такое хороший инструмент?

Спасибо

Ответы [ 3 ]

2 голосов
/ 12 марта 2012

1) Если у вас есть все данные для загрузки на месте, вы можете попробовать утилиту sstableloader (только для cassandra 0.8.x и выше) для массовой загрузки данных. Для получения дополнительной информации см .: Кассандра навальный погрузчик

2) Cassandra представила BulkOutputFormat массовую загрузку данных в cassandra с заданием hadoop в последней версии, которая является cassandra-1.1.x и далее. Для получения более подробной информации см .: Массовая загрузка в Кассандру с помощью Hadoop

1 голос
/ 09 мая 2011

Я сомневаюсь, что поддержка инструментов очень помогла бы в этом, поскольку схема Cassandra должна отражать запросы, которые вы хотите выполнить, а не просто являться общей моделью вашего домена.

Встроенный механизм массовой загрузки для кассандры через BinaryMemtables: http://wiki.apache.org/cassandra/BinaryMemtable

Однако, независимо от того, используете ли вы этот или более обычный интерфейс Thrift, вам все равно, вероятно, нужно вручную спроектировать сопоставление из CSV в Cassandra ColumnFamilies с учетом запросов, которые необходимо выполнить. Общее отображение из CSV-> Cassandra может не подходить, так как обычно необходимы вторичные индексы и денормализация.

0 голосов
/ 25 октября 2013
  • Для Cassandra 1.1.3 и выше, есть команда CQL COPY, которая доступна для импорта (или экспорта) данных в (или из) таблицы.Согласно документации, если вы импортируете менее 2 миллионов строк, это хороший вариант.Это намного проще в использовании, чем sstableloader и менее подвержен ошибкам.Sstableloader требует, чтобы вы создавали строго отформатированные файлы .db, тогда как команда CQL COPY принимает текстовый файл с разделителями.Документация здесь: http://www.datastax.com/docs/1.1/references/cql/COPY

  • Для больших наборов данных вы должны использовать sstableloader. http://www.datastax.com/docs/1.1/references/bulkloader. Рабочий пример описан здесь http://www.datastax.com/dev/blog/bulk-loading.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...