извините за мой английский заранее.
Я новичок с Кассандрой и его моделью данных. Я пытаюсь вставить один миллион строк в базе данных Кассандра в локальном на одном узле. В каждой строке 10 столбцов, и я вставляю их только в одно семейство столбцов.
Для одной нити эта операция заняла около 3 минут. Но я бы хотел сделать ту же операцию с 2 миллионами строк и хорошо провести время. Затем я попытался с помощью 2 потоков вставить 2 миллиона строк, ожидая аналогичного результата в течение 3-4 минут. НО я получаю результат, как 7 минут ... вдвое больше первого результата. Как я проверяю на разных форумах, многопоточность рекомендуется для повышения производительности.
Вот почему я задаю этот вопрос: полезно ли использовать многопоточность для вставки данных в локальный узел (клиент и сервер находятся на одном компьютере), только в одном семействе столбцов?
Некоторые данные:
- Я использую Pycassa
- Я разделил реперторий commitlog и репертуар данных на разных дисках
- Я использую пакетную вставку для каждой темы
- Уровень согласованности: ОДИН
- Коэффициент репликатора: 1