проблема при загрузке данных в Кассандре с помощью dsbulk - PullRequest
2 голосов
/ 22 марта 2019

У меня проблема с загрузкой данных в таблицу из CSV-файла с помощью dsbulk. Я получаю как в журнале ошибок, как показано ниже.

Причина: com.datastax.driver.core.exceptions.OperationTimedOutException: [/10.0.126.13:9042] Истекло время ожидания ответа сервера

Эта среда является нашей средой POC из 3 узлов с 8 процессорами и памятью 64 ГБ. И, по моим наблюдениям, когда я запускаю команду dsbulk, она съедает все процессоры на сервере, и потребление памяти также увеличивается.

Если вы можете дать мне указатель на точную настройку dsbulk, с помощью которой можно уменьшить использование процессора / потребление памяти. Если эта операция замедляется и если я получаю управляемую производительность, я в порядке с ней.

Ответы [ 2 ]

1 голос
/ 22 марта 2019

Вы можете указать опцию --executor.maxPerSecond, чтобы ограничить количество операций в секунду.См. Документацию для DSBulk .

Также вы можете попробовать настроить параметры пакетирования , например --batch.maxBatchStatements.

. Рекомендуется также запускать DSBulk с отдельного компьютера, чтобы предотвратить его влияние наПроизводительность DSE.(это общий совет для всех нагрузочных испытаний и т. д.)

0 голосов
/ 23 марта 2019

спасибо всем за помощь. Я смог решить эту проблему, загрузив последнюю версию Debulk и установив размер пакета равным 5000.

...