Как передавать 100 ГБ данных по сети каждую ночь на высокой скорости? - PullRequest
1 голос
/ 06 июня 2019

Существует внешняя база данных, к которой у нас есть доступ к 7 просмотрам.Каждое утро мы хотим извлечь все записи из этих представлений.Похоже, что запись составляет около 100 ГБ.Я пытался использовать весеннюю партию, но для извлечения этого размера записи требуется почти 15 часов.Я ищу решение, в котором я могу сделать две вещи: 1. ускорить этот процесс, который займет максимум 1 или 2 часа, а в случае сбоя в сети отправьте электронное письмо заинтересованным сторонам о сбоях.Нам нужны данные как в Elasticsearch, так и на сервере MS SQL.

Следующие вещи, которые я пробовал

  1. Apache Kafka с разъемом JDBC Source: dint работает, потому что представление делаетнет столбца первичного ключа и столбца отметок времени

  2. Пробовал с подпружиненным пакетом JdbcItemReader и RepositoryItemwriter, но это довольно медленно.(MS SQL Server к MS SQL Server)

  3. Пробовал с SpringBatch JdbcItemReader и KafkaItemWriter, потребитель Kafka для массового индекса Elasticsearch.это самый быстрый, который занимает около 15 часов.Размер куска 10k или 5k занимает примерно одинаковое количество времени.Какие у меня варианты?

  4. Попытка использовать исходный соединитель Debezium для работы Kafka ut dint, так как в исходной базе данных отключен CDC.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...