То, что вам нужно, называется ETL (Извлечение, Преобразование, Загрузка).
В большинстве случаев удобнее написать небольшой скрипт на Python, который делает именно то, что вам нужно, но с упругим поискомэто то, что мне нравится: плагин Apache Spark +asticsearch4hadoop.
Кроме того, иногда logstash может добиться цели, но с Spark у вас есть:
- синтаксис SQL или поддержка Java / Scala / Pythonкод
- очень быстрый поиск и запись в эластичном поиске / записи, потому что распределенный рабочий (1 осколок ES = 1 рабочий Spark)
- отказоустойчивый (сбой рабочего - нет проблем)
- кластеризация (идеальноесли у вас есть миллиард документов)
Используйте с Apache Zeppelin (ноутбук с Spark в упаковке и готов), вам понравится!