Существуют ли какие-либо серьезные проблемы с этим подходом?
Платформа Cloudera Data интегрирована с Cloudera Dataflow , основанным на Apache NiFi, поэтому интеграция не должна вызывать беспокойства.
Имеет ли смысл просто устанавливать NiFi на КАЖДЫЙ канал данных, поэтому 10?
Зависит от ожидаемого трафика, но я бы счел NiFi автономным сервисом, таким как Kafka, Zookeeper ... поэтому кластер из 3 будет отличным началом и, возможно, увеличится при необходимости. Начиная все узлы данных не требуется. Можно использовать эти службы совместно с узлами данных, просто убедитесь, что ресурсы распределены правильно (ядра, память, хранилище ...) - это проще с Cloudera.
Есть ли проблемы с наличиембольшой кластер из 10 узлов nifi?
Подробнее о масштабировании на 6) Кластеры NiFi масштабируются линейно . У вас должно быть много трафика, чтобы пройти через 10 узлов.
Будут ли некоторые рекомендации по настройке NiFi конфликтовать с конфигурацией Hadoop?
Это зависит от того, как вы его настроили. Я бы посоветовал использовать Cloudera для обоих, что очень проверено для совместной работы. Возможно, вы не получите последние версии своих услуг, но, по крайней мере, у вас более высокая надежность.