Flink Read CSV на нескольких хостах - PullRequest
0 голосов
/ 10 мая 2018

У меня есть кластер типа https://ci.apache.org/projects/flink/flink-docs-release-1.2/setup/cluster_setup.html, в котором у меня есть несколько CSV, соответствующих шарду для каждого хоста. Я хочу использовать API таблицы для вычисления суммы столбца CSV на нескольких хостах. Каждый работник должен иметь возможность рассчитать сумму CSV, которую он имеет, и вернуть результат на мастера. Возможно ли и если это то, что я должен реализовать.

1 Ответ

0 голосов
/ 10 мая 2018

Если я правильно понимаю ваш вопрос, вы хотели бы прочитать CSV-файлы и суммировать некоторые поля. Это довольно простой запрос и не проблема для Flink.

В последней версии Flink (1.4.2) вы можете зарегистрировать CsvTableSource в виде таблицы и выполнить запрос типа SELECT sum(a), sum(b) FROM yourTable.

Обратите внимание, что файлы CSV должны храниться в файловой системе, доступной для всех компьютеров (распределенная файловая система, NFS, ...).

...