Я пытаюсь прочитать несколько файлов .gz из HDFS, используя Dataset API (env.readTextFile()
), но размеры файлов сильно различаются, что затрудняет повышение эффективности за счет увеличения параллелизма.Итак, я хочу знать, есть ли параметры, которые могут справиться с этим перекосом данных.Или мне нужно, чтобы входные файлы имели одинаковые размеры?
Ниже приведен код, который я сейчас использую, скопированный из Руководство по программированию Flink DataSet API
// enable recursive enumeration of nested input files
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
// create a configuration object
Configuration parameters = new Configuration();
// set the recursive enumeration parameter
parameters.setBoolean("recursive.file.enumeration", true);
// pass the configuration to the data source
DataSet<String> logs = env.readTextFile("file:///path/with.nested/files")
.withParameters(parameters);