Question

Я пытаюсь прочитать несколько файлов .gz из HDFS, используя Dataset API (env.readTextFile()), но размеры файлов сильно различаются, что затрудняет повышение эффективности за счет увеличения параллелизма.Итак, я хочу знать, есть ли параметры, которые могут справиться с этим перекосом данных.Или мне нужно, чтобы входные файлы имели одинаковые размеры?

Ниже приведен код, который я сейчас использую, скопированный из Руководство по программированию Flink DataSet API

// enable recursive enumeration of nested input files
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

// create a configuration object
Configuration parameters = new Configuration();

// set the recursive enumeration parameter
parameters.setBoolean("recursive.file.enumeration", true);

// pass the configuration to the data source
DataSet<String> logs = env.readTextFile("file:///path/with.nested/files")
              .withParameters(parameters);

Как получить все доступные параметры для env.readTextFile ()?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как получить все доступные параметры для env.readTextFile ()?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы