Мы используем API набора данных Flink 1.9.0 для чтения CSV-файлов из Amazon S3 Bucket. В большинстве случаев время ожидания пула соединений. Ниже приведены конфигурации на уровне Flink
Чтение объектов 19708 из s3 в одном go, так как нам нужно применить logi c поверх всего набора данных. Например: представьте, что у вас есть 20 исходных папок, например (AAA, BBB, CCC) с несколькими подпапками (AAA / 4May2020 /../../ 1.csv, AAA / 4May2020 /../../ 2). csv, AAA / 3May2020 /../../ 1.csv, AAA / 3May2020 /../../ 2.csv ....), чтобы чтение произошло перед вызовом readCSV, logi c сканировать папки и выбрать только папку с самой последней датой и передать ее для чтения. Для операции чтения мы используем параллелизм как «5». Но когда сформирован график выполнения, все 20 источников объединяются.
Работа на Kube- Aws с примерно 10 менеджерами задач, размещенными в «большой машине m5.4X». Диспетчеру задач docker выделено 8 ядер и 50 ГБ памяти.
Следующие попытки были предприняты для решения проблемы, но пока безуспешно. Очень нужны некоторые указатели и помощь для решения этой проблемы.
- Включен механизм повторных попыток Flink с переключением при сбое в качестве "региона", иногда с повторными попытками, которые он проходит. Но даже при повторных попытках происходит сбой с перерывами.
Пересмотрен основной сайт. xml согласно AWS Сайт: fs.s3a.threads.max : 3000, fs.s3a.connection.maximum : 4500 Также кто-нибудь может помочь со следующими вопросами
В любом случае можно ли проверить, открыты ли HTTP-соединения, открытые readCSV
? closed
- Любые указатели, чтобы понять, как работает набор данных ReadCSV, помогут.
- Есть ли способ ввести механизмы ожидания перед чтением?
- Любой лучший способ решить эту проблему