Есть несколько способов сделать это. Вы, вероятно, в конечном итоге объедините функции параметризации и функции планирования для запуска запланированных заданий, которые будут каждый раз выбирать новые файлы.
В зависимости от вашего варианта использования вы можете, например, сделать:
Импорт каталога
Если вы настроили каталог, который содержит только один файл Excel (см. Рисунок ниже), Вы можете использовать кнопку + , чтобы использовать каталог в качестве входного набора данных. Каждый раз, когда вы будете запускать задание, будут обрабатываться файлы, присутствующие в этом каталоге.
Теперь вы можете запланировать задание, создать выходное назначение и Вы должны быть все готово.
Использование параметров даты и времени
Предположим, вы находитесь в ситуации, когда вы добавляете новый файл каждый день с датой в имени файла. Например, в облачном хранилище это будет выглядеть так:
Вы можете использовать кнопку Parameterize в браузере файлов Dataprep и настройте следующий параметр:
Этот файл должен выбрать файл предыдущего дня:
Вы можете импортировать набор данных и запланировать поток. Если ваше расписание запускается каждый день, оно будет каждый раз получать новый файл.
Использование переменных
Кроме того, вы можете определить переменную в пути к файлу вашего набора данных.
Затем можно использовать API-интерфейс JobGroup для переопределения этой переменной.
POST /v4/jobGroups
{
"wrangledDataset": {
"id": datasetId
},
"runParameters": {
"overrides": {
"data": [
{
"key": "folder-name",
"value": "new folder name"
}
]
}
}
}
Обратите внимание, что для этой работы ваш файл нужно иметь одинаковую структуру. См. https://cloud.google.com/dataprep/docs/html/Create-Dataset-with-Parameters_118228628#structuring -your-data для получения более подробной информации.
Использование параметра с подстановочными знаками также должно быть возможным, так как возможна альтернатива первому методу.