Я пытаюсь помочь моей команде упростить процесс приема данных, который занимает значительное количество времени. Мы получаем данные в нескольких форматах и с атрибутами, расположенными по-разному. Есть ли способ использовать RapidMiner для создания процесса, который:
- Обрабатывает файлы по расписанию, которые помещаются в папку (это
один, я думаю, я знаю, но я хотел бы советы по этому, как запланированные процессы
новые для меня)
- Автоматически определяет тип входного файла и маршруты к нужному оператору (например, «Чтение CSV»)
- Распознает относительно небольшое количество атрибутов и упорядочивает их соответствующим образом. В некоторых случаях атрибуты именуются так же, как и наш формат приема, а в других они не являются (например, телефон против телефон # против телефон )
Атрибуты, которые мы обрабатываем, в основном состоят из name , id , phone , email , address . Кроме того, в некоторых случаях имена делятся на первые / последние, а в некоторых они являются полными именами.
Я признаю, что разбирать файлы для таких простых атрибутов не должно быть так сложно, но количество файлов, которые мы получаем, и отсутствие порядка, очень затрудняет оптимизацию процесса без какой-либо автоматизации. Я также собираюсь перейти к стандартизированному формату приема, но по ряду причин, которые на горизонте, а не немедленное решение.
Я ценю любые советы или рекомендации, которыми вы можете поделиться.