Инструмент проверки работоспособности данных - PullRequest
0 голосов
/ 02 февраля 2020

Я хочу выполнить проверку работоспособности огромного объема данных, который может быть как в RDBMS, так и в облачном хранилище файлов, например Amazon S3. Какой инструмент подойдет для проверки работоспособности данных, который может дать мне количество строк, строк, не соответствующих заданной схеме для проверки типа данных, средний объем за данный период времени и т. Д. c?

Я не хочу использовать какую-либо платформу bigdata, такую ​​как Qubole или Databricks, из-за дополнительных затрат. Я нашел Drools , который может выполнять аналогичные операции, но для этого потребуется считывать полные данные в память и связываться с POJO перед проверкой. Будут признательны любые альтернативы, когда мне не нужно загружать полные данные в память.

1 Ответ

0 голосов
/ 03 февраля 2020

Вы можете избежать полной загрузки данных в память, реализовав объект StatelessKieSession drools. StatelessKieSession работает только с текущим событием, не поддерживает состояние какого-либо события и не сохраняет объекты в памяти. Подробнее о StatelessKieSession можно прочитать здесь.

Кроме того, вы можете использовать Stateful KieSession и назначить истечение события, используя объявление @expires, которое истекает через указанное время. Подробнее о @expires здесь.

...