Как отфильтровать строки с ограничением столбцов в Deequ ColumnProfileRunner? - PullRequest
0 голосов
/ 27 февраля 2020

Я новичок в Scala и Spark. Я изучаю библиотеку Amazon Deequ для профилирования данных.

Как получить число строк, имеющих определенное значение, при использовании ColumnProfilerRunner ()?

У AnalysisRunner есть опция «соответствия» I Я ищу похожую опцию для фильтрации строк, которые соответствуют заданному ограничению столбцов.

У меня есть несколько столбцов, поэтому я хочу проверять динамически, а не использовать имена столбцов.

Оцените любую помощь.

Спасибо

1 Ответ

2 голосов
/ 27 февраля 2020

Профилировщик столбцов Deequ вычисляет фиксированный набор статистики. Если вы хотите вычислить пользовательскую статистику ваших данных, вы должны использовать VerificationSuite. Ознакомьтесь с примерами на GitHub странице deequ.

...