Прямо сейчас у меня есть одни тестовые данные, у которых есть 1 раздел, и внутри этого раздела у него есть 2 файла паркета
Если я читаю данные как:
val df = spark.read.format("delta").load("./test1510/table@v1")
Тогда я получаю последние данные с 10000 строк, и если я прочитал:
val df = spark.read.format("delta").load("./test1510/table@v0")
Тогда я получу 612 строк, теперь мой вопрос: как я могу просмотреть только те новые строки, которые были добавлены в версии 1, которая составляет 10 000 - 612 = только 9388 строк
Короче говоря, в каждой версии я просто хочу посмотреть, какие данные изменились. В целом в дельта-журнале я могу видеть json файлы, а внутри json файла я вижу, что он создает отдельный файл паркета в каждой версии, но как я могу просмотреть его в коде?
Я использую Искра с Scala