Я использую spark 2.2.1, но, похоже, моя проблема возникает и в 2.4. Я пытаюсь использовать функцию limit
, определение которой приведено ниже.
def limit(n: Int): Dataset[T]
Returns a new Dataset by taking the first n rows.
Вот игрушечный пример, который воспроизводит мою проблему.
scala> spark.range(10).limit(5).show()
+---+
| id|
+---+
| 0|
| 1|
| 2|
| 3|
| 4|
+---+
scala> spark.range(10).limit(5).where('id > 3).show()
+---+
| id|
+---+
| 5|
| 6|
+---+
Я бы ожидал фрейм данных только с одной строкой, содержащей 4
. Это ошибка, это особенность? Во всяком случае, я не понимаю результат. Любая подсказка к объяснению будет принята с благодарностью.