Отображение сэмплов на основе ТОЛЬКО первых 1000 строк в azure блоках данных - PullRequest
0 голосов
/ 21 февраля 2020
dfResult = spark.readStream.format("delta").load(PATH)
dfResult.createOrReplaceTempView("Stream")

Попытка прочитать потоковые данные из дельта-таблицы, в которую я поместил все данные, и визуализировать их, выполнив:

%sql
SELECT Time, score
From Stream 

Однако на графике отображаются только первые 1000 строк или Таблица.

Есть ли способы увидеть последние 1000 строк или отобразить все данные вместо первых 1000?

Ответы [ 2 ]

0 голосов
/ 29 февраля 2020

вместо этого попробуйте упорядочить по дате

display(dfResult.orderBy("Time", ascending=False).limit(1000))
0 голосов
/ 21 февраля 2020

вы можете использовать ID для сортировки кадра данных и поднабора его с помощью limit (), чтобы убедиться, что вы получите именно те строки, которые вам нужны.

import pyspark.sql.functions as f

# add an index column (if you don't have it)
dfResult = dfResult.withColumn('index', f.monotonically_increasing_id())

# sort ascending and take first 1000 rows for df1
df1 = dfResult.orderBy("index", ascending=True).limit(1000)

# sort descending and take last 1000 rows for df2
df2 = dfResult.orderBy("index", ascending=False).limit(1000)

display(df2)
...