Я новичок в Spark, пытаюсь использовать его так же, как я использовал Pandas для анализа данных.
В пандах, чтобы увидеть переменную, я напишу следующее:
import pandas as pd
df = pd.DataFrame({a:[1,2,3],b:[4,5,6]})
print(df.head())
В Spark мои операторы печати не выводятся на терминал. На основании комментария Дэвида к этому ответу операторы печати отправляются на stdout/stderr
, и есть способ получить его с помощью пряжи, но он не говорит, как. Я не могу найти ничего, что имеет смысл с помощью Google, "как захватить стандартную искру".
То, что я хочу, - это способ увидеть биты моих данных, чтобы устранить неполадки в моем анализе данных. "Работало ли добавление этого столбца?"Что-то в этом роде. Я также приветствовал бы новые способы устранения неполадок, которые лучше подходят для огромных наборов данных.