Question

В pyspark я пытаюсь подсчитать уникальные вхождения идентификатора пользователя в журналах json (набор данных - это файл json).

Следующие работы:

df.select(
        F.col("nested.user_id")
    )\
    .where(
        ...
    )\
    .groupBy(
        F.col("user_id")
    )\
    .count()

Обратите внимание, что«вложенный».префикс не появляется в предложении groupBy.Кажется, автоматически удаляется искрой.Мне нужно, чтобы этот префикс появился, и попробовал следующий запрос:

df.select(
        F.col("nested.user_id").alias("nested.user_id")
    )\
    .where(
        ...
    )\
    .groupBy(
        F.col("nested.user_id")
    )\
    .count()

Псевдоним, кажется, работает, но groupBy не знает об этом:

org.apache.spark.sql.AnalysisException: cannot resolve '`nested.user_id`' given input columns: [nested.user_id];

Есть идеи?Спасибо

Raphael · Answer 1 · 12 июня 2019

Спасибо комментарию @pault, вот ответ:

df.select(
        F.col("nested.user_id").alias("nested.user_id")
    )\
    .where(
        ...
    )\
    .groupBy(
        F.col("`nested.user_id`")
    )\
    .count()

В предложении groupBy были добавлены обратные ссылки.

Pyspark, groupBy и префикс вложенных столбцов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Pyspark, groupBy и префикс вложенных столбцов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов