фрейм данных фильтра pyspark на основе широковещательной переменной - PullRequest
0 голосов
/ 25 сентября 2018

У меня есть фрейм данных pyspark 2.0, который я пытаюсь отфильтровать на основе (относительно) короткого списка - возможно, длины 50-100.

filterList = ['A','B','C']

Я хотел бы передать этот список накаждый из моих узлов и используйте его для удаления записей, в которых одного из двух столбцов нет в моем списке.

Эта операция работает:

filter_df= df.where((df['Foo'].isin(filterList )) | (df['Bar'].isin(filterList)))

, но как только я рассылаю списокЯ получаю сообщение об ошибке:

filterListB= sc.broadcast(filterList)

filter_df= df.where((df['Foo'].isin(filterListB)) | (df['Bar'].isin(filterListB)))

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-99-1b972cf29148> in <module>()
----> 1 filter_df= df.where((df['Foo'].isin(filterListB)) | (df['Bar'].isin(filterListB)))

/usr/local/spark/python/pyspark/sql/column.pyc in isin(self, *cols)
    284         if len(cols) == 1 and isinstance(cols[0], (list, set)):
    285             cols = cols[0]
--> 286         cols = [c._jc if isinstance(c, Column) else _create_column_from_literal(c) for c in cols]
    287         sc = SparkContext._active_spark_context
    288         jc = getattr(self._jc, "isin")(_to_seq(sc, cols))

/usr/local/spark/python/pyspark/sql/column.pyc in _create_column_from_literal(literal)
     33 def _create_column_from_literal(literal):
     34     sc = SparkContext._active_spark_context
---> 35     return sc._jvm.functions.lit(literal)
     36 
     37 

/usr/local/spark/python/lib/py4j-0.10.3-src.zip/py4j/java_gateway.py in __call__(self, *args)
   1122 
   1123     def __call__(self, *args):
-> 1124         args_command, temp_args = self._build_args(*args)
   1125 
   1126         command = proto.CALL_COMMAND_NAME +\

/usr/local/spark/python/lib/py4j-0.10.3-src.zip/py4j/java_gateway.py in _build_args(self, *args)
   1092 
   1093         args_command = "".join(
-> 1094             [get_command_part(arg, self.pool) for arg in new_args])
   1095 
   1096         return args_command, temp_args

/usr/local/spark/python/lib/py4j-0.10.3-src.zip/py4j/protocol.py in get_command_part(parameter, python_proxy_pool)
    287             command_part += ";" + interface
    288     else:
--> 289         command_part = REFERENCE_TYPE + parameter._get_object_id()
    290 
    291     command_part += "\n"

AttributeError: 'Broadcast' object has no attribute '_get_object_id'

Есть мысли о том, как должен фильтровать фрейм данных pyspark 2.0 на основе списка рассылки?

1 Ответ

0 голосов
/ 25 сентября 2018

Вы не можете напрямую обращаться к переменной Broadcast в своих функциях DataFrame, вместо этого используйте «значение» для доступа к значению переменной Broadcast.

Итак, измените свой код, как показано ниже:

filterListB= sc.broadcast(filterList)
filter_df= df.where((df['Foo'].isin(filterListB.value)) | (df['Bar'].isin(filterListB.value)))

Ссылка: https://jaceklaskowski.gitbooks.io/mastering-apache-spark/spark-broadcast.html

...