У меня есть фрейм данных pyspark 2.0, который я пытаюсь отфильтровать на основе (относительно) короткого списка - возможно, длины 50-100.
filterList = ['A','B','C']
Я хотел бы передать этот список накаждый из моих узлов и используйте его для удаления записей, в которых одного из двух столбцов нет в моем списке.
Эта операция работает:
filter_df= df.where((df['Foo'].isin(filterList )) | (df['Bar'].isin(filterList)))
, но как только я рассылаю списокЯ получаю сообщение об ошибке:
filterListB= sc.broadcast(filterList)
filter_df= df.where((df['Foo'].isin(filterListB)) | (df['Bar'].isin(filterListB)))
---------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-99-1b972cf29148> in <module>()
----> 1 filter_df= df.where((df['Foo'].isin(filterListB)) | (df['Bar'].isin(filterListB)))
/usr/local/spark/python/pyspark/sql/column.pyc in isin(self, *cols)
284 if len(cols) == 1 and isinstance(cols[0], (list, set)):
285 cols = cols[0]
--> 286 cols = [c._jc if isinstance(c, Column) else _create_column_from_literal(c) for c in cols]
287 sc = SparkContext._active_spark_context
288 jc = getattr(self._jc, "isin")(_to_seq(sc, cols))
/usr/local/spark/python/pyspark/sql/column.pyc in _create_column_from_literal(literal)
33 def _create_column_from_literal(literal):
34 sc = SparkContext._active_spark_context
---> 35 return sc._jvm.functions.lit(literal)
36
37
/usr/local/spark/python/lib/py4j-0.10.3-src.zip/py4j/java_gateway.py in __call__(self, *args)
1122
1123 def __call__(self, *args):
-> 1124 args_command, temp_args = self._build_args(*args)
1125
1126 command = proto.CALL_COMMAND_NAME +\
/usr/local/spark/python/lib/py4j-0.10.3-src.zip/py4j/java_gateway.py in _build_args(self, *args)
1092
1093 args_command = "".join(
-> 1094 [get_command_part(arg, self.pool) for arg in new_args])
1095
1096 return args_command, temp_args
/usr/local/spark/python/lib/py4j-0.10.3-src.zip/py4j/protocol.py in get_command_part(parameter, python_proxy_pool)
287 command_part += ";" + interface
288 else:
--> 289 command_part = REFERENCE_TYPE + parameter._get_object_id()
290
291 command_part += "\n"
AttributeError: 'Broadcast' object has no attribute '_get_object_id'
Есть мысли о том, как должен фильтровать фрейм данных pyspark 2.0 на основе списка рассылки?