Использование pyspark с sparkdl для классификации изображений: py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o162.loadClass - PullRequest
0 голосов
/ 05 марта 2019

Я следовал этому руководству , чтобы классифицировать изображения с помощью Apache Spark.Статья кажется немного устаревшей, но процесс должен быть довольно похожим.Там также написано Python 2.7, но, насколько мне известно, sparkdl работает только на python 3 ... поэтому я использовал Python 3.6, установленный через homebrew.Я также установил все самые последние пакеты из pip.Во время работы он выдавал много предупреждений об устаревании, но я не думаю, что они являются проблемой здесь.Что я должен сделать, чтобы отладить это дальше?Я использую Python 3.6.0 и Spark 2.4.0 на Macbook.У меня такое чувство, что py4j не нравятся новые версии других установленных пакетов.Вот вывод консоли без предупреждений об устаревании.Исходный код можно найти здесь .

Using Python version 3.6.0 (v3.6.0:41df79263a11, Dec 22 2016 17:23:13)
SparkSession available as 'spark'.
>>> exec(open("imageImporter.py").read())
Using TensorFlow backend.
>>> exec(open("modelCreator.py").read())
INFO:tensorflow:Froze 376 variables.
2019-03-04 18:11:59,059 INFO (MainThread-87989) Froze 376 variables.
INFO:tensorflow:Converted 376 variables to const ops.
2019-03-04 18:11:59,434 INFO (MainThread-87989) Converted 376 variables to const ops.
[Stage 2:>  (0     + 1) / 1]Using TensorFlow backend.
Using TensorFlow backend.
INFO:tensorflow:Froze 0 variables.
2019-03-04 18:12:19,950 INFO (MainThread-87989) Froze 0 variables.
INFO:tensorflow:Converted 0 variables to const ops.
2019-03-04 18:12:20,129 INFO (MainThread-87989) Converted 0 variables to const ops.
2019-03-04 18:12:20,966 INFO (MainThread-87989) Fetch names: ['sdl_flattened_mixed10/concat:0']
2019-03-04 18:12:20,966 INFO (MainThread-87989) Spark context = <SparkContext master=local[*] appName=PySparkShell>
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "<string>", line 8, in <module>
  File "/usr/local/Cellar/apache-spark/2.4.0/libexec/python/pyspark/ml/base.py", line 132, in fit
    return self._fit(dataset)
  File "/usr/local/Cellar/apache-spark/2.4.0/libexec/python/pyspark/ml/pipeline.py", line 107, in _fit
    dataset = stage.transform(dataset)
  File "/usr/local/Cellar/apache-spark/2.4.0/libexec/python/pyspark/ml/base.py", line 173, in transform
    return self._transform(dataset)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/sparkdl/transformers/named_image.py", line 158, in _transform
    return transformer.transform(dataset)
  File "/usr/local/Cellar/apache-    spark/2.4.0/libexec/python/pyspark/ml/base.py", line 173, in transform
    return self._transform(dataset)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/sparkdl/transformers/named_image.py", line 221, in _transform
    result = tfTransformer.transform(dataset.withColumn(resizedCol, resizeUdf(inputCol)))
  File "/usr/local/Cellar/apache-spark/2.4.0/libexec/python/pyspark/ml/base.py", line 173, in transform
    return self._transform(dataset)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/sparkdl/transformers/tf_image.py", line 137, in _transform
    "image_buffer": "__sdl_image_data"})
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/tensorframes/core.py", line 264, in map_rows
    return _map(fetches, dframe, feed_dict, block=False, trim=None, initial_variables=initial_variables)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/tensorframes/core.py", line 150, in _map
    builder = _java_api().map_rows(dframe._jdf)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/tensorframes/core.py", line 34, in _java_api
    return _jvm.Thread.currentThread().getContextClassLoader().loadClass(javaClassName) \
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/py4j/java_gateway.py", line 1286, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "/usr/local/Cellar/apache-spark/2.4.0/libexec/python/pyspark/sql/utils.py", line 63, in deco
    return f(*a, **kw)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/py4j/protocol.py", line 328, in get_return_value
    format(target_id, ".", name), value)
py4j.protocol.Py4JJavaError: An error occurred while calling o162.loadClass.
: java.lang.ClassNotFoundException: org.tensorframes.impl.DebugRowOps
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:238)
    at java.lang.Thread.run(Thread.java:748)

Ранее я пытался сделать то же самое с более старой версией sparkdl, py4j и tenorflow только для получения очень похожей ошибки.Я также пробовал использовать Python 2.7, но он даже не зашел так далеко, и я бы хотел, чтобы все было как можно более актуально.

...