Question

Я пытаюсь прочитать данные из BigQuery, используя pandas и pyspark.Я могу получить данные, но каким-то образом получаю ошибку ниже при преобразовании их в Spark DataFrame.

py4j.protocol.Py4JJavaError: An error occurred while calling o28.showString.
: java.lang.IllegalStateException: Could not find TLS ALPN provider; no working netty-tcnative, Conscrypt, or Jetty NPN/ALPN available
    at com.google.cloud.spark.bigquery.repackaged.io.grpc.netty.shaded.io.grpc.netty.GrpcSslContexts.defaultSslProvider(GrpcSslContexts.java:258)
    at com.google.cloud.spark.bigquery.repackaged.io.grpc.netty.shaded.io.grpc.netty.GrpcSslContexts.configure(GrpcSslContexts.java:171)
    at com.google.cloud.spark.bigquery.repackaged.io.grpc.netty.shaded.io.grpc.netty.GrpcSslContexts.forClient(GrpcSslContexts.java:120)
    at com.google.cloud.spark.bigquery.repackaged.io.grpc.netty.shaded.io.grpc.netty.NettyChannelBuilder.buildTransportFactory(NettyChannelBuilder.java:401)
    at com.google.cloud.spark.bigquery.repackaged.io.grpc.internal.AbstractManagedChannelImplBuilder.build(AbstractManagedChannelImplBuilder.java:444)
    at com.google.cloud.spark.bigquery.repackaged.com.google.api.gax.grpc.InstantiatingGrpcChannelProvider.createSingleChannel(InstantiatingGrpcChannelProvider.java:223)
    at com.google.cloud.spark.bigquery.repackaged.com.google.api.gax.grpc.InstantiatingGrpcChannelProvider.createChannel(InstantiatingGrpcChannelProvider.java:169)
    at com.google.cloud.spark.bigquery.repackaged.com.google.api.gax.grpc.InstantiatingGrpcChannelProvider.getTransportChannel(InstantiatingGrpcChannelProvider.java:156)
    at com.google.cloud.spark.bigquery.repackaged.com.google.api.gax.rpc.ClientContext.create(ClientContext.java:157)

Ниже приводится подробное описание среды

Python version : 3.7
Spark version : 2.4.3
Java version : 1.8

Код выглядит следующим образом

import google.auth
import pyspark
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession , SQLContext
from google.cloud import bigquery


# Currently this only supports queries which have at least 10 MB of results
QUERY = """ SELECT * FROM test limit 1 """

#spark = SparkSession.builder.appName('Query Results').getOrCreate()
sc = pyspark.SparkContext()
bq = bigquery.Client()

print('Querying BigQuery')
project_id = ''
query_job = bq.query(QUERY,project=project_id)

# Wait for query execution
query_job.result()

df = SQLContext(sc).read.format('bigquery') \
    .option('dataset', query_job.destination.dataset_id) \
    .option('table', query_job.destination.table_id)\
    .option("type", "direct")\
    .load()

df.show()

Мне нужна помощь для решения этой проблемы.

Aman Mittal · Answer 1 · 12 июля 2019

Мне удалось найти лучшее решение, ссылающееся на эту ссылку , ниже мой рабочий код:

Установите пакет pandas_gbq в библиотеку python перед тем, как писать код ниже.

import pandas_gbq
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession

project_id = "<your-project-id>"
query = """ SELECT * from testSchema.testTable"""
athletes = pandas_gbq.read_gbq(query=query, project_id=project_id,dialect = 'standard')


# Get a reference to the Spark Session
sc = SparkContext()
spark = SparkSession(sc)

# convert from Pandas to Spark
sparkDF = spark.createDataFrame(athletes)

# perform an operation on the DataFrame
print(sparkDF.count())

sparkDF.show()

Надеюсь, это кому-нибудь поможет!Продолжайте pysparking:)

Ошибка при использовании метода showframe show в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Ошибка при использовании метода showframe show в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы