Ошибка ParseException при использовании Regex в pyspark 2.4 - PullRequest
1 голос
/ 24 сентября 2019

Я пытаюсь получить только те строки, в которых colADD содержит не буквенно-цифровой символ.

Код:

from pyspark.sql import SparkSession
spark = SparkSession \
     .builder \
     .appName("Test") \
     .getOrCreate()

data = spark.read.csv("Customers");



data.registerTempTable("data");
spark.sql("SELECT colADD from data WHERE colADD REGEXP '^[A-Za-z0-9]+$'; ");

Ошибка:

pyspark.sql.utils.ParseException: u"\nextraneous input ';' 
expecting <EOF>(line 1, pos 56)\n\n== SQL ==\nSELECT CNME from data WHERE CNME REGEXP '^[A-Za-z0-9]+$';

Пожалуйста, помогите, яя что-то упустил.

Ответы [ 2 ]

0 голосов
/ 24 сентября 2019

искра использовала это

spark.sql("SELECT col2 from test WHERE col2 REGEXP '^[A-Za-z0-9]*\\-' ").show
0 голосов
/ 24 сентября 2019

Обратите внимание на использование pyspark - но как насчет простого удаления ; - похоже, не нужно.

...