Объект «Столбец» не вызывается с помощью Regex и Pyspark - PullRequest
0 голосов
/ 22 января 2020

Мне нужно извлечь целые числа только из URL-адресов в столбце «URL страницы» и добавить эти извлеченные целые числа в новый столбец. Я использую PySpark. Мой код ниже:


from pyspark.sql.functions import col, regexp_extract

spark_df_url.withColumn("new_column", regexp_extract(col("Page URL"), "\d+", 1).show())

У меня следующая ошибка: TypeError: объект 'Column' не вызывается.

1 Ответ

2 голосов
/ 22 января 2020

Вы можете использовать

spark_df_url.withColumn("new_column", regexp_extract("Page URL", "\d+", 0))

Укажите имя столбца строки в качестве первого аргумента для regexp_replace и убедитесь, что третий аргумент установлен на 0 в качестве вашего В шаблоне нет групп захвата, и вы заинтересованы в получении полного значения совпадения в результате.

Обратите внимание, что когда вы указали 1 в качестве третьего аргумента, вы получите пустые результаты:

Если регулярное выражение не соответствует или указанная группа не соответствует, возвращается пустая строка.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...