Question

Мне нужно извлечь целые числа только из URL-адресов в столбце «URL страницы» и добавить эти извлеченные целые числа в новый столбец. Я использую PySpark. Мой код ниже:


from pyspark.sql.functions import col, regexp_extract

spark_df_url.withColumn("new_column", regexp_extract(col("Page URL"), "\d+", 1).show())

У меня следующая ошибка: TypeError: объект 'Column' не вызывается.

Wiktor Stribiżew · Answer 1 · 22 января 2020

Вы можете использовать

spark_df_url.withColumn("new_column", regexp_extract("Page URL", "\d+", 0))

Укажите имя столбца строки в качестве первого аргумента для regexp_replace и убедитесь, что третий аргумент установлен на 0 в качестве вашего В шаблоне нет групп захвата, и вы заинтересованы в получении полного значения совпадения в результате.

Обратите внимание, что когда вы указали 1 в качестве третьего аргумента, вы получите пустые результаты:

Если регулярное выражение не соответствует или указанная группа не соответствует, возвращается пустая строка.

Объект «Столбец» не вызывается с помощью Regex и Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Объект «Столбец» не вызывается с помощью Regex и Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов