Мне удалось это сделать.
Благодаря αԋɱҽԃ αмєяιcαη, это не лучшее решение, поскольку оно выходит за пределы функции regexp_replace pyspark, но работает, просто добавило re.unicode пометить и создать udf.
regexp = re.compile(r'^\W+|\W+$',flags=re.UNICODE)
def remove_non_utf8(string):
return regexp_2.sub('',regexp_1.sub('',string))
replace_utf8 = udf(remove_non_utf8)
При этом удаляются все символы, не связанные с юникодом, с начала или конца, использованные этот URL в качестве ссылки.
- РЕДАКТИРОВАТЬ-
Я пытался использовать:
**(?ui)^\W+|\W+$**
С функцией regexp_replace pyspark это не сработало, поэтому я все еще использую решение regexp.