Мне интересно, как удалить диакритические знаки в Pyspark Dataframe с помощью Python2. Мне нужно что-то вроде
from pyspark.sql.session import SparkSession
from pyspark import SparkContext
import pyspark.sql.functions as sf
from pyspark.sql.types import StringType
df = sc.parallelize([(u'pádlo', 1), (u'dřez', 4)]).toDF(['text', 'num'])
def remove_diacritics(s):
return unidecode.unidecode(s)
rem_udf = sf.udf(remove_diacritics, StringType())
df.select(rem_udf('text'))
К сожалению, модуль unidecode
недоступен в нашем кластере.
Есть ли какое-нибудь естественное решение, которое мне не хватает, кроме ручной замены всех возможных символов? Обратите внимание, что ожидаемый результат составляет [padlo, drez]