В HDFS у меня есть такие каталоги, как этот
hdfs: // имя хоста / данные / канал / данные / dt = 20180909 / час = 04 / великобритания / customer1 '
в моемСценарий, я извлек всю информацию из файлов, но мне также нужно захватить местоположение в выходном фрейме данных.Единственное место, где это хранится, находится в пути к каталогу (например, выше = Великобритания)
Есть ли способ извлечь это, чтобы сформировать часть вывода df в новом столбце?
ТАКЖЕ,
У меня есть следующий оператор в моем коде Pyspark.
Проблема в том, что когда мне нравится ("% i ...), он думает, что ищет целочисленную переменную - применяются те же проблемыс% g
Я пытался экранировать символ с помощью \, но это не сработало.
Если я поменяю все слова, чтобы начать с 'b', проблема не будетсуществует. Так что до этой проблемы.
Кто-нибудь знает, как я могу избежать этой проблемы?
.withColumn('cleanapn',\
sqlfunc.when(df4.apnstr.like("%info%"), "Info")\
.when(df4.apnstr.like("%books%"), "Books")\
.when(df4.apnstr.like("%interest%"), "Interest")\
.when(df4.apnstr.like("%gonefishing%"), "Gonefishing")\
.otherwise("Other"))\
Спасибо!