Я пытаюсь убрать все расширения из столбца, который содержит SKU продукта.
Длина не постоянна.
Единственное правило - три дефиса, например:
101-090-7612-02
На практике некоторые расширения начинаются с четвертого дефиса, а другие - с подчеркивания.
например:
101-090-7612-02_love
101-090-762-02-Т
Мне удалось добиться этого с помощью Hive SQL:
(CASE WHEN sku RLIKE '_'
THEN split(sku ,'[\_]')[0]
ELSE concat(split(sku ,'[\-]')[0],'-',split(sku ,'[\-]')[1],
'-',split(sku ,'[\-]')[2],'-',split(sku ,'[\-]')[3])
END) AS new_sku
после этого я могу GROUP BY new_sku и получить все агрегированные показатели, такие как продажи, средняя цена продажи и т. Д.
Конечно, я сделаю .apply () функцию для фрейма данных ...
... Теперь я хочу перенести этот CASE в Python 3.
Большое спасибо за любую помощь!