Я бы хотел вычислить частоту каждого смайлика в таблице Hive.Чтобы сделать это, я пытаюсь извлечь отдельные смайлики или разделить предложение на слова / смайлики, используя HiveQL.
Например, у меня в таблице Hive 'hotel ?❤️ *'
в формате UTF-8, и я хочу получить в качестве результата следующее: 'hotel', '?','❤️', '*'
Мой прогресс на данный момент:
- если я использую следующий код, я мог бы разделить данные пробелами, но не разделяя два смайлика
результат: 'hotel', '?❤️', '*'
код:
select split(col_name,'[ ]')
FROM the_table;
Я знаю, что мог бы использовать что-то вроде
regexp_extract
для извлечения желаемых смайликов, но у меня нет полного списка смайликов, поэтому я все еще не могу использовать это, чтобы получить то, что я хочу.
SELECT regexp_extract('hotel ?❤️ *', '[??⚾️]', 0);