Как извлечь смайлики с помощью HiveQL? - PullRequest
1 голос
/ 10 мая 2019

Я бы хотел вычислить частоту каждого смайлика в таблице Hive.Чтобы сделать это, я пытаюсь извлечь отдельные смайлики или разделить предложение на слова / смайлики, используя HiveQL.

Например, у меня в таблице Hive 'hotel ?❤️ *' в формате UTF-8, и я хочу получить в качестве результата следующее: 'hotel', '?','❤️', '*'

Мой прогресс на данный момент:

  1. если я использую следующий код, я мог бы разделить данные пробелами, но не разделяя два смайлика

результат: 'hotel', '?❤️', '*'

код:

select split(col_name,'[ ]')
FROM the_table;
Я знаю, что мог бы использовать что-то вроде regexp_extract для извлечения желаемых смайликов, но у меня нет полного списка смайликов, поэтому я все еще не могу использовать это, чтобы получить то, что я хочу.
SELECT regexp_extract('hotel ?❤️ *', '[??⚾️]', 0);
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...