Улей - анализ длинных строк на общность - PullRequest
0 голосов
/ 28 апреля 2020

Я новичок в улье и ищу помощь. Я ищу, чтобы получить различные комбинации фраз в строке. Например, если строка «Сегодня был хороший день». Я хотел бы, чтобы результаты моего запроса были уникальными парами по порядку в строке. Итак, что-то вроде: «Сегодня был», «был», «хороший», «хороший день»

Тогда я хочу знать комбинации из каждых 3 слов. Таким образом, результат будет следующим: «Сегодня был», «был хороший», «хороший день»

Затем каждые 4 слова и т. Д. c.

Затем FINI sh с количество различных комбинаций.

Есть идеи? Спасибо!

создать таблицу memo_test_2 выбрать memo_field в качестве предложения, words.pos, words.word из main_memo_table вид сбоку posexplode (split (memo_field, '[,] +')) слова в качестве pos, word;

создать таблицу memo_test_3 выбрать s1.sentence, collect_set (concat_ws ('', s1.word, s2.word)) в виде нграмм из внутреннего объединения memo_test_2 s1 в memo_test_2 s2 на s1.sentence = s2.sentence и s1.pos + 1 = s2.pos
сгруппировать по s1.sentence;

создать таблицу memo_test_4 выбрать слово, считать (1) как количество из (выбрать разнесение (нграммы) как слово из memo_test_3) w сгруппировать по слову

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...