Как создать набор данных из последовательности случайных символов, чтобы сегментировать их - PullRequest
0 голосов
/ 21 октября 2019

Я последовательность случайных букв, как это:

1002 * xrrlzxmnbbazpcljsvtnpjizbnangxasvyljsvtntpjizbbjangpilaenztli * yacnhkhlpfnpfstljsvtentpsbtaythecqhssagtobpbazpcweyacnpilaenztlsixwukmukhplfhkhphlf ... 1004 * Эта последовательность на самом деле состоит из последовательности слов (например, xrrlzxmn, bbazpc,ljsvtnpjiz и т. д.) что иногда они повторяются, но с небольшим изменением (xrrl k zxm, xrrl xz mn или удаление одного символа, например). Я хотел бы создать набор данных для применения методов кластеризации, но я не знаю, как это сделать ...
Я не знаю, как представить слово типа "xrrlzxmn" в терминах чисел или вектора ... какие атрибуты (столбцы набора данных) могут быть правильными?

Моя цель состоит в том, чтобы сегментировать эту последовательность примерно так: 'xrrlzxmn bbazpc ljsvtnpjiz bnangx asvyljsvtnt pjizbbjangpil aenzt li * 1015yacnhk hlpfnpfs tljsvte ntps btaythecq hssagto bpbazp cweyacnpi laenztlsi xwukmuk hplfhk hphlf ... '*

Мне нужно вставить разделитель между словами, но так как у меня нет словаря, то я в словареЯ думаю работать с кластерами

...