Я использую FastText для вычисления скипграмм на корпусе, содержащем длинную последовательность символов без пробелов.Примерно через час FastText создает модель, содержащую векторы (длиной 100), соответствующие «словам» длиной 50 символов из корпуса.
Я попытался установить -minn и -maxn параметров, но это не помогает (я вроде знал, что это не поможет, но все равно пытался), а параметр -wordNgrams применяется только при наличии пробелов, я полагаю (?!).Это просто длинный поток символов, представляющих состояние, без пробелов.
В документации, похоже, нет никакой информации по этому (или, может быть, я что-то упустил?)