Как ограничить длину слова в FastText? - PullRequest
0 голосов
/ 31 мая 2018

Я использую FastText для вычисления скипграмм на корпусе, содержащем длинную последовательность символов без пробелов.Примерно через час FastText создает модель, содержащую векторы (длиной 100), соответствующие «словам» длиной 50 символов из корпуса.

Я попытался установить -minn и -maxn параметров, но это не помогает (я вроде знал, что это не поможет, но все равно пытался), а параметр -wordNgrams применяется только при наличии пробелов, я полагаю (?!).Это просто длинный поток символов, представляющих состояние, без пробелов.

В документации, похоже, нет никакой информации по этому (или, может быть, я что-то упустил?)

1 Ответ

0 голосов
/ 02 июня 2018

Инструмент просто берет все разделенные пробелами токены, которые вы передаете ему.

Если вы хотите обрезать или отбросить токены, длина которых превышает 50 символов (или любое другое пороговое значение), вам необходимо предварительно обработать данные самостоятельно.

(Если ваш вопрос на самом деле является чем-то другим, добавьте больше деталей к вопросу, показывая примеры строк из вашего корпуса, как вы вызываете быстрый текст на нем, как вы просматриваете неудовлетворительные результаты и как вы ожидаете удовлетворительногорезультаты смотреть вместо.

...