Как фасттекстовая библиотека Facebook обрабатывает числовые данные на входе для векторизации слов? - PullRequest
0 голосов
/ 29 октября 2018

Я использую Fasttext Facebook для выполнения классификации текста. Я хотел знать, как библиотека fasttext обрабатывает числа в текстовой строке, предоставленной в качестве входных данных для векторизации слова.

  1. Приписывает ли тип быстрого текста каждое число в виде строки перед созданием векторов слов?

    Например, С 1124 до 1124

  2. Или любое другое преобразование / предварительная обработка выполняется в фоновом режиме перед тренировкой?

    Например, 1124 на "один один два четыре"

Каким должен быть наиболее оптимальный подход к обработке числовых данных, если мой вводимый текст в fasttext содержит числа?

1 Ответ

0 голосов
/ 07 ноября 2018

Fasttext не выполняет никакой предварительной обработки числовых токенов. Они обрабатываются как другие разделенные пробелами слова.

Если у вас уже нет особых проблем с фасттекстом и числами на входе, я бы не беспокоился о том, что фасттекст делает с числами. Просто используйте его как обычно.

Если у вас много чисел, и они вызывают проблемы - это возможно, поскольку у fasttext, скорее всего, нет никаких полезных векторов для большинства конкретных чисел - вы можете предварительно обработать ввод, чтобы заменить их на <NUMBER> или еще один фиктивный жетон. Таким образом, эти предложения будут такими же, как и в текстовом формате:

  1. Я съел 1023 апельсина.
  2. Я съел 1024 апельсина.

Хотите ли вы относиться к ним одинаково или нет, зависит от вашего заявления.

...