Понимание предсказания метки быстрого текста - PullRequest
0 голосов
/ 15 мая 2019

Я столкнулся с проблемой понимания того, как работает fasttext.

Я создал классификатор, который классифицирует предложения между 3 метками (назовем их едой, машиной и городом).

Теперь давайтепредставьте, что я хочу предсказать метку для предложения.Если я сделаю прогноз для «Бананового Форда», вероятности будут [('food', 0.998047), ('' car ', 1.95313e-08), (' city ', 1.95313e-08)]], но если я сделаю прогноздля «Ford Banana» вероятность становится [('car', 0.998047), ('food', 1.95313e-08), ('city', 1.95313e-08)].Я должен добавить, что Форд и Банана находятся на их соответствующих поездах.Не должен ли fasttext дать мне обоим прогнозам около 50% для каждого ярлыка?Fasttext, кажется, почти всегда предсказывает тег с вероятностью 99.8047% и реже разделяется между 2 или более тегами.

Также у меня, кажется, есть метка, которую, когда предложение (или это ngams) можно предсказатьлибо отсутствует в наборе поездов, либо не находится рядом с элементом в наборе данных, чтобы всегда возвращать один и тот же тег, скажем, автомобиль.Знаете ли вы, если fasttext предпочитает тэг в целом?

Если вы, ребята, имеете представление о том, почему это происходит, или статью, которую вы рекомендуете мне прочитать о том, как fasttext предсказывает свои метки, я был бы очень благодарен!

Спасибо,

Артур

...