Как обрабатывать несбалансированные данные этикетки с помощью FastText? - PullRequest
0 голосов
/ 10 июня 2018

В FastText у меня несбалансированные метки.Как лучше всего справиться с этим?

Ответы [ 2 ]

0 голосов
/ 21 марта 2019

В нашем случае у нас есть очень искаженный набор данных с 200 + классами и 20% классов, содержащих 80% всех данных .

В наших данных, даже с этими сильно искаженными данными, у нас есть четкое определение текстов внутри наших категорий.

Пример : текст класса большинства: « Эй, мне нужен компьютер и мышь , чтобы открыть Интернет и опубликовать программирование ответ в Стек Переполнение "

Текст класса меньшинства:" Эй, пожалуйста, дайте мне следующие предметы: Яйца , салат , лук , помидоры , молоко и пшеница ?"

Поскольку FastText имеет дело с WordNGrams и иерархическим разделением, если у вас есть очень четко определенная категория , как в моем случае выше, дисбаланс это непроблема из-за природы алгоритма.

Ссылка: Мешочек с хитростями для эффективной классификации текста - Арманд Жулин, Эдуард Грейв, Петр Бояновский, Томас Миколов

0 голосов
/ 12 июля 2018

Fasttext, кажется, хорошо обрабатывает несбалансированные данные.В соответствии с FAQ

Обратите внимание также, что эта потеря рассматривается для несбалансированных классов, то есть некоторые классы встречаются чаще других.

...