Как получить многопоточный вывод в текстовой классификации? - PullRequest
0 голосов
/ 22 мая 2019

Я делаю классификацию текста на диалекте. Проблема в том, что некоторые твиты могут быть классифицированы как диалект А и В, как я могу это сделать? Я хочу сделать это, а затем автоматически рассчитать точность, я не хочу делать это вручную. Когда я не классифицирую их как A и B, это дает мне много неверно классифицированных текстов.

В процессе обучения они не классифицируются как диалект А и В., а по отдельности.

1 Ответ

1 голос
/ 22 мая 2019

Используйте OneHotEncoding

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

# Your target will look similar to
target = ['A', 'A', 'B']

# After OneHotEncoding
[[1, 0],
 [1, 0],
 [0, 1]]

После тренировки по этой цели ваша модель будет прогнозировать вероятность занятия. Вы можете установить порог, чтобы классифицировать прогноз для обоих классов

# Sample output
[[1., 0.],
 [0.5, 0.5],
 [0.1, 0.9]]

predictions = ['A', 'A and B', 'B']

Пример

...