Я делаю классификацию диалектов.Набор данных был автоматически извлечен из Twitter с помощью Twitter API.Так что слабо контролируется .И после тренировки с наивным байесовским классификатором, используя sklearn с Размер набора данных: 21888 .У меня есть следующие матрицы путаницы:
Прогнозирование тех же данных обучения:
array([[3940, 19, 73, 4],
[ 22, 4339, 122, 3],
[ 124, 12, 4760, 0],
[ 28, 24, 31, 2915]], dtype=int64)
with accuracy: 0.97
Прогнозирование тестового разделения набора данных:
array([[1217, 21, 82, 4],
[ 19, 1345, 126, 13],
[ 82, 38, 1491, 3],
[ 23, 53, 54, 901]], dtype=int64)
with accuracy: 0.90
Прогнозирование с помеченной вручнуюнабор данных (строго контролируемый):
array([[87, 2, 12, 0],
[ 4, 42, 56, 3],
[ 7, 11, 78, 0],
[ 0, 0, 0, 0]], dtype=int64)
with accuracy: 0.68
Как можно улучшить эти матрицы путаницы?особенно последний.