Как улучшить путаницу в текстовой классификации? - PullRequest
0 голосов
/ 15 мая 2019

Я делаю классификацию диалектов.Набор данных был автоматически извлечен из Twitter с помощью Twitter API.Так что слабо контролируется .И после тренировки с наивным байесовским классификатором, используя sklearn с Размер набора данных: 21888 .У меня есть следующие матрицы путаницы:

Прогнозирование тех же данных обучения:

array([[3940,   19,   73,    4],
       [  22, 4339,  122,    3],
       [ 124,   12, 4760,    0],
       [  28,   24,   31, 2915]], dtype=int64)


 with accuracy: 0.97

Прогнозирование тестового разделения набора данных:

array([[1217,   21,   82,    4],
       [  19, 1345,  126,   13],
       [  82,   38, 1491,    3],
       [  23,   53,   54,  901]], dtype=int64)

with accuracy: 0.90

Прогнозирование с помеченной вручнуюнабор данных (строго контролируемый):

array([[87,  2, 12,  0],
       [ 4, 42, 56,  3],
       [ 7, 11, 78,  0],
       [ 0,  0,  0,  0]], dtype=int64)

with accuracy: 0.68

Как можно улучшить эти матрицы путаницы?особенно последний.

...