Я предполагаю, что точность, которую вы даете, зависит от процесса построения модели на вашем помеченном наборе данных. Это показывает, насколько хорошо обученные модели могут «воспроизводить» правильные метки ваших тренировочных данных. Большая разница в количестве назначенных ярлыков на ваших неизвестных немаркированных твитах, по-видимому, указывает на серьезные проблемы с переналадкой в ваших моделях. Это означает, что модели очень хорошо обучены воспроизводить обучающие данные, но не могут обобщать новые, неизвестные данные.
В качестве первого предложения проверьте свои шаги проверки. Существуют базовые методы, такие как перекрестная проверка, которые пытаются избежать переобучения, но есть много возможностей «обмануть» себя, введя знания о своем тестовом наборе в свои тренировочные данные.
Однако без конкретной настройки процесса мымогу только догадываться.