Насколько хорошо вы ожидали, и насколько хорошо вы достигли?
Объединение трех наборов данных может не улучшить общую способность обнаружения чувств, если значения чувств в разных доменах различаются.(Возможно, «положительные» твиты сильно отличаются по формулировке от обзоров продуктов или обзоров фильмов. Твиты, содержащие от нескольких до нескольких десятков слов, часто сильно отличаются от обзоров из сотен слов.) Пробовали ли вы каждый в отдельности, чтобы обеспечитькомбинация помогает?
Соответствует ли ваша производительность другим онлайн-отчетам об использовании примерно одного и того же конвейера (Doc2Vec + LinearRegression) для примерно одного и того же набора данных или сильно отличается?Это будет ключом к тому, что вы делаете что-то не так или просто слишком завышены.
Например, блокнот doc2vec-IMDB.ipynb
в комплекте с gensim
пытается воспроизвести эксперимент из оригинальной статьи «Вектор абзаца», выполняя определение настроения на наборе данных IMDB.(Я не уверен, что это тот же набор данных, что и вы.) Ваши результаты находятся в том же общем диапазоне, что и этот ноутбук?
Не видя ваш код, а также подробную информацию о вашей обработке корпуса и выборе параметров, могут быть все виды неправильных вещей.Многие онлайн-примеры имеют бессмысленный выбор.Но, может быть, твои ожидания не оправдались.