Набор данных для общего анализа настроений Doc2Vec - PullRequest
0 голосов
/ 16 октября 2018

Я пытаюсь построить модель doc2vec, используя gensim + sklearn для анализа настроений на коротких предложениях, таких как комментарии, твиты, обзоры и т. Д.

Я скачал Набор данных обзора продуктов Amazon , набор данных анализа настроений в Twitter и набор данных обзора фильмов imbd .

Затем они объединены в 3 категории: положительные, отрицательные и нейтральные.

Затем я опробовал модель gensim doc2vec на приведенных выше данных, чтобы я мог получить входные векторы для классифицирующей нейронной сети.

И использовал модель sklearn LinearReggression для прогнозирования моих тестовых данных, что составляет около 10% от каждого извыше трех наборов данных.

К сожалению, результаты оказались не такими хорошими, как я ожидал.Кажется, что большинство учебных пособий фокусируются только на одной конкретной задаче: «классифицировать только обзоры amazon» или «только настроения в твиттере», мне не удалось найти что-то более общего назначения.

Может кто-нибудьодин поделится своими мыслями по этому поводу?

1 Ответ

0 голосов
/ 17 октября 2018

Насколько хорошо вы ожидали, и насколько хорошо вы достигли?

Объединение трех наборов данных может не улучшить общую способность обнаружения чувств, если значения чувств в разных доменах различаются.(Возможно, «положительные» твиты сильно отличаются по формулировке от обзоров продуктов или обзоров фильмов. Твиты, содержащие от нескольких до нескольких десятков слов, часто сильно отличаются от обзоров из сотен слов.) Пробовали ли вы каждый в отдельности, чтобы обеспечитькомбинация помогает?

Соответствует ли ваша производительность другим онлайн-отчетам об использовании примерно одного и того же конвейера (Doc2Vec + LinearRegression) для примерно одного и того же набора данных или сильно отличается?Это будет ключом к тому, что вы делаете что-то не так или просто слишком завышены.

Например, блокнот doc2vec-IMDB.ipynb в комплекте с gensim пытается воспроизвести эксперимент из оригинальной статьи «Вектор абзаца», выполняя определение настроения на наборе данных IMDB.(Я не уверен, что это тот же набор данных, что и вы.) Ваши результаты находятся в том же общем диапазоне, что и этот ноутбук?

Не видя ваш код, а также подробную информацию о вашей обработке корпуса и выборе параметров, могут быть все виды неправильных вещей.Многие онлайн-примеры имеют бессмысленный выбор.Но, может быть, твои ожидания не оправдались.

...