Использование LogReg для прогнозирования полиномиальных (сентиментальных) оценок IMDB с использованием помеченных данных - PullRequest
0 голосов
/ 25 мая 2019

Цель: Предсказать связанные оценки IMDB на основе настроений в обзоре (оценки 1-10, а не только + и -). Руководил.

Что мы имеем: Модель Bag of Words с Countvectorizer. На подходе N-граммы (простая запись в CountVectorizer), поэтому можно выставлять разные оценки: «хорошо», «не хорошо», «не очень хорошо» и т. Д. Это все, чтобы построить наш словарный запас. Мой партнер внедрил LinearSVC, чтобы извлечь из этого настроение, что хорошо помогает определить, являются ли отзывы положительными или отрицательными, но не дает нам оценки.

Набор данных: Набор данных SAR14 - 200k + обзоры IMDB, помеченные баллами, используемые для обучения и тестирования.

Контекст: «Выберите свой собственный проект НЛП» в университете; На это потрачено 3 дня, осталось 3 дня.

Проблема: Я не могу найти подходящий (или задокументированный) способ успешного решения этой проблемы, и у меня нет идей; если ничего другого, я буду использовать модель BoW / Word2Vec и N-граммы и Forex_Proba для оценки баллов (как это) . SentiWordnet и другие, по-видимому, не очень хороши , и я не совсем уверен, как перевести бинарные настроения NLTK в диапазон баллов (регрессия). Есть этот , который использует PyTorch, я работаю над его адаптацией под свои нужды.

Предложения о том, как поступить, будут очень признательны.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...