У меня есть текстовые обзоры (т.е. фильмы), сохраненные в фрейме данных - df_reviews: содержащий идентификатор обзора и текстовый обзор. Отдельно у меня есть словарь на питоне из 1000 мнений (например, {'good': 1, 'bad': - 1, ....}) с их полярностью (-1/1 минус / позитив).
Мне нужно объединить эти два (обзорный фрейм данных в строках и слова мнения в столбцах) в векторный набор данных, чтобы впоследствии обучить модель логистической регрессии. Если в обзоре фильма присутствует экспертное слово, значение пересечения строки / столбца будет True, или False, если нет.
Может кто-нибудь помочь с примером такой векторизации? Одна из них - dict2vec, но до сих пор не использовалась.