Если вы не хотите менять архитектуру своей нейронной сети и пытаетесь только уменьшить объем используемой памяти, можно сделать небольшую поправку, заключающуюся в сокращении сроков, указанных в CountVectorizer. Из документации scikit-learn
у нас есть (как минимум) три параметра для уменьшения размера словаря.
max_df : float в диапазоне [0.0, 1.0] или int, по умолчанию= 1.0
При построении словаря игнорируйте термины, у которых частота документа строго выше заданного порогового значения (стоп-слова, характерные для корпуса). Если число с плавающей запятой, параметр представляет пропорцию документов, целые абсолютные числа. Этот параметр игнорируется, если словарь не является None.
min_df: плавающий в диапазоне [0.0, 1.0] или int, по умолчанию = 1
При построении словаря игнорируйте термины, у которых частота документа строго ниже заданного порога. Это значение также называется отсечением в литературе. Если число с плавающей запятой, параметр представляет пропорцию документов, целые абсолютные числа. Этот параметр игнорируется, если словарь не является None.
max_features: int или None, по умолчанию = None
Если не None, создайте словарьэто учитывает только верхние max_features, упорядоченные по частоте термина по всему корпусу. Этот параметр игнорируется, если словарь не None.
В первом случае попробуйте поиграть с max_df и min_df . Если размер все еще не соответствует вашим требованиям, вы можете уменьшить размер, как вам нравится, используя max_features .
ПРИМЕЧАНИЕ :
Настройка max_features может снизить точность классификации на более высокий коэффициент, чем другие параметры