Я хочу уменьшить размерность вложения слова BERT, скажем, до 50 измерений. Я пытаюсь с PCA. Я буду использовать это для задачи классификации документов.
Теперь для обучения PCA, я должен тренироваться на всем наборе данных, используя все векторы слов из всего набора данных сразу, то есть:
pca.fit_transform([all_the_word_vectors_of_the_dataset])
или векторы слов на документ, что это:
for document in train_dataset:
pca.fit_transform([word_vectors_of_current_document])