Тренинг PCA по встраиванию слов BERT: весь набор данных обучения или каждый документ? - PullRequest
0 голосов
/ 18 апреля 2020

Я хочу уменьшить размерность вложения слова BERT, скажем, до 50 измерений. Я пытаюсь с PCA. Я буду использовать это для задачи классификации документов.

Теперь для обучения PCA, я должен тренироваться на всем наборе данных, используя все векторы слов из всего набора данных сразу, то есть:

pca.fit_transform([all_the_word_vectors_of_the_dataset])

или векторы слов на документ, что это:

for document in train_dataset:
    pca.fit_transform([word_vectors_of_current_document])
...