user3363813 18 апреля 2020 21

Тренинг PCA по встраиванию слов BERT: весь набор данных обучения или каждый документ?

user3363813 / 18 апреля 2020

Я хочу уменьшить размерность вложения слова BERT, скажем, до 50 измерений. Я пытаюсь с PCA. Я буду использовать это для задачи классификации документов.

Теперь для обучения PCA, я должен тренироваться на всем наборе данных, используя все векторы слов из всего набора данных сразу, то есть:

pca.fit_transform([all_the_word_vectors_of_the_dataset])

или векторы слов на документ, что это:

for document in train_dataset:
    pca.fit_transform([word_vectors_of_current_document])

...

Тренинг PCA по встраиванию слов BERT: весь набор данных обучения или каждый документ?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Тренинг PCA по встраиванию слов BERT: весь набор данных обучения или каждый документ?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы