Как получить вложения документов с помощью GPT-2? - PullRequest
1 голос
/ 06 мая 2020

Мне любопытно, может ли использование GPT-2 дать более высокую точность для векторов документов (с сильно различающейся длиной) или нет (превзойдет ли это современное состояние?)

На самом деле я больше всех заинтересованы в максимально точных встраиваниях документов. Мне интересно, даст ли использование GPT-2 более точные результаты, чем, например, векторы абзацев.

Я слышал, что для получения векторов из GPT-2 "вы можете использовать взвешенную сумму и / или конкатенацию векторных выходных данных на его скрытых слоях (обычно последних нескольких скрытых слоях) в качестве представления соответствующего слова или даже «значение» всего текста, хотя для этой роли чаще используется BERT, поскольку он двунаправлен и учитывает как прямой, так и обратный контексты ».

Как машинное обучение и НЛП новичок, я бы хотел знать, как go об этом, или чтобы мне указали в правильном направлении, чтобы узнать больше о том, как это сделать в Python.

Я пробовал тонкую настройку GPT-2 раньше, но я не знаю, как извлечь из него векторы для текста.

...