Универсальный кодировщик предложений, уменьшите размерность вектора - PullRequest
0 голосов
/ 01 октября 2019

Я успешно конвертирую документы, используя этот модуль, доступный на хабе TensorFlow.

Вывод каждого документа представляет собой 512-мерный вектор, однако это слишком велико для моего приложения, и я быЯ хотел бы уменьшить размерность, которую сам модуль не предоставляет.

Я вижу несколько вариантов:

  • Используйте другой пакет с меньшим размером вывода.
  • Используйте что-то, например, PCA или tSNE, чтобы уменьшить размеры.

Проблема с использованием PCA или tSNE состоит в том, что это должно соответствовать данным многих примеров векторов - этобудет означать, что когда новые документы поступят и будут преобразованы в 512-мерный вектор, мне нужно будет подгонять другую модель, а затем обновлять старые векторы документов - это будет огромной проблемой в моем приложении.

Существуют ли другие методы уменьшения размерности, которые могут работать с одной точкой данных?

1 Ответ

1 голос
/ 09 октября 2019

«UMAP поддерживает добавление новых точек в существующее вложение с помощью стандартного метода преобразования sklearn». UMAP - победитель во всех аспектах уменьшения размерности, скорости, точности и теоретических основ.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...