Как тренировать пользовательские векторные представления Glove, используя много файлов PDF? - PullRequest
0 голосов
/ 29 декабря 2018

Я хотел обучить мои собственные представления Glove использованию многих файлов PDF.Как я могу это сделать ?и есть ли способ использовать концепцию POS-тегов и парсинга зависимостей и т. д.?Можете ли вы предложить какую-либо ссылку для реализации этого?

1 Ответ

0 голосов
/ 30 декабря 2018

Ваш вопрос слишком широк, чтобы дать какие-либо точные ответы, но, конечно, вы можете делать то, что вы описываете.

Вы бы сначала просмотрели библиотеки для извлечения простого текста из PDF-файлов.

В некоторых проектах word2vec есть обученные векторы слов на основе токенов-слов, которые были расширены с помощью POS-меток или контекстов, определенных зависимостями, с потенциальными выгодами в зависимости от ваших целей.См., Например, статью Леви и Голдберга о вложениях на основе зависимостей:

https://levyomer.wordpress.com/2014/04/25/dependency-based-word-embeddings/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...