Ваш вопрос слишком широк, чтобы дать какие-либо точные ответы, но, конечно, вы можете делать то, что вы описываете.
Вы бы сначала просмотрели библиотеки для извлечения простого текста из PDF-файлов.
В некоторых проектах word2vec есть обученные векторы слов на основе токенов-слов, которые были расширены с помощью POS-меток или контекстов, определенных зависимостями, с потенциальными выгодами в зависимости от ваших целей.См., Например, статью Леви и Голдберга о вложениях на основе зависимостей:
https://levyomer.wordpress.com/2014/04/25/dependency-based-word-embeddings/