Можно ли выполнить кластеризацию документов, используя выходные данные из CNN на уровне символов в качестве входных данных для алгоритма кластеризации Deep-Embedded? - PullRequest
0 голосов
/ 04 ноября 2018

, так что это большой проект, и в этом я должен использовать нейронные сети для кластеризации документов на уровне символов, это будет выглядеть так:

  1. Необработанные текстовые данные служат вводом в CNN, где после всей предварительной обработки мы получаем представление объектов документов в нашем выходном слое. (Для уровня персонажа CNN я получаю помощь отсюда: https://github.com/mhjabreel/CharCnn_Keras

  2. И затем этот вывод отправляется в другую нейронную сеть, где это представление функции используется для выполнения задачи кластеризации с использованием алгоритма DEC (Deep Embedded Clustering). (Для алгоритма DEC я получаю помощь отсюда: https://github.com/XifengGuo/DEC-keras)

Теперь, ребята, мне нужен совет опытных программистов, которые уже работали в области НЛП и знают о среде Tensorflow, Keras. Пожалуйста, кто-нибудь может направить меня или дать мне исследовательский материал (да, я много гуглил, но не смог удовлетворить свои конкретные потребности, будь то процесс обработки изображений, или они не на уровне персонажа или какая-то еще проблема), чтобы я мог сделать этот проект. Спасибо за чтение.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...