, так что это большой проект, и в этом я должен использовать нейронные сети для кластеризации документов на уровне символов, это будет выглядеть так:
Необработанные текстовые данные служат вводом в CNN, где после всей предварительной обработки мы получаем представление объектов документов в нашем выходном слое. (Для уровня персонажа CNN я получаю помощь отсюда: https://github.com/mhjabreel/CharCnn_Keras
И затем этот вывод отправляется в другую нейронную сеть, где это представление функции используется для выполнения задачи кластеризации с использованием алгоритма DEC (Deep Embedded Clustering). (Для алгоритма DEC я получаю помощь отсюда: https://github.com/XifengGuo/DEC-keras)
Теперь, ребята, мне нужен совет опытных программистов, которые уже работали в области НЛП и знают о среде Tensorflow, Keras. Пожалуйста, кто-нибудь может направить меня или дать мне исследовательский материал (да, я много гуглил, но не смог удовлетворить свои конкретные потребности, будь то процесс обработки изображений, или они не на уровне персонажа или какая-то еще проблема), чтобы я мог сделать этот проект.
Спасибо за чтение.