Как вы оцениваете результаты как плохие, и как вы узнаете, когда ваши результаты адекватны / хороши?
Обратите внимание, что всего 150 документов по 400-700 слов каждый является крошечным, крошечным набором данных: опубликованные типичные наборы данных опубликованы Doc2Vec
результаты включают в себя от десятков тысяч до миллионов документов, от сотен до тысяч слов каждый ,
Любому из алгоритмов в стиле Word2Vec
/ Doc2Vec
/ et c будет сложно сделать так много с таким небольшим количеством данных. (Реализация gensim Doc2Vec
включает подобный набор игрушечных данных, содержащий 300 документов по 200-300 слов каждый, как часть своей системы модульного тестирования, и чтобы получить даже весьма полезные результаты, он должен увеличить количество тренировочных эпох, и значительно уменьшите размер вектора.)
Таким образом, если вы собираетесь использовать Doc2Vec
-подобные алгоритмы, вашим главным приоритетом должен быть поиск дополнительных обучающих данных. Даже если, в конце концов, только ~ 150 документов имеют значение, сбор большего количества документов, использующих подобный язык предметной области, может помочь улучшить модель.
Непонятно, что вы имеете в виду, когда говорите, что есть 10 тем и 1 топи c на документ. Являются ли эти категории, назначенные человеком, и включены ли они как часть обучающих текстов или тегов в алгоритм Doc2Vec
? (Возможно, было бы разумно включить его, в зависимости от того, из чего состоят ваши конечные цели и оценки сходства документов.)
Являются ли эти темы такими же, как обозначение, которое вы также упоминаете, и в конечном итоге пытаетесь ли вы предсказать темы, или просто использовать темы для проверки сходства-результатов?
Как подсказывает @ adnan-s в другом ответе, возможно, стоит также попробовать более простые представления документов «мешок слов», основанные на подсчете, в том числе потенциально на словах n-граммов или даже на символах n-граммов. , или взвешенный по TF-IDF.
Если у вас есть адекватные векторы слов, полученные из ваших данных или из других совместимых источников, мера «Расстояние до словаря» может быть другим интересным способом вычисления парных сходств. (Однако вычисление между текстами из нескольких сотен слов может быть слишком дорогим - работа с более короткими текстами работает намного быстрее.)