Я работал над проектом по извлечению большого количества коротких текстов и распределению их по категориям на основе уже существующего большого списка названий категорий. Для этого мне пришлось выяснить, как сначала создать хороший текстовый корпус из данных, чтобы иметь справочные документы для категоризации, а затем повысить качество категоризации до приемлемого уровня. Эта часть, с которой я закончил (к счастью, классификация текста - это то, что многие люди провели много исследований).
Теперь моя следующая проблема, я пытаюсь найти хороший способ связать различные категории друг с другом в вычислительном отношении. То есть выяснить, как распознать, что «автомобили» и «шевроле» связаны между собой. До сих пор я пытался использовать методы категоризации N-Gram, описанные, среди прочего, Cavnar и Trenkle для сравнения различных справочных документов, которые я создал для каждой категории. К сожалению, мне кажется, что лучшее, что я смог извлечь из этого метода, это примерно 50-55% правильных отношений между категориями, и это лучшие отношения, в целом это примерно 30-35%, что крайне плохо.
Я также попробовал несколько других подходов, но мне не удалось получить релевантные ссылки на более чем 40% (примером несоответствующего отношения может быть категория "грузовики", тесно связанная с категория «макияж» или категория «подгузники», хотя слабо (или не совсем) относятся к «шеви»).
Теперь я попытался найти лучшие методы для этого, но мне кажется, что я не могу найти ни одного (хотя я знаю, что другие добились большего успеха, чем я). У кого-нибудь есть опыт с этим? Какие-нибудь подсказки относительно полезных методов для создания отношений между категориями? Прямо сейчас методы, которые я попробовал, либо не дают достаточно отношений вообще, либо содержат слишком высокий процент нежелательных отношений.