Поэтому, если у меня есть набор текстовых данных, в котором у меня более 50 категорий.
Пример:
Index_no short_text_sentence label
01 yes I like riding a bike. category_0
02 I was 4 when I learned. category_1
03 I learned to ride a bike. category_2
04 Bike is yellow and black. category_3
05 i like riding my bike, i learnt category_4
06 riding a bike when i was 8 or category_3
07 9 years old ,my bike is sparkling category_9
08 pink with white marks category_6
09 I love riding bike. category_1
10 I will improve my skills. category_3
Теперь я хочу попробовать RNN и LSTM, но из-за многих категорий (50+) Я не получаю хорошего результата, потому что вероятность каждого предложения распределяется по 50 категориям.
Я думал о группировании категорий по t-sne или другим методам кластеризации, но я ищу способы, каксделайте в тексте и сгруппируйте эти категории, так что я получу несколько категорий.
Я использую тензор потока, и моя структура сети - RNN-LSTM без внимания.Я также думаю пойти на CNN.
Я был бы очень признателен, если бы кто-нибудь любезно дал мне несколько советов о том, как я должен сгруппировать категории и какую структуру сети выбрать для этого типа проблемы?
Заранее спасибо.