Как сгруппировать текстовые категориальные данные на основе кластеризации? - PullRequest
0 голосов
/ 24 ноября 2018

Поэтому, если у меня есть набор текстовых данных, в котором у меня более 50 категорий.

Пример:

Index_no               short_text_sentence                             label 

01                     yes I like riding a bike.                 category_0
02                     I was 4 when I learned.                   category_1                 
03                     I learned to ride a bike.                 category_2
04                     Bike is yellow and black.                 category_3 
05                     i like riding my bike, i learnt           category_4
06                     riding a bike when i was 8 or             category_3
07                     9 years old ,my bike is sparkling         category_9
08                     pink with white marks                     category_6   
09                     I love riding bike.                       category_1
10                     I will improve my skills.                 category_3

Теперь я хочу попробовать RNN и LSTM, но из-за многих категорий (50+) Я не получаю хорошего результата, потому что вероятность каждого предложения распределяется по 50 категориям.

Я думал о группировании категорий по t-sne или другим методам кластеризации, но я ищу способы, каксделайте в тексте и сгруппируйте эти категории, так что я получу несколько категорий.

Я использую тензор потока, и моя структура сети - RNN-LSTM без внимания.Я также думаю пойти на CNN.

Я был бы очень признателен, если бы кто-нибудь любезно дал мне несколько советов о том, как я должен сгруппировать категории и какую структуру сети выбрать для этого типа проблемы?

Заранее спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...