Бинарная классификация со смешанными и секвенированными данными (4D) с использованием tf.keras Embedding и LSTM Model - PullRequest
0 голосов
/ 28 июня 2019

У меня есть новый проект классификации, и я сталкиваюсь с некоторыми проблемами, касающимися модели, созданной для этой проблемы.

В основном (пример набора данных прилагается) У меня есть выровненные данные, которые содержат смешанные функции. (более 1 строки = функция ввода)

enter image description here

Итак, у нас есть:

d_index = which defines which rows belongs together (just for data visualisation not used as feature), 
target = the target class we want to learn (0 or 1), 
n_name = Name of Element n, 
n_p_count = continous feature, 
n_type = categorical feature, 

Элемент d_index имеет несколько n elements, которые предоставляют информацию, необходимую для определения целевого класса.

В принципе, это не проблема при использовании RNN с последовательными функциями ... но есть функция TEXT (NAME of what). Я хотел бы использовать функцию TEXT и проанализировать ее с помощью символов Wise Layer вместе с LSTM, потому что в именах есть некоторый шаблон, который должен встречаться для классификации элемента d_, но это изменит мой простой последовательный ввод (n_p_count, n_type_0, n_type_1 , ...,) Последовательность в последовательности? Ввод (n_p_count, n_type_0, n_type_1, ..., (1,2,3,4,5,6-n символьный указатель))

Я вижу проблему, связанную с вводом последовательности 4D, и не могу найти решения этой проблемы.

Я представляю что-то вроде этого:

1 Sample = Sequence of N_ Elements with dynamic Length (1 d_ can have 1-10.000 N_ Elements)

1 N_ Element is a Sequence of static length (decoded pad_sequence of Characters of the N_ Name) + the Numeric Features.

Я уже работал с RNN (Embedding + LSTM) для классификации текста (имя как посимвольное индексированное вложение). Это не было проблемой, потому что у меня просто было обычное входное измерение, которое также встречается в каждом примере классификации текста.

Я вижу только шанс на данный момент игнорировать числовые характеристики элемента N_, сконцентрировать все n_name элемента d_ как один текст и использовать метод, который я уже использовал в других проектах. (уменьшите размер с 4d до 3d) ... или с помощью числового и игнорируйте ТЕКСТ, но это уменьшит потенциальные важные особенности настолько, что классификация наверняка будет плохой.

...