Как подготовить пользовательский набор данных для классификации текста в Tensorflow 2.x? - PullRequest
0 голосов
/ 23 февраля 2020

Я пытаюсь предсказать типы личности из теста Майерс-Бриггс .

Я создал свой собственный файл csv_file с 16 строками и 2 столбцами , который выглядит так:

   Personality Type | Description
1       INTJ        | This personality type is(...)
2       ENTP        | (...)
16      (...)       | (...)

Что я уже попробовать? Предварительная обработка: Я пытался предварительно обработать столбец описания, избавившись от стоп-слов и применив токенизацию :

filter_char = '“”,.()\"/:;""%?¿!¡´\u200b\n\r' # \u200b unicode unrecognised a space
new_stopwords = ['person', 'personality', 'type', 'period', 'info']

stop_words = stopwords.words('english') 
stop_words.extend(new_stopwords)

stop_words = set(stop_words)
tokenizer = Tokenizer(num_words = 100,
                      filters = filter_char,
                      lower = True,
                      split = ' ')

tokenizer.fit_on_texts(x_train_data_array)

# Indexing each word from the tokenized x_train_data_array
word_index = tokenizer.word_index

# Reversing word index value:keys
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

# Cleaning word_index getting rid of stopwords
meaningful_words = np.array([i for i in word_index if not i in stop_words])

I'm все еще не уверены, как правильно подготовить пользовательские наборы данных в классификации текста, особенно в такого рода проблемах.

Если что-нибудь можно сделать, чтобы улучшить этот вопрос, дайте мне знать, я буду рад исправить это.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...