Я пытаюсь предсказать типы личности из теста Майерс-Бриггс .
Я создал свой собственный файл csv_file с 16 строками и 2 столбцами , который выглядит так:
Personality Type | Description
1 INTJ | This personality type is(...)
2 ENTP | (...)
16 (...) | (...)
Что я уже попробовать? Предварительная обработка: Я пытался предварительно обработать столбец описания, избавившись от стоп-слов и применив токенизацию :
filter_char = '“”,.()\"/:;""%?¿!¡´\u200b\n\r' # \u200b unicode unrecognised a space
new_stopwords = ['person', 'personality', 'type', 'period', 'info']
stop_words = stopwords.words('english')
stop_words.extend(new_stopwords)
stop_words = set(stop_words)
tokenizer = Tokenizer(num_words = 100,
filters = filter_char,
lower = True,
split = ' ')
tokenizer.fit_on_texts(x_train_data_array)
# Indexing each word from the tokenized x_train_data_array
word_index = tokenizer.word_index
# Reversing word index value:keys
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
# Cleaning word_index getting rid of stopwords
meaningful_words = np.array([i for i in word_index if not i in stop_words])
I'm все еще не уверены, как правильно подготовить пользовательские наборы данных в классификации текста, особенно в такого рода проблемах.
Если что-нибудь можно сделать, чтобы улучшить этот вопрос, дайте мне знать, я буду рад исправить это.