Как добавить известные слова tokenizer keras python? - PullRequest
0 голосов
/ 12 декабря 2018

Я хочу преобразовать текст в последовательность, используя керас с индонезийскими языками.но токенайзер keras обнаруживает только известное слово.

Как добавить известные слова в keras?или какое-нибудь решение для меня, чтобы преобразовать текст в последовательность?

from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True)
tokenizer.fit_on_texts(concated['TITLE'].values)
txt = ["bisnis di indonesia sangat maju"]
seq = list(tokenizer.texts_to_sequences_generator(txt))

переменная "seq", приводящая к пустому массиву, если я использовал индонезийские языки, его работа отлично, если я использовал английское слово.как использовать керасы для разных языков?или вообще добавить какое-нибудь известное слово в керас?

Спасибо

1 Ответ

0 голосов
/ 13 декабря 2018

Керас не знает никаких языков или слов. Вы создаете словарь, используя метод fit_on_texts или fit_on_sequences.

Я полагаю, вы fit используете токенизатор для некоторого английского текста (например, concated['TITLE'].values).В результате внутренний словарь содержит только английские слова (и не индонезийские слова).Это объясняет, почему seq будет пустым, если txt содержит только неанглийские слова.

Также вы можете взглянуть на исходный код класса Tokenizer .

...