Запуск керас токенизатора в цикле - PullRequest
0 голосов
/ 24 апреля 2020

У меня есть несколько файлов с разной структурой, которые я хотел бы маркировать.

Например, файл 1:

event_name, event_location, event_description, event_priority

file2:

event_name, event_participants, event_location,event_description, event_priority

и так далее. Я хотел бы создать создать массив с данными из всех файлов, а затем токенизировать его. к сожалению, когда я запускаю tokenizer.fit_on_texts() в l oop словарь не расширяется, а перезаписывается. Я должен использовать токенизатор в l oop, потому что мне нужно дополнить event_description

мой код:

    tokenizer = Tokenizer(num_words=50000, oov_token="<OOV>")
    for file in files:
        print("Loading : ", file)
        events= pd.read_csv(file)
        # prepare columns
        events['event_name'] = 'XXBOS XXEN ' + events['event_name'].astype(str)
        events['event_location'] = 'XXEL ' + events['event_location'].astype(str)
        events['event_description'] = 'XXED ' + events['event_description'].astype(str)
        events['event_priority'] = 'XXEP ' + events['event_priority'].astype(str) + ' XXEOS'
        # Tokenize concatenated columns into one
        tokenizer.fit_on_texts(np.concatenate((events['event_name'],events['event_location'], events['event_description'], events['event_priority']), axis=0))
        # Later I run texts_to_sequences on each column so later i am able to run pad_sequences on it and again I concatenate them

Когда я проверяю tokenizer.word_index, токены, такие как XXBOS, меняются между l oop итерациями. Можно ли выполнить словарь word_index вместо его перезаписи?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...