У меня есть несколько файлов с разной структурой, которые я хотел бы маркировать.
Например, файл 1:
event_name, event_location, event_description, event_priority
file2:
event_name, event_participants, event_location,event_description, event_priority
и так далее. Я хотел бы создать создать массив с данными из всех файлов, а затем токенизировать его. к сожалению, когда я запускаю tokenizer.fit_on_texts()
в l oop словарь не расширяется, а перезаписывается. Я должен использовать токенизатор в l oop, потому что мне нужно дополнить event_description
мой код:
tokenizer = Tokenizer(num_words=50000, oov_token="<OOV>")
for file in files:
print("Loading : ", file)
events= pd.read_csv(file)
# prepare columns
events['event_name'] = 'XXBOS XXEN ' + events['event_name'].astype(str)
events['event_location'] = 'XXEL ' + events['event_location'].astype(str)
events['event_description'] = 'XXED ' + events['event_description'].astype(str)
events['event_priority'] = 'XXEP ' + events['event_priority'].astype(str) + ' XXEOS'
# Tokenize concatenated columns into one
tokenizer.fit_on_texts(np.concatenate((events['event_name'],events['event_location'], events['event_description'], events['event_priority']), axis=0))
# Later I run texts_to_sequences on each column so later i am able to run pad_sequences on it and again I concatenate them
Когда я проверяю tokenizer.word_index
, токены, такие как XXBOS
, меняются между l oop итерациями. Можно ли выполнить словарь word_index вместо его перезаписи?