Что, если у меня есть следующие данные, test_df['review_id']
, которые содержат идентификатор кадра данных. Мне нужно связать каждый из них с данными из других массивов. Я собираюсь иметь код, подобный следующему.
def classify_nb_report(X_train_vectorized, y_train, X_test_vectorized, y_test):
clf = MultinomialNB()
# TRAIN THE CLASSIFIER WITH AVAILABLE TRAINING DATA
clf.fit(X_train_vectorized, y_train)
y_pred_class = clf.predict(X_test_vectorized)
return y_pred_class
for i in range(0, n_loop):
train_df, test_df = train_test_split(df, test_size=0.3)
....
nb_y = classify_nb_report(X_train_vectorized, y_train, X_test_vectorized, y_test)
Как вы можете видеть выше, на каждой итерации я собираюсь получить новый набор nb_y
, который является массивом numpy. Я также собираюсь иметь различные наборы test_df
и train_df
(которые случайным образом выбираются с помощью функции выше). Я хочу связать каждое значение nb_y
из каждой итерации с id
, которое соответствует test_df['review_id']
.
С помощью следующего кода я могу получить идентификатор test_df
рядом со значением из nb_y
.
for f, b in zip(test_df['review_id'], nb_y):
print(f, b)
Результат:
17377 5.0
18505 5.0
24825 1.0
16032 5.0
23721 1.0
18008 5.0
Теперь я хочу, чтобы из приведенного выше результата я добавил значения nb_y
из следующих итераций к соответствующим им идентификаторам.
Надеюсь, это не слишком запутанно, я постараюсь расширить, если мой вопрос недостаточно ясен. Заранее спасибо.