Другой подход к тому, что было предложено @Umang Gupta, и может быть полезным, если вы также хотите отслеживать тех, кто не выбран
# Suppose X_train is your 100 x 100 dataset
# and y_train is your array of labels
idx = np.arange(len(X_train))
np.shuffle(idx)
NUM_SAMPLES = 50
sampled_idxs = idx[:NUM_SAMPLES]
rest_idxs = idx[NUM_SAMPLES:]
X_samples = X_train[sampled_idxs]
X_rest = X_train[rest_idxs]
y_samples = y_train[sampled_idxs]
y_rest = y_train[rest_idxs]
Если у вас уже установлен Scikit-Learn, вы можете использовать test_train_split
from sklearn.model_selection import test_train_split
X_samples, X_rest, y_samples, y_rest = train_test_split(X_train, y_train,
train_size=NUM_SAMPLES,
random_state=123)