Набор данных фильтра tf.data с использованием предиката метки - PullRequest
0 голосов
/ 05 апреля 2020

Я пытаюсь отфильтровать данные обучения и испытаний CIFAR10 по указанным ниже меткам c, указанным ниже,

import tensorflow as tf
from tensorflow.keras import datasets, layers, models
import tensorflow_datasets as tfds
import matplotlib.pyplot as plt
import numpy as np

Набор данных

dataset = datasets.cifar10.load_data()

Разделить набор данных

train_data = tf.data.Dataset.from_tensor_slices((dataset[0][0],dataset[0][1]))
test_data = tf.data.Dataset.from_tensor_slices((dataset[1][0],dataset[1][1]))

Функция фильтра

def filter_f(datas,filter_labels = tf.constant([0,1,2])):
  x = tf.not_equal(datas[1],filter_labels)
  x = tf.reduce_sum(tf.cast(x, tf.uint8))
  return tf.greater(x, tf.constant(0,tf.uint8))

dataset = train_data.filter(filter_f).batch(200)

согласно аналогичная проблема . Однако функция фильтра возвращает нефильтрованный в приведенном выше коде.

labels = []
for i, x in enumerate(tfds.as_numpy(dataset)):
    labels.append(x[1][0][0])
print(labels)

Возвращает

[4, 7, 5, 6, 0, 5, 5, 6, 5, 3, 6, 7, 0, 0, 6, 3]

Чтобы воспроизвести результат, используйте эту ссылку colab

1 Ответ

2 голосов
/ 06 апреля 2020

Я не уверен, какая именно проблема ниже. Тем не менее, если вам просто нужно удалить данные, принадлежащие указанному классу c, вы можете использовать следующее.

dataset = train_data.filter(lambda x,y: tf.reduce_all(tf.not_equal(y, [0,1,2]))).batch(200)
...