Question

Я строю свой набор данных tf, где есть несколько входов (изображения и числовые / категориальные данные). У меня проблема в том, что несколько изображений соответствуют одной строке в pd.Dataframe у меня есть. Я делаю регресс.

Так как (даже при перетасовке всех входных данных) я гарантирую, что каждое изображение отображается в правильную строку?

Опять, скажем, у меня есть 10 строк и 100 изображений, причем 10 изображений соответствуют определенной строке. Теперь мы перетасуем набор данных и хотим убедиться, что все перетасованные изображения соответствуют их соответствующей строке.

Я использую tf.data.Dataset для этого. У меня также есть структура каталогов, такая, что имя папки соответствует элементу в DataFrame, и я подумал об этом, если бы знал, как сделать отображение

т.е. folder1 будет в df с cols, как dir_name, feature1, feature2, .... Естественно, dir_names не следует передавать в качестве данных в модель для размещения.

#images
path_ds = tf.data.Dataset.from_tensor_slices(paths)
image_ds = path_ds.map(load_and_preprocess_image, num_parallel_calls=AUTOTUNE)

#numerical&categorical features. First remove the dirs
x_train_input = X_train[X_train.columns.difference(['dir_name'])]
x_train_input=np.expand_dims(x_train_input, axis=1)
text_ds = tf.data.Dataset.from_tensor_slices(x_train_input)

#labels, y_train's cols are: 'label' and 'dir_name'
label_ds = tf.data.Dataset.from_tensor_slices(
    tf.cast(y_train['label'], tf.float32))

# test creation of dataset without prior shuffling.
xtrain_ = tf.data.Dataset.zip((image_ds, text_ds))
model_ds = tf.data.Dataset.zip((xtrain_, label_ds))


# Shuffling
BATCH_SIZE = 64

# Setting a shuffle buffer size as large as the dataset ensures that
# data is completely shuffled
ds = model_ds.shuffle(buffer_size=len(paths))
ds = ds.repeat()
ds = ds.batch(BATCH_SIZE)
# prefetch lets the dataset fetch batches in the background while the
# model is training
# ds = ds.prefetch(buffer_size=AUTOTUNE)
ds = ds.prefetch(buffer_size=BATCH_SIZE)

Chris Farr · Answer 1 · 08 мая 2019

Моим решением было бы использовать TFRecords для хранения данных и сохранения их целостности.Это также откроет двери для повышения эффективности.

Что делает приведенный ниже код ...

Создание фиктивных данных.Все должны быть массивами с одинаковым типом данных, найденным в функции _parse_.Вы можете изменить этот тип d, просто также убедитесь, что вы измените его и для своих данных.
Создайте словарь, содержащий массивы по имени
Создайте feature_dimensions объект, который содержит форму всех массивов
Создание TFRecords путем циклического перебора данных.Вы можете создать один большой файл или несколько маленьких.Однако это хорошая отправная точка для вас.
Объявите функции для генерации набора данных.Вы можете добавлять и изменять любую логику, которую хотите.Главное, однако, заключается в том, что эти функции используют объект feature_dimensions, чтобы запомнить, как собрать данные вместе
Создать набор данных
Создать образец.В результате получается словарь с объемом данных в пакетном режиме.

Вы можете просто запустить этот пример кода без проблем.Затем просто внесите необходимые изменения, чтобы он работал в вашей задаче.

import tensorflow as tf
import pandas as pd
import numpy as np
from functools import partial

# Create dummy data, TODO replace with your own logic
# 10 images per row in DF
images_per_example = 10
examples = 200

# Save name for TFRecords, you can create multiple and pass a list of the names as well
save_name = "my_tfrecords.tfrecords"

# DF, dataframe with random categorical data
x_data = pd.DataFrame(data=(np.random.normal(size=(examples, 50)) > 0).astype(np.float32))
y_data = np.random.uniform(0, 1, size=(examples, )).reshape(-1, 1).astype(np.float32)


def load_and_preprocess_image(file):
    # For dummy purposes generating instead of loading
    img = np.random.uniform(high=255, low=0, size=(15, 15))
    return (img / 255.).astype(np.float32)


# I would preprocess your images prior to creating the tfrecords file
img_data = np.array([[load_and_preprocess_image("add_logic") for j in range(images_per_example)]
                     for k in range(examples)])

# Prepare for tfrecords
data_dict = dict()
data_dict["images"] = img_data  # Already an array
data_dict["x_data"] = x_data.values  # Ensure it's an array
data_dict["y_data"] = y_data  # Already an array

# Remember the dimensions for later restoration, replacing number of examples with -1
feature_dimensions = {k: v.shape for k, v in data_dict.items()}
feature_dimensions = {k: tuple([-1] + list(v[1:])) for k, v in feature_dimensions.items()}


def _bytes_feature(value):
    return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))


writer = tf.python_io.TFRecordWriter(save_name)

# Create TFRecords file
for i in range(examples):

    example_dict = dict()  # New dictionary for each single example
    for name, data in data_dict.items():
        # if name == "images":
        #     break
        example_dict[name] = data[i]

    # Define the features of your tfrecord
    feature = {k: _bytes_feature(tf.compat.as_bytes(v.tostring())) for k, v in example_dict.items()}

    # Serialize to string and write to file
    example = tf.train.Example(features=tf.train.Features(feature=feature))
    writer.write(example.SerializeToString())

writer.close()


# Declare functions for creating dataset
def _parse_function(proto, feature_dimensions_: dict):
    # define your tfrecord again. Remember that you saved your image as a string.
    keys_to_features = {k: tf.FixedLenFeature([], tf.string) for k in feature_dimensions_.keys()}

    # Load one example
    parsed_features = tf.parse_single_example(proto, keys_to_features)

    # Split data
    for k, v in parsed_features.items():
        parsed_features[k] = tf.decode_raw(v, tf.float32)

    return parsed_features


def create_tf_dataset(file_paths: str, feature_dimensions_: dict, batch_size=64):
    # This works with arrays as well
    dataset = tf.data.TFRecordDataset(file_paths)

    # Maps the parser on every filepath in the array. You can set the number of parallel loaders here
    parse_function = partial(_parse_function, feature_dimensions_=feature_dimensions_)
    dataset = dataset.map(parse_function, num_parallel_calls=1)

    # This dataset will go on forever
    dataset = dataset.repeat()

    # Set the number of datapoints you want to load and shuffle
    dataset = dataset.shuffle(batch_size)  # Put whatever you want here

    # Set the batchsize
    dataset = dataset.batch(batch_size)

    # Set up a pipeline
    dataset = dataset.prefetch(batch_size)  # Put whatever you want here

    # Create an iterator
    iterator = dataset.make_one_shot_iterator()

    # Create your tf representation of the iterator
    parsed_features = iterator.get_next()

    # Reshape arrays and cast to float
    for k, v in parsed_features.items():
        parsed_features[k] = tf.reshape(v, feature_dimensions_[k])
    for k, v in parsed_features.items():
        parsed_features[k] = tf.cast(v, tf.float32)

    return parsed_features


# Create dataset
ds = create_tf_dataset(save_name, feature_dimensions, batch_size=64)

# The final result is a dictionary with the names used above
sample = tf.Session().run(ds)

print("Sample Length:", len(sample))
print("Sample Keys:", sample.keys())
print("images shape:", sample["images"].shape)
print("x_data shape:", sample["x_data"].shape)
print("y_data shape:", sample["y_data"].shape)

Печатные результаты

Sample Length: 3
Sample Keys: dict_keys(['images', 'x_data', 'y_data'])
images shape: (64, 10, 15, 15)
x_data shape: (64, 50)
y_data shape: (64, 1)

Tensorflow 1.13.1 tf.data отображает несколько изображений в одну строку

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Tensorflow 1.13.1 tf.data отображает несколько изображений в одну строку

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов