Как правильно «сжать» Tensorflow Dataset и тренироваться в Керасе? - PullRequest
0 голосов
/ 23 февраля 2019

У меня есть train_x.csv и train_y.csv, и я хотел бы обучить модель с использованием API набора данных и интерфейса Keras.Вот что я пытаюсь сделать:

import numpy as np
import pandas as pd
import tensorflow as tf

tf.enable_eager_execution()

N_FEATURES = 10
N_SAMPLES = 100
N_OUTPUTS = 2
BATCH_SIZE = 8
EPOCHS = 5

# prepare fake data
train_x = pd.DataFrame(np.random.rand(N_SAMPLES, N_FEATURES))
train_x.to_csv('train_x.csv', index=False)
train_y = pd.DataFrame(np.random.rand(N_SAMPLES, N_OUTPUTS))
train_y.to_csv('train_y.csv', index=False)

train_x = tf.data.experimental.CsvDataset('train_x.csv', [tf.float32] * N_FEATURES, header=True)
train_y = tf.data.experimental.CsvDataset('train_y.csv', [tf.float32] * N_OUTPUTS, header=True)
dataset = ...  # What to do here?

model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(N_OUTPUTS, input_shape=(N_FEATURES,)),
    tf.keras.layers.Activation('linear'),
])
model.compile('sgd', 'mse')
model.fit(dataset, steps_per_epoch=N_SAMPLES/BATCH_SIZE, epochs=EPOCHS)

Как правильно реализовать эту dataset?

Я пытался Dataset.zip API как dataset = tf.data.Dataset.zip((train_x, train_y)) но, кажется, не работает (код здесь и ошибка здесь ).Я также прочитал этот ответ, он работает, но мне нужен способ объявления нефункциональных моделей.

1 Ответ

0 голосов
/ 24 февраля 2019

Проблема во входной форме вашего плотного слоя.Он должен соответствовать форме вашего входного тензора, который равен 1. tf.keras.layers.Dense(N_OUTPUTS, input_shape=(features_shape,))

Также вы можете столкнуться с проблемами при определении model.fit() steps_per_epoch parameter, он должен иметь тип int.model.fit(dataset, steps_per_epoch=int(N_SAMPLES/BATCH_SIZE), epochs=EPOCHS)

Редактировать 1: Если вам нужно несколько меток, вы можете сделать

def parse_f(data, labels):
    return data, tf.stack(labels, axis=0)

dataset = tf.data.Dataset.zip((train_x, train_y))
dataset = dataset.map(parse_func)
dataset = dataset.batch(BATCH_SIZE)
dataset = dataset.repeat()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...