Написать собственный генератор данных для Keras - PullRequest
0 голосов
/ 11 октября 2018

У меня есть каждая точка данных, сохраненная в файле .npy, с shape=(1024,7,8).Я хочу загрузить их в модель Keras способом, аналогичным ImageDataGenerator, поэтому я написал и попробовал разные пользовательские генераторы, но ни один из них не работает, вот один, который я адаптировал из this

def find(dirpath, prefix=None, suffix=None, recursive=True):
    """Function to find recursively all files with specific prefix and suffix in a directory
    Return a list of paths
    """
    l = []
    if not prefix:
        prefix = ''
    if not suffix:
        suffix = ''
    for (folders, subfolders, files) in os.walk(dirpath):
        for filename in [f for f in files if f.startswith(prefix) and f.endswith(suffix)]:
            l.append(os.path.join(folders, filename))
        if not recursive:
            break
    l
    return l

def generate_data(directory, batch_size):
    i = 0
    file_list = find(directory)
    while True:
        array_batch = []
        for b in range(batch_size):
            if i == len(file_list):
                i = 0
                random.shuffle(file_list)
            sample = file_list[i]
            i += 1

            array = np.load(sample)
            array_batch.append(array)

        yield array_batch

Я обнаружил, что у этого ярлыка нет, поэтому он не будет вписываться в модель с помощью fit_generator.Как я могу добавить метку в этот генератор, если я могу сохранить их в массиве numpy?

1 Ответ

0 голосов
/ 11 октября 2018
from tensorflow.python.keras.utils import Sequence
import numpy as np   

class mygenerator(Sequence):
    def __init__(self, x_set, y_set, batch_size):
        self.x, self.y = x_set, y_set
        self.batch_size = batch_size

    def __len__(self):
        return int(np.ceil(len(self.x) / float(self.batch_size)))

    def __getitem__(self, idx):
        batch_x = self.x[idx * self.batch_size:(idx + 1) * self.batch_size]
        batch_y = self.y[idx * self.batch_size:(idx + 1) * self.batch_size]

        # read your data here using the batch lists, batch_x and batch_y
        x = [my_readfunction(filename) for filename in batch_x] 
        y = [my_readfunction(filename) for filename in batch_y]
        return np.array(x), np.array(y)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...