Question

Я использую следующую функцию, чтобы скользить по большому изображению и тянуть окна (64, 64, 3) для классификации из CNN.

def find_vehicles(image_name, classifier):
    window_width, window_height = (64, 64)
    step_size = 64
    image = cv2.imread(image_name)
    image = np.array(image)
    temp = image
    image = image / 255.0

    for i in range(0, image.shape[1] - window_width, step_size):
        for j in range(0, image.shape[0] - window_height, step_size):
            window = image[i:i + window_width, j:j + window_height, :]
            print(window.shape)

Но после 25 итераций размер окнасокращается до (55, 64, 3) и в конечном итоге до (0, 64, 3). Что я делаю неправильно? Форма входного изображения (375, 1242, 3)

brokenfulcrum · Answer 1 · 06 октября 2019

Ну, это была глупая ошибка. Как только я опубликовал вопрос, я понял, что я читаю изображение в виде Ширина х Высота, когда я должен был читать его как Высота х Ширина. Изменение

window = image[i:i + window_width, j:j + window_height, :]

на

window = image[j:j + window_height, i:i + window_width, :]

решило мою проблему.

Раздвижное окно в питоне меняет форму

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Раздвижное окно в питоне меняет форму

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов