Почему наборы данных EMNIST ByMerge и Balanced имеют по 47 классов каждый? - PullRequest
0 голосов
/ 08 января 2020

Я использую EMNIST в качестве набора данных для обнаружения и распознавания текста с использованием глубокого обучения. Я загрузил наборы данных из https://pypi.org/project/emnist/ (используя pip install emnist). Наборы данных из https://www.nist.gov/itl/products-and-services/emnist-dataset, они описываются следующим образом:

EMNIST ByClass: 814 255 символов. 62 несбалансированных класса.

EMNIST ByMerge: 814 255 символов. 47 несбалансированных классов.

EMNIST Сбалансировано: 131 600 символов. 47 сбалансированных классов.

EMNIST Буквы: 145 600 знаков. 26 сбалансированных классов.

EMNIST Цифры: 280 000 символов. 10 сбалансированных классов.

ЭМНИСТСКИЙ МНИСТ: 70000 символов. 10 сбалансированных классов.

Большинство из них имеют смысл, например, 62 класса состоят из 10 цифр, 26 заглавных букв и 26 строчных букв. Но для ByMerge и Balanced у нас 47.

Я сам посмотрел на данные и нашел 10 цифр, 26 букв (смесь прописных и строчных букв), а затем, насколько я могу судить, остальные 11 случайных строчных буквы («a», «b», «d», «e», «f», «g», «h», «n», «q», «r», «t»).

Кто-нибудь знает, почему эти дополнительные 11 были специально включены?

1 Ответ

0 голосов
/ 09 января 2020

С тех пор я нашел ответ на этот вопрос, заглянув в статью EMNIST: расширение MNIST рукописными буквами Дж. Коэна (доступно здесь: https://arxiv.org/pdf/1702.05373v1.pdf).

Это объясняет, что многие буквы имеют проблемы с распознаванием символов, что варианты в верхнем и нижнем регистре очень похожи. Это вызывает проблемы при попытке классифицировать эти буквы. Чтобы противодействовать этому, они объединили буквы, которые, по их мнению, были проблемой.

Из статьи:

Объединенные классы, как предлагает NIST, предназначены для букв C, I, J, K, L, M, O, P, S, U, V, W, X, Y и Z.

Это объясняет отсутствующие классы (хотя я бы Мне нравилось видеть вариант с 62 сбалансированными классами или вариант с 36 классами со всеми буквами).

...