Я использую EMNIST в качестве набора данных для обнаружения и распознавания текста с использованием глубокого обучения. Я загрузил наборы данных из https://pypi.org/project/emnist/ (используя pip install emnist
). Наборы данных из https://www.nist.gov/itl/products-and-services/emnist-dataset, они описываются следующим образом:
EMNIST ByClass: 814 255 символов. 62 несбалансированных класса.
EMNIST ByMerge: 814 255 символов. 47 несбалансированных классов.
EMNIST Сбалансировано: 131 600 символов. 47 сбалансированных классов.
EMNIST Буквы: 145 600 знаков. 26 сбалансированных классов.
EMNIST Цифры: 280 000 символов. 10 сбалансированных классов.
ЭМНИСТСКИЙ МНИСТ: 70000 символов. 10 сбалансированных классов.
Большинство из них имеют смысл, например, 62 класса состоят из 10 цифр, 26 заглавных букв и 26 строчных букв. Но для ByMerge и Balanced у нас 47.
Я сам посмотрел на данные и нашел 10 цифр, 26 букв (смесь прописных и строчных букв), а затем, насколько я могу судить, остальные 11 случайных строчных буквы («a», «b», «d», «e», «f», «g», «h», «n», «q», «r», «t»).
Кто-нибудь знает, почему эти дополнительные 11 были специально включены?