Моя цель - найти визуальное сходство между различными двухбайтовыми символами, когда они написаны определенным шрифтом. Например,
Я хочу выяснить, выглядит ли 伊 более похожим на 達 или более похожим на 市. Это упражнение должно быть выполнено для 13 108 персонажей.
Чтобы решить эту проблему, мы преобразовали все эти символы в изображения в оттенках серого, используя библиотеку рисования в python. Затем мы пропустили всех персонажей через VGG-16 (слой CNN), чтобы получить для них набор функций. Вывод набора функций для VGG-16 (слой CNN) имеет 512x7x7 (25088) элементов. Мы собрали все это в один файл. Теперь у нас есть около 13 108 строк и 25 088 столбцов, и моя цель - запустить кластеризацию на них, чтобы найти оптическое сходство среди всех символов. Чтобы сделать то же самое, я должен уменьшить количество переменных (столбцов).
Какой самый оптимальный способ сделать то же самое, и определить, сколько переменных (столбцов) следует ожидать для сохранения для финальная модель?