Существует несколько способов создания новых данных, аналогичных текущему набору данных, но в настоящее время наиболее распространенным способом является использование генерирующей состязательной сети (GAN). Это работает, противопоставляя две модели друг другу. Модель генератора пытается генерировать данные, а модель дискриминатора пытается определить разницу между реальными данными и сгенерированными данными. Существует множество учебных пособий о том, как это сделать, хотя большинство из них, вероятно, основаны на данных изображений.
Если вы также хотите создавать ярлыки, создайте условный GAN.
Единственный другой распространенный метод генерации данных - это Variational Autoencoder (VAE), но генерируемые данные, как правило, имеют более низкое качество, чем то, что может генерировать GAN. Я не знаю, верно ли это для данных, не относящихся к изображению.