Публикация изображений без их источника - PullRequest
2 голосов
/ 24 апреля 2019

У меня есть более миллиона изображений, которые я хотел бы использовать в качестве обучающих данных. Как сделать эти данные свободно доступными без ущерба для безопасности?

Я хочу, чтобы пользователи могли быстро использовать его в учебных целях, не давая хакерам возможности перестраивать изображения из данных с открытым исходным кодом. В то же время я не хочу, чтобы на качество обучения сказывалось какое-либо влияние.

Другими словами, как безопасно использовать изображения с открытым исходным кодом?


Например, Этот код генерирует массив NumPy. Я просто хочу, чтобы в этом случае было очень трудно восстановить исходное изображение из ndarray «x».

from keras.preprocessing.image import ImageDataGenerator, array_to_img, img_to_array, load_img
i = load_img('some_image.jpg' )
x = img_to_array(i)
x = x.reshape((1,) + x.shape)

Я могу поделиться массивом x, когда узнаю, что хакеры не могут использовать данные и создать одно и то же изображение.

Ответы [ 2 ]

6 голосов
/ 30 апреля 2019

Если вы хотите опубликовать картинки с открытым исходным кодом, неплохо было бы понять, как работает WikiCommons .Они сталкивались и должны были столкнуться со многими проблемами подобного рода, там есть чему поучиться.

Если вашей аудитории нужна полная картина, чтобы ее модели работали, тогда независимо от того, как вы пытаетесьзапутать массив, содержащий данные.Умные парни, у которых достаточно времени и творчества, смогут воссоздать оригинальную картину.Это не жизнеспособное решение, оно только создает ложное чувство безопасности.

Если вы выберете деструктивный подход, который не будет служить действительной картинке, а будет ее переваривать, хэшировать / оставлять отпечатки пальцев, вы, вероятно, уменьшитериск восстановления оригинальной картинки (остерегайтесь очень умных парней с сильными криптографическими навыками).Но тогда ваша аудитория не сможет учиться на самой картине, поэтому вы можете не достичь своей цели.

Менее разрушительно и может не соответствовать вашим требованиям: добавление шума.Это не помешает раскрытию чувствительного материала (человеческие глаза и мозг как-то хороши для классификации), и это хорошо известная методика для ИИ путаницы .Это тоже не очень хорошее решение.

В любом случае, если вы будете обслуживать без заботы чувствительный материал, который не подходит для открытого источника, то вы можете столкнуться с неприятностями для себя и других людей.Это не хороший вариант.

Мой совет,

  • Если ваши фотографии действительно подходят для политики с открытым исходным кодом, то используйте их как это и не беспокойтесь о хакерах, они клиентыа также;
  • Если ваша фотография чувствительна, то не используйте ее в качестве открытого источника.Вместо этого обеспечьте структуру с уровнем безопасности и внедрите необходимые правила, которые вы должны учитывать (ToS, IP, Copyright, GDPR ).
0 голосов
/ 02 мая 2019

Все алгоритмы машинного обучения берут реальные изображения и преобразуют изображения в тензорные и обрабатывают их в пакетном режиме (несколько изображений одновременно).

Пара вариантов для вас:

  • Вы можете делиться своими изображениями с товарищами по команде и передавать их в доверительное управление.
  • Вы можете каким-то образом запутывать изображения в виде набора файлов или создавать алгоритм для преобразования их в массив (или тензор), обфусцироватьих, и предоставьте процедуру, чтобы вернуть их обратно без потерь.

Но во всех этих случаях нежелательные люди могут каким-то образом угадать вашу процедуру / запутывание.

Идеальным было бы создатьмодель машинного обучения (например, VGG, ResNet, Inception) из ваших изображений, а затем вы можете распространять свою модель, которая узнала, что вы спланировали из ваших изображений.

Итог, в ML вам нужны изображения, чтобы чему-то научитьсяих, а не изображения как таковые.

Конфиденциальность действительно является проблемой, как мы видим из этого документа , касающегосяИменно поэтому авторское право вызывает ухудшение в общедоступных наборах данных.

Существует не так много решений этой проблемы, потому что конфиденциальность действительно имеет значение.Однако эта идея с GAN может быть обнадеживающей.

Если вы не используете GAN, трудно сказать, какой будет правильный набор преобразований, которые вы должны предпринять, чтобы избежать проблем политики конфиденциальности.

Недостаточно просто попытаться перевернуть изображения, масштабировать их, удалить метаданные, нормализовать их или преобразовать один пиксель.Вам нужно сделать их неотличимыми от оригиналов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...