Производственные данные с открытым исходным кодом для разработчиков? - PullRequest
0 голосов
/ 13 февраля 2009

Я создаю веб-сайт, который будет представлять собой контент с открытым исходным кодом, предоставляемый пользователями, и я думаю, что если бы у разработчиков был доступ к ночным дампам SQL, они с большей вероятностью извлекли бы код из github и играйте с ним.

В соответствии с этой идеей я рассматриваю либо:

  • Не собирать личную информацию пользователей вообще , использовать open-id для учетных записей и интенсивно использовать memcache для таких вещей, как аутентификация сеансов.
  • Анонимизация конфиденциальных данных перед публикацией

Иногда я увлекаюсь "разве не круто, если ...?" идеи, так что я надеюсь на проверку здравомыслия здесь. Есть ли явные недостатки в любом подходе? Это вменяемая идея?

Ответы [ 3 ]

2 голосов
/ 13 февраля 2009

Говоря в целом, я думаю, вы должны сделать оба. Любые личные данные, которые вы собираете, являются просто ответственностью для вас, а не только потому, что вы намереваетесь опубликовать свои базы данных. Чем меньше вы сможете собрать, тем лучше.

Тем не менее, вы, вероятно, понимаете, что чувствительны не только идентификаторы и пароли. Помните утечка данных поиска AOL ? Или публикация базы данных Netflix? Даже не имея идентификаторов, людям удалось выяснить реальные идентификаторы некоторых учетных записей, просто собрав вместе данные о поведении пользователей и сопоставив их с данными из других мест. Некоторые люди смущены своими историями поиска и прокатом фильмов. Пойди разберись.

Поэтому я думаю, что общее правило должно заключаться в том, чтобы собирать как можно меньше и анонимизировать то, что осталось. Даже если вы не сохраните личность человека, соответствующего определенной учетной записи, вы можете захотеть зашифровать то, что сделали различные логины.

С другой стороны, бывают случаи, когда вам просто наплевать на такую ​​конфиденциальность. Например, в Википедии практически все, что вы можете сделать на сайте, в любом случае является общедоступным. По крайней мере, все, что записывается в базе данных. Если информация уже доступна через API, нет смысла скрывать ее при загрузке базы данных.

1 голос
/ 14 февраля 2009

Помимо сбора меньшего количества данных и анонимизации данных , которые вы собираете, вы можете добавить бит / флаг для пользователей , чтобы выбрать, включены ли их данные или не . Вы могли бы сделать это флажком лицензии CC, чтобы дать пользователям теплые и пушистые при заполнении ваших потребностей.

0 голосов
/ 13 февраля 2009

Звучит как довольно хорошая идея. Единственное, с чем вам следует быть осторожным, это безопасность, поскольку хакеры будут знать точную схему вашей БД. Хотя с этим не невозможно справиться, достаточно взглянуть на большинство проектов с открытым исходным кодом. Но вам нужно будет уделить немного больше внимания безопасности, поскольку, например, потенциальная инъекция SQL теперь стала намного проще.

Другое дело, чтобы вдвойне убедиться, что конфиденциальные данные анонимны. Кроме того, некоторые люди могут (ошибочно) попытаться заявить, что их авторские права на контент, представленный пользователем, нарушаются, поэтому вы можете указать лицензию CC или что-то еще, просто чтобы прояснить все и предотвратить будущие головные боли (даже если вы все равно правы ).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...