Как узнать, содержит ли целевой сайт частный контент? - PullRequest
0 голосов
/ 10 ноября 2010

Я разработал инструмент, который создает миниатюру веб-страницы в соответствии с тем, как пользователь визуализирует ее в своем браузере.

Я хотел бы создать эскиз только один раз, если все пользователи видят один и тот же контент. Однако, если контент настроен или является личным (например, домашняя страница Facebook), созданный эскиз будет доступен только для этого конкретного пользователя, а не для всех.

У меня следующий вопрос: -Как я могу проверить, содержит ли веб-страница личную информацию или отображение, чтобы не пытаться ее получить?

Мои исследования привели меня к мысли, что если используется соединение https, контент является приватным. Однако не все веб-сайты используют https, когда данные являются частными, но не конфиденциальными, например Facebook использует http для вашей личной домашней страницы. Я считаю, что есть способ проверить, зарегистрировал ли php пользователя через сеансы, чтобы обнаружить, что пользователь находится на веб-сайте типа входа.

Есть идеи?

Спасибо заранее, Гаэль

Ответы [ 3 ]

1 голос
/ 10 ноября 2010

-Как я могу проверить, содержит ли веб-страница личную информацию или отображение, чтобы не пытаться ее получить?

Я думаю, что конечным результатом будет то, что ты не сможешь. Например, Facebook не использует https.

Существуют индикаторы для, возможно, частного сайта, например, наличие поля для входа, но это еще не говорит вам, вошел ли пользователь в него.

Вы также не можете выяснить, вошел ли пользователь на сайт, потому что эта информация является конфиденциальной для сервера, и большинство сайтов сохраняют cookie сеанса независимо от того, вошел ли пользователь в систему или нет. *

Кроме того, будут сайты, которые пользователи не хотят показывать в миниатюрах, даже если они не являются частными (* кашель * YouPorn * кашель *).

1 голос
/ 10 ноября 2010

Одна идея, которую нужно рассмотреть, - это использование социального фильтра Спам-ловушка GMail является хорошо известным примером этого. Идея будет заключаться в том, что вы создадите лучший предварительный просмотр, какой только сможете, но затем предложите пользователю какой-нибудь виджет, чтобы пометить предварительный просмотр сайта как неточный (например: «Установите этот флажок, если этот предварительный просмотр сайта является неточным» - включите вспомогательный варианты, где одной из причин будет «Эта страница содержит личную информацию в зависимости от пользователя, использующего ее»). Затем определите алгоритм, чтобы определить, сколько людей должно щелкнуть виджет, прежде чем вы решите прекратить показ предварительно созданного предварительного просмотра этого сайта.

Одним из недостатков этого метода является то, что он опирается на большое количество пользователей, использующих сайт для обеспечения точности - хотя ваш инструмент молодой и не используется, этот метод не будет очень точным. Кроме того, сайты, которые посещают немногие, также затрудняют точность этого метода.

РЕДАКТИРОВАТЬ: один из способов преодолеть эти проблемы будет только предварительное генерирование предварительного просмотра на основе частоты доступа. Другими словами, как только определенный сайт начинает запрашиваться достаточным количеством пользователей, ТОГДА вы начинаете PRE-генерацию предварительного просмотра - включая виджет, а затем, чтобы позволить пользователям прекратить его предварительную генерацию. Этот метод может сработать, поскольку вам будет гарантировано, что пользователи будут использовать его, чтобы сделать виджет полезным.

1 голос
/ 10 ноября 2010

Вы не можете. Вы не знаете, как веб-сайт управляет сессиями или иным образом идентифицирует пользователя. Это могут быть куки, закодированные в URL или что-то еще.

...