Я создаю веб-сайт, на котором администратор может загружать документы, доступные только платным участникам веб-сайта. Но я хочу, чтобы поисковые системы сканировали или индексировали документ, чтобы он отображался в результатах поиска. Документы включают DOC, DOCX и PDF.
Например, у меня есть документ с таким текстом: «Быстрая коричневая лиса перепрыгнула через ленивую собаку». Сейчас у кого-то гугл "коричневая лиса". Предполагая, что у меня есть турнирная таблица, я бы хотел, чтобы результат появился в результатах Google. Когда пользователь нажимает на него, я хочу, чтобы пользователь попадал на страницу, а не на документ, где есть предварительный просмотр текста со ссылкой для участия в просмотре полного документа.
Я планировал, что предварительный просмотр документа на странице будет сохранен в базе данных при загрузке документа. Так что это легко видно и доступно для сканирования. Для полного документа я мог только предполагать, что полный документ будет сканироваться. Но я думаю, что если я позволю поисковой системе сканировать, то я также предоставлю доступ пользователям. И если я использую htaccess, чтобы предотвратить прямой доступ к документам, то я также отключаю сканеры.
Я также подумал о том, чтобы извлечь весь текст документа и поместить его в базу данных, но я где-то читал, что очень трудно отличить пользователя от паука, а использование пользовательских агентов - плохая идея, так как подделать очень легко. .
Так что я не понимаю, как мне поступить. Любая помощь будет оценена.
Заранее спасибо!