Основная методология
Когда инициируется событие извлечения (например, при вставке URL-адреса в Facebook), вы можете использовать AJAX для запроса URL-адреса *, а затем проанализировать возвращенные данные, какwish.
Сложный анализ данных - сложная задача, потому что у многих веб-сайтов разные стандарты.Хорошее начало - взять текст между тегами заголовка, а также, возможно, выполнить поиск описания META (но они используются все реже, поскольку поисковые системы превращаются в более сложные поиски на основе контента).
В противном случае,вам нужен какой-то способ найти самый важный текст на странице и взять первые 100 символов или около того, а также найти самую заметную картинку на странице.
Это не тривиальная задача, она чрезвычайно сложнапытаясь извлечь семантику из такого жидкого и контрастирующего набора данных (общая возвращаемая веб-страница).Например, вы можете найти самое большое изображение на странице, это хорошее начало, но откуда вы знаете, что это не фоновое изображение?Откуда вы знаете, что это изображение лучше всего описывает эту страницу?
Удачи!
* Если вы не можете напрямую использовать сторонние URL AJAX, это можно сделать, запросив страницу на вашемлокальный сервер, который извлекает на стороне сервера удаленной страницы какой-то HTTP-запрос.
Некоторые дополнительные мысли
Если вы получаете изображение с удаленного сервера и «горячую ссылку»на вашем сайте, многие сайты, кажется, иногда имеют заменяющие изображения «анти-хотлинкинга», когда вы пытаетесь отобразить это изображение, поэтому, возможно, стоит сравнить запрошенное изображение со страницы вашего сервера с фактическим извлеченным изображением, чтобы вы ничего не показывалинеприятно случайно.
Многие заголовки тегов в заголовке будут общими и не описательными, было бы лучше получить заголовок статьи (при условии, что сайт типа статьи), если есть один доступный как онбудет более наглядным, но найти это будет трудно!
Если вы действительно умны, вы можете отодвинуться с Гугомнапример, (проверьте их T & C).Если пользователь запрашивает определенный URL, вы можете выполнить поиск в Google за кулисами и использовать возвращенный описательный текст Google в качестве текста возврата.Если Google значительно изменит свою разметку, хотя это может очень быстро сломаться!