Я хотел бы сделать что-то похожее на то, что делает Facebook, когда вы добавляете / публикуете статью
, например, вводя URL-адрес статьи / истории, Facebook автоматически определяет заголовок и т. Д.
Существует ли алгоритм или стандарт для этого?Существует ли какой-либо коммерческий или открытый API, который делает это?
Соответствующий вопрос SO Как получить заголовок + изображения ссылки при публикации ссылки , есть отличное предложение просто найтипервые <h1>
и <img>
, но мне было интересно, есть ли API, который обрабатывает ситуации, когда автор HTML не так дружелюбен (например, изображение находится в фоновом режиме, заголовок не в h1, но в h2 (или с использованием класса стиля)только). Я проверю, как Facebook обрабатывает такие страницы, и обновлю вопрос.