найти название компании по URL - PullRequest
1 голос
/ 10 ноября 2009

с учетом URL-адреса известной компании (например, http://mcdonalds.com/), как бы вы автоматически и надежно нашли название компании (в данном случае "Mc Donalds")?

Спасибо

Редактировать: кто-то проголосовал, чтобы закрыть этот вопрос, поэтому, возможно, мне нужно объяснить мотивацию. У меня большой список URL-адресов компаний, и я хочу найти данные о каждой компании с помощью Карт Google. И поиск в Картах Google по названию компании работает намного лучше, чем по URL.

Удаление «http» и «com» ​​работает во многих случаях, особенно для известных компаний, но не во всех. Я обнаружил, что записи whois не очень помогают.

Я надеялся, что существует какая-то общедоступная база данных, сопоставляющая компании с URL-адресами, но пока не встречал ни одной.

Ответы [ 6 ]

1 голос
/ 10 ноября 2009

Попробуйте использовать cURL и DOMDocument.

loadHTML ($ результат); $ title = $ dom-> getElementsByTagName ("title"); echo $ title-> item (0) -> nodeValue; ?>

Взгляните на метатег

1 голос
/ 10 ноября 2009

Если вы хотите быть точным, я бы сказал, Amazon механический турок.

1 голос
/ 10 ноября 2009

База данных Whois может оказаться полезной, хотя всегда есть крайние случаи, с которыми вам придется работать с большим усилием.

1 голос
/ 10 ноября 2009

Вполне вероятно, что они будут в элементе <title/>. Разберите это и сравните с доменом сайта. Если есть значительное совпадение, это ваш матч. Если нет, попробуйте некоторые эвристики для заголовка (например, имя - это все до >> или около того).

Если это более крупная компания, вам также может повезти, если вы посмотрите на запись сетевого адаптера (также называемую Whois) для своего домена.

1 голос
/ 10 ноября 2009

Вам нужно будет создать свою собственную таблицу поиска: вам нужно будет попытаться проанализировать эту информацию из html по URL-адресу для получения наиболее точных данных, например: получить заголовок HTML-страницы или найти сообщение об авторском праве?

0 голосов
/ 10 ноября 2009

Вы можете использовать информацию whois . Там должны быть библиотеки, чтобы позволить вам сделать это в чистом виде. Вы не упомянули, какую технологию вы будете использовать ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...