Как получить список URL для домена - PullRequest
2 голосов
/ 28 июня 2009

Я хотел бы создать список URL-адресов для домена, но я бы предпочел сэкономить пропускную способность, не сканируя домен самостоятельно. Так есть ли способ использовать существующие данные для сканирования?

Единственное решение, о котором я подумал, - это поиск по сайту Yahoo , который позволит мне загрузить первые 1000 результатов в формате TSV. Однако, чтобы получить все записи, мне нужно было бы просмотреть результаты поиска. Google также поддерживает поиск по сайту, но не предлагает простой способ загрузки данных.

Можете ли вы придумать лучший способ работы с большинством (если не со всеми) веб-сайтами?

спасибо, Ричард

Ответы [ 3 ]

3 голосов
/ 23 августа 2009

Вы можете бесплатно загрузить список до 500 URL-адресов с помощью этого онлайн-инструмента:

Генератор XML Sitemap

... Просто выберите «текстовый список» после того, как инструмент сканирует ваш сайт.

1 голос
/ 28 июня 2009

Некоторые веб-мастера предлагают Sitemaps , которые по сути являются списками XML каждого URL в домене. Однако общего решения не существует, кроме сканирования. Если вы используете сканер, подчиняйтесь robots.txt.

0 голосов
/ 05 октября 2009

Кажется, что нет королевского пути к сканированию в Интернете, поэтому я просто буду придерживаться своего текущего подхода ...

Также я обнаружил, что большинство поисковых систем все равно выставляют только первые 1000 результатов.

...