Сканирование в Интернете для определенного типа файла - PullRequest
2 голосов
/ 13 июля 2011

В рамках исследования мне нужно как можно больше загружать свободно доступные файлы RDF (Resource Description Framework - * .rdf) через Интернет. Какие идеальные библиотеки / фреймворки доступны в Python для этого?

Есть ли сайты / поисковые системы, способные сделать это? Я пробовал тип файла Google: поиск RDF. Первоначально Google показывает вам 6 960 000 результатов. Однако при просмотре отдельных страниц результатов результаты резко падают до 205 результатов. Я написал скрипт для скрининга и загрузки файлов, но 205 недостаточно для моих исследований, и я уверен, что в Интернете более 205 файлов. Итак, мне действительно нужен сканер файлов. Я хотел бы знать, есть ли какие-либо онлайн или автономные инструменты, которые можно использовать для этой цели, или фреймворки / примеры скриптов в Python для достижения этой цели. Любая помощь в этом отношении высоко ценится.

Ответы [ 5 ]

1 голос
/ 13 июля 2011

Просмотр содержимого RDF из Интернета ничем не отличается от сканирования любого другого содержимого.Тем не менее, если ваш вопрос «что такое хороший веб-сканер python», тогда вам следует прочитать этот вопрос: Кто-нибудь знает хороший веб-сканер на основе Python, который я мог бы использовать? .Если ваш вопрос связан с обработкой RDF с помощью python, есть несколько вариантов, один из которых RDFLib

0 голосов
/ 16 августа 2014

вот один из обходных путей:

получить "мастер загрузки" из расширений Chrome или аналогичной программы

Поиск в Google или других результатов, установите для Google 100 на страницу

выбрать - показать все файлы

укажите расширение файла .rdf нажмите enter

нажмите загрузить

вы можете иметь 100 файлов на клик, неплохо.

0 голосов
/ 16 августа 2014

teleport pro, хотя он, возможно, не может быть скопирован с Google, слишком большой, он может обрабатывать прокси-сайты, которые возвращают результаты Google, и я знаю, что я мог бы скачать 10 000 PDF-файлов за день, если бы захотел,у него есть спецификаторы типов файлов и много опций.

0 голосов
/ 13 апреля 2013

Я знаю, что я немного опоздал с этим ответом - но для будущих поисковиков - http://sindice.com/ - отличный индекс rdf документов

0 голосов
/ 13 июля 2011

Заметили ли вы что-то вроде "Google скрыл похожие результаты, нажмите здесь, чтобы показать все результаты" в нижней части одной страницы? Могу помочь.

...