Question

Я пытаюсь использовать Scrapy для очистки сайта правительственного регламента США (www.regulations.gov).Там есть масса информации, но это ужасный сайт, который полон javascript и iframes.Я попытался запустить несколько простых пауков Scrapy, но ничего не могу разобрать, потому что все загружается через Javascript и iframes.

Например, на главной странице поиска , этот блок кодафактически загружает таблицу результатов:

<script type="text/javascript" src="Regs/Regs.nocache.js?REGS211-b3"></script>

<title>Regulations.gov</title>
<link rel="stylesheet" type="text/css" href="css/print.css" media="print" />
</head>

<body class="bodyLoading">
<!-- this is required for GWT history support -->
<iframe src="javascript:''" id="__gwt_historyFrame" tabIndex='-1' style="position:absolute;width:0;height:0;border:0"></iframe>
<!-- For printing window contents  -->
<iframe id="__printingFrame" style="width:0;height:0;border:0;" ></iframe>

И, отдельные страницы результатов имеют ту же проблему.Например, эта страница имеет тот же источник, что и выше.

Может ли Scrapy решить эту проблему вообще?Есть ли альтернативы, которые могут быть в состоянии?

user · Answer 1 · 03 июня 2011

Альтернативы: попробуйте

1) селен

2) imacros

3) PhantomJS с CasperJS

Использование Scrapy с Javascript и iFrames и альтернативами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование Scrapy с Javascript и iFrames и альтернативами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов