Разбор HTML-файла с помощью selectorgadget.com - PullRequest
3 голосов
/ 27 февраля 2009

Как я могу использовать красивый суп и selectorgadget , чтобы очистить сайт. Например, у меня есть веб-сайт - (новый продукт) , и я хотел бы, чтобы мой сценарий возвращал все спецификации этого продукта (нажмите на ТЕХНИЧЕСКИЕ ХАРАКТЕРИСТИКИ), то есть Intel, Desktop, ... ..., 2,4 ГГц, 1066 МГц, ......, 3 года ограничено.

После использования selectorgadget я получаю строку- .desc

Как мне это использовать?

Спасибо:)

Ответы [ 2 ]

1 голос
/ 27 февраля 2009

Осматривая страницу, я вижу, что спецификации помещаются в div с идентификатором pcraSpecs:

<div id="pcraSpecs">
  <script type="text/javascript">...</script>
  <TABLE cellpadding="0" cellspacing="0" class="specification">
    <TR>
      <TD colspan="2" class="title">Model</TD>
    </TR>
    <TR>
      <TD class="name">Brand</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
    </TR>
    <TR>
      <TD class="name">Processors Type</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>    
    </TR>
    ...
  </TABLE>
</div>

desc - это класс ячеек таблицы.

Что вы хотите сделать, это извлечь содержимое этой таблицы.

soup.find(id="pcraSpecs").findAll("td") должен начать вас.

0 голосов
/ 27 февраля 2009

Вы пытались использовать Feedity - http://feedity.com для создания пользовательской ленты RSS с любой веб-страницы.

...