Перейдите в python и извлеките .html имена файлов через scrapy spider - PullRequest
1 голос
/ 19 января 2012

Я написал паука, который сканирует папку с именем fid и извлекает имена всех подпапок в виде ссылки.Теперь проблема в том, что в каждой из этих подпапок есть html-страница, и я хочу извлечь имена всех этих html-файлов и добавить к текущим «start_urls», чтобы я мог собрать необходимую информацию из всех этих htmlстраницы.Я пробовал:

os.listdir()
glob.glob()

, но ни один из них не сработал.Пожалуйста, помогите мне с этим.

1 Ответ

0 голосов
/ 19 января 2012

В одном подходе stdlib используется os.walk в сочетании с fnmatch:

import fnmatch
import os

start_urls = []

for root, dirnames, filenames in os.walk('/start/dir/'):
    for filename in fnmatch.filter(filenames, '*.html'):
        start_urls.append(os.path.join(root, filename))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...