Question

Я написал паука, который сканирует папку с именем fid и извлекает имена всех подпапок в виде ссылки.Теперь проблема в том, что в каждой из этих подпапок есть html-страница, и я хочу извлечь имена всех этих html-файлов и добавить к текущим «start_urls», чтобы я мог собрать необходимую информацию из всех этих htmlстраницы.Я пробовал:

os.listdir()
glob.glob()

, но ни один из них не сработал.Пожалуйста, помогите мне с этим.

wim · Answer 1 · 19 января 2012

В одном подходе stdlib используется os.walk в сочетании с fnmatch:

import fnmatch
import os

start_urls = []

for root, dirnames, filenames in os.walk('/start/dir/'):
    for filename in fnmatch.filter(filenames, '*.html'):
        start_urls.append(os.path.join(root, filename))

Перейдите в python и извлеките .html имена файлов через scrapy spider

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Перейдите в python и извлеките .html имена файлов через scrapy spider

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов