Предположим, что я запустил проект Scrapy с такой структурой папок:
.root
├── main.py
├── scrapy.cfg
├── app
│ ├── items.py
│ ├── middlewares.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders
│ ├── my_spider.py
Итак, в main.py
файле у меня есть:
#!/usr/bin/env python
import scrapy
from app.spiders.my_spider import MySpider
from scrapy.crawler import CrawlerProcess
from scrapy.settings import Settings
from scrapy.utils.project import get_project_settings
process = CrawlerProcess(get_project_settings())
process.crawl(VultrSpider())
process.start()
Работает нормально, когда я запускаю ./main.py
на терминале, но у меня есть несколько вопросов:
- Как распечатать значения моих предметов вместо всех выходов Scrapy?
- Как получить доступ к моим данным из
main.py
, если предположить, что мне нужно импортировать данные в Pandas DataFrame в main.py
?