Я новичок в python и в настоящее время пытаюсь найти способ просмотреть все URL-адреса в моем CSV-файле, чтобы определить, отображается ли на веб-сайте заданная строка c (в моем случае мне нужно проверить для нескольких строк: «Недоступно», «Скоро в продаже» и «Временно закрыто»).
Структура файла CSV:
id website
1 https://www.rainfordsolutions.com/new-online-shop-coming-soon
2 https://www.arrey-fashion.com/a-nice-entry/
3 https://google.com
...
Я думаю, что сначала мне понадобится что-то вроде al oop через URL-адреса моего веб-сайта, затем для каждого веб-сайта еще один l oop, чтобы увидеть, ключевые слова, которые я ищу, есть или нет, и, наконец, запишите результаты в мой CSV-файл, где: TRUE, если ключевые слова не были найдены (сайт активен), FALSE, если какие-либо из моих ключевых слов были найдены (сайт не активен). Я не уверен, как подойти к этой проблеме. Я начал с pandas и urlllib.request, но я знаю, что есть также красивая библиотека супов и запросов. Может ли кто-нибудь помочь мне с этим? Заранее спасибо!
import pandas as pd
import urllib.request
df = pd.read_csv('path/to/my/file/with/urls.csv')
for v in df['website']:
with urllib.request.urlopen(v) as url:
df['active'] =
df.to_csv('path/to/my/output/urls_and_flag.csv', index=False)
Желаемый вывод urls_and_flag.csv:
id website active
1 https://www.rainfordsolutions.com/new-online-shop-coming-soon FALSE
2 https://www.arrey-fashion.com/a-nice-entry/ FALSE
3 https://google.com TRUE
...