Поскольку все URL-адреса находятся в одном столбце, проще получить доступ к этому столбцу напрямую с помощью цикла for.Я приведу некоторые объяснения здесь:
# to access your specific url column
from newspaper import Article
import sys as sys
import pandas as pd
data = pd.read_csv('/Users/alexfrandsen14/Desktop/Projects/newspaper3k-scraper/candidate_coverage.csv')
for x in data['url_column_name']: #replace 'url_column_name' with the actual name in your df
article_name = Article(x, language='en') # x is the url in each row of the column
article.download()
article.parse()
f=open(article.title, 'w') # open a file named the title of the article (could be long)
f.write(article.text)
f.close()
Я не пробовал этот пакет раньше, но, читая опубликованное руководство, похоже, он должен работать.Как правило, вы обращаетесь к столбцу url в вашем фрейме данных с помощью строки: for x in data['url_column_name']:
вы замените 'url_column_name' фактическим именем столбца.
Тогда x будет URL-адресом в первой строкетак что вы передадите это в Article (вам не нужны скобки вокруг x, судя по уроку).Он загрузит этот первый x и проанализирует его, затем откроет файл с названием заголовка статьи, запишет текст в этот файл, затем закроет этот файл.
Затем он будет делать то же самое для второго x и третьего x до тех пор, пока не закончатся URL-адреса.
Надеюсь, это поможет!