У меня есть список URL-адресов твитов в Excel. Можно ли извлечь текст из этих твитов (URL) в Python? А потом сохранить его в листе Excel?
Я видел, как кто-то использовал приведенный ниже код, но это только для 1 URL.
from lxml import html
import requests
page = requests.get('https://twitter.com/realDonaldTrump/status/1237448419284783105')
tree = html.fromstring(page.content)
tree.xpath('//div[contains(@class, "permalink-tweet-container")]//p[contains(@class, "tweet-text")]//text()')
Excel содержит столбцы: author и URL , Excelfile ('twitter.xlsx') выглядит следующим образом:
Author URL
realDon.. https://twitter.com/realDon..
. .
. .
. .
Я попробовал этот код:
import pandas as pd
from lxml import html
import requests
input_data = pd.read_excel('twitter.xlsx')
input_data1 = input_data[['URL']]
tweets = []
for url in input_data1.values:
x = requests.get(url)
tree = html.fromstring(x.content)
i = tree.xpath('//div[contains(@class, "permalink-tweet container")]//p[contains(@class, "tweet-text")]//text()')
tweets.append(i)
Ошибка: InvalidSchema: не найдены адаптеры подключения для '[' https://twitter.com/realDonaldTrump/status/1237448419284783105 ']'