Я пытаюсь отменить цитаты из хорошего чтения, я ищу цитаты в списке search_by_keyword
, и я добавляю эти цитаты в CSV-файл с двумя столбцами, текстовый столбец, который включает в себя цитаты, и столбец хобби, который включает в себя label_in_csv
.
Однако результатом является одинаковая кавычка во всех 50 индексах в текстовом столбце. Я пытаюсь сделать это с помощью селена в Google Colab;
Вот код:
label_in_csv = 'الموسيقي'
search_by_keyword=["مزيكا"]
df_p=pd.DataFrame()
for syn in search_by_keyword:
ua = UserAgent()
userAgent = ua.random
#print(userAgent)
options = Options()
options.add_argument(f'user-agent={userAgent}')
proxy= ['185.47.223.53','110.74.222.106','59.153.18.170','151.232.72.13']
driver = webdriver.Chrome('chromedriver',chrome_options=chrome_options)
driver.header_overrides = {
'user-agent': userAgent,
}
driver.get("https://www.goodreads.com/quotes/tag/")
driver.implicitly_wait(10)
search_area = driver.find_element_by_id('id')
search_area.send_keys(syn,Keys.ENTER)
for j in range (50): maximum per label
for i in driver.find_elements_by_class_name('quoteText'):
text= i.text
text= text.splitlines()
#if wordnet.synsets(text[0].split()[-1].replace(".”", "")):
df_p_tmp = pd.DataFrame({'text':text[0],'hobby':[label_in_csv]})
print(text[0])
df_p = pd.concat([df_p,df_p_tmp])
try:
driver.find_element_by_class_name('next_page').click()
except NoSuchElementException:
search_area = driver.find_element_by_id('id')
df_p.to_csv('{}_hobby.csv'.format(syn))
break
print(len(df_p))
Есть идеи?