Webscraping в Dataframes - PullRequest
       0

Webscraping в Dataframes

0 голосов
/ 16 марта 2020

Я новичок в Beautiful Soup и пытаюсь очистить https://10times.com/losangeles-us/technology/conferences и извлечь данные о событиях и связанные с ними ссылки.

Мне удалось очистить данные о событиях и их ссылки , но я изо всех сил пытаюсь заставить правильное событие соответствовать правильной ссылке события при объединении в фрейм данных. Я попытался отбросить нулевые результаты, однако не могу понять.

Вот мой код, который извлекает данные

Вот мой код, извлекающий ссылки

arr2 = []
#finds <h2's>
h2s = soup.find_all('h2')
for h2 in h2s:
    links = h2.a['href']
    arr2.append(links)
df2 = pd.DataFrame(arr2)
df2.columns = ['Links'] 
df2.dropna()

Вот мои 2 попытки объединить данные + ссылки на события в один фрейм данных, однако ссылки не совпадают с правильным событием.

from pandas import *

df3 = pd.concat([df,df2],sort=False, axis=1)
df3
#df3.to_html('test1.html')

Попытка отбросить None

df.dropna()
df3 = pd.concat([df,df2], sort=False, axis=1)
df3 = df3.replace(to_replace='None', value=np.nan).dropna()
df3

1 Ответ

0 голосов
/ 16 марта 2020

Я добавил проверку, есть ли в «строке» информация в первом блоке кода.

Кажется, это работает.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...