Попытка вытащить столбец из нескольких страниц на сайте и добавить к фрейму - PullRequest
0 голосов
/ 27 марта 2020

Из моего последнего поста мне удалось добиться большого прогресса, однако я застрял еще раз: (

Я успешно вытащил таблицу (4 столбца) с веб-сайта и преобразовал ее в Однако сейчас я собираюсь извлечь таблицы с аналогичным форматированием из других разделов того же веб-сайта, а затем добавить 1 столбец из этой таблицы в конец исходного кадра данных.

Конечный результат должен быть оригинальными 4 столбцами. плюс дополнительные n столбцы в зависимости от того, сколько пулов получено из списка URL-адресов. Пожалуйста, смотрите код ниже:

# Generate Master Table 
soup = BeautifulSoup(resp.content, 'html.parser')
souptable = soup.find(text='TableHeader').findParent('table')

mstr_table = pd.read_html(str(souptable))
mstr_table = pd.concat(mstr_table)
mstr_table.columns = ['Header1', 'Header2', 'Header3','Header4']

urls = ['www.website.com/page1', 'www.website.com/page2', 'www.website.com/page3']

# Everything is fine up until this loop
for url in urls:
    resp = requests.get(url)
    souploop = BeautifulSoup(resp.content, 'html.parser')
    souploop = souploop.find(text='TableHeader').findParent('table')

    df = pd.read_html(str(souploop))
    df = pd.concat(df)
    df.columns = ['Header1', 'Header2', 'Header3','Header4']

    mstr_table['Header5'] = df['Header4']

Где я потерян, это "mstr_table ['Header5'] = df ['Header4'] ". Мне не обязательно сохранять другие веб-сайты в виде информационных фреймов, я просто ищу конечный результат, когда 4-й столбец каждой страницы добавляется в" mstr_table ". Пожалуйста, дайте мне знать, если добавляете более подробная информация может помочь. Спасибо:)!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...