Question

Я пытаюсь отсканировать список домов на странице перераспределения и сохранить эту информацию в датафрейме Pandas. Но по какой-то причине он продолжает давать мне KeyError. Вот мой код:

import pandas as pd
import requests
from bs4 import BeautifulSoup
url = 'https://www.remax.ca/ab/calgary-real-estate/720-37-st-nw-wp_id251536557-lst'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
detail_title = soup.find_all(class_='detail-title')
details_t = pd.DataFrame(detail_title)

Вот ошибка, которую я получаю:

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-6-3be49b8e4cfc> in <module>
      6 soup = BeautifulSoup(response.text, 'html.parser')
      7 detail_title = soup.find_all(class_='detail-title')
----> 8 details_t = pd.DataFrame(detail_title)

~/anaconda3/lib/python3.7/site-packages/pandas/core/frame.py in __init__(self, data, index, columns, dtype, copy)
    449                 else:
    450                     mgr = init_ndarray(data, index, columns, dtype=dtype,
--> 451                                        copy=copy)
    452             else:
    453                 mgr = init_dict({}, index, columns, dtype=dtype)

~/anaconda3/lib/python3.7/site-packages/pandas/core/internals/construction.py in init_ndarray(values, index, columns, dtype, copy)
    144     # by definition an array here
    145     # the dtypes will be coerced to a single dtype
--> 146     values = prep_ndarray(values, copy=copy)
    147 
    148     if dtype is not None:

~/anaconda3/lib/python3.7/site-packages/pandas/core/internals/construction.py in prep_ndarray(values, copy)
    228         try:
    229             if is_list_like(values[0]) or hasattr(values[0], 'len'):
--> 230                 values = np.array([convert(v) for v in values])
    231             elif isinstance(values[0], np.ndarray) and values[0].ndim == 0:
    232                 # GH#21861

~/anaconda3/lib/python3.7/site-packages/bs4/element.py in __getitem__(self, key)
   1014         """tag[key] returns the value of the 'key' attribute for the tag,
   1015         and throws an exception if it's not there."""
-> 1016         return self.attrs[key]
   1017 
   1018     def __iter__(self):

KeyError: 0

Любая помощь будет принята с благодарностью!

butterflyknife · Answer 1 · 04 октября 2019

detail_title не содержит того, что вы можете поместить в фрейм данных: это список объектов BeautifulSoup "bs4.element.Tag" (посмотрите, что вам даст type(detail_title[0])). Попробуйте следующее:

Шаг 1. Извлеките заголовки столбцов

import pandas as pd
import requests
from bs4 import BeautifulSoup
url = 'https://www.remax.ca/ab/calgary-real-estate/720-37-st-nw-wp_id251536557-lst'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
detail_title = soup.find_all(class_='detail-title')

headings = [d.text for d in detail_title]
details_t = pd.DataFrame(columns = headings)

Шаг 2. Перейдите на один уровень вверх в html и получите пары подробных имен и значений. (Имена деталей - это то, что вы уже извлекли на шаге 1). Напишите вспомогательную функцию, которая будет возвращать значение с указанным именем.

details = soup.find_all(class_='detail-row ng-star-inserted')
def get_detail_value(detail_title, details): 
    return [(d.find(class_='detail-value')).text for d in details if (d.find(class_='detail-title')).text == detail_title]

Это немного странно, если вы просматриваете только 1 страницу. Я думаю, что вам нужно будет выполнить шаг 1 один раз, чтобы получить подробные имена, затем шаг 2 для всех страниц, которые вы хотите очистить.

Шаг 3. Для каждой страницы, которую вы очищаете, добавьте найденные значенияподробности к фрейму данных.

details_t = details_t.append({deet:get_detail_value(deet, details) for deet in details_t.columns}, ignore_index = True)

QuantStats · Answer 2 · 04 октября 2019

Вы можете попробовать это. Я предполагаю, что вы хотите только текст в тегах <span>. Но не стесняйтесь адаптироваться из моего работающего примера.

import pandas as pd
import requests
from bs4 import BeautifulSoup
url = 'https://www.remax.ca/ab/calgary-real-estate/720-37-st-nw-wp_id251536557-lst'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
detail_title = soup.find_all(class_='detail-title')

ls = []

for _ in detail_title:
  ls.append(_.text)

df = pd.DataFrame(data=ls)

print(df)

Вывод

                           0
0            Property Type:
1             Property Tax:
2             Last Updated:
3        Property Sub Type:
4                  MLSÂ® #:
5           Ownership-Type:
6               Year Built:
7                     sqft:
8              Date Listed:
9                 Lot Size:
10               Occupancy:
11             Subdivision:
12                 Heating:
13          Heating Source:
14          Full Bathrooms:
15          Half Bathrooms:
16                   Rooms:
17                Basement:
18    Basement Development:
19                Flooring:
20          Parking Spaces:
21                 Parking:
22                    Area:
23                Exterior:
24              Foundation:
25                    Roof:
26                   Faces:
27  Miscellaneous Features:
28         Lot Description:
29                   Condo:
30                Board ID:
31                   Suite:
32                Features:

Редактировать: print(type(detail_title)) дает <class 'bs4.element.ResultSet'>, это не принятый тип данных. Из https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

данных: ndarray (структурированный или однородный), Iterable, dict или DataFrame

Очистка веб-страниц Python и сохранение данных в панде

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Очистка веб-страниц Python и сохранение данных в панде

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов