Question

Этот сайт https://itportal.ogauthority.co.uk/information/well_data/lithostratigraphy_hierarchy/rptLithoStrat_1Page2.html Кажется, есть не очень хорошо организованная таблица HTML. единственным идентификатором ячеек таблицы является ширина внутри каждого тега tr. Я хочу очистить информацию от всех 60 страниц. Как я могу найти способ очистить каждый ряд таблиц соответственно? Я знаю, что размер заголовка составляет 10 столбцов, но поскольку для некоторых тегов tr у меня есть 5 td тегов, а для некоторых других я использую более или менее теги td, нелегко точно очистить данные в соответствии с их колонка.

Здесь вы можете увидеть часть кода, которая извлекает только данные, относящиеся к одной строке, но не сохраняет нулевые значения для пустых ячеек.

soup = BeautifulSoup(page.content, 'lxml') # Parse the HTML as a string
table = soup.find_all('table')[0] # Grab the first table
new_table = pd.DataFrame(columns=range(0,10), index = [0]) # I know the size
row_marker = 0
for row in table.find_all('tr'):
     column_marker = 0
     columns = row.find_all('td')
     for column in columns:
           new_table.iat[row_marker,column_marker] = column.get_text()
           column_marker += 1

Это вывод, который я получил из этого кода (поместив все значения в строку без пробелов между ними):

     0     1     2                  3     4   5    6    7    8    9  

0  62.00    PACL  Palaeocene Claystones  SWAP  NaN  NaN  NaN  NaN  NaN

но реальный результат должен выглядеть примерно так:

   0        1    2   3                        4   5    6    7    8    9  

0  62.00   NaN NaN  PACL  Palaeocene Claystones  NaN  NaN  NaN  NaN  SWAP

Samy · Answer 1 · 29 марта 2019

Я использовал метод, который я упомянул в комментариях (используя ширину), чтобы определить нулевые значения в данных. Вот код Python:

import requests                                                                                                                                                                                                                  
import bs4                                                                                                                                                                                                                       

URL = 'https://itportal.ogauthority.co.uk/information/well_data/lithostratigraphy_hierarchy/rptLithoStrat_1Page2.html'                                                                                                           

response = requests.get(URL)                                                                                                                                                                                                     
soup = bs4.BeautifulSoup(response.text, 'lxml')                                                                                                                                                                                  

tables = soup.find_all('table')                                                                                                                                                                                                  
count = 0                                                                                                                                                                                                                        
cells_count = 0                                                                                                                                                                                                                  

for table in tables:                                                                                                                                                                                                             
        count +=1                                                                                                                                                                                                                
        if count >2:                                                                                                                                                                                                             
                row = table.tr                                                                                                                                                                                                   
                cells = row.find_all('td')                                                                                                                                                                                       
                print ''                                                                                                                                                                                                         
                x = 0                                                                                                                                                                                                            
                width_diff = 0                                                                                                                                                                                                   
                cell_text = []                                                                                                                                                                                                   
                for cell in cells:                                                                                                                                                                                               
                        width = cell.get('width')                                                                                                                                                                                
                        if int(width) < 10:                                                                                                                                                                                      
                                continue                                                                                                                                                                                         

                        if width_diff > 0:                                                                                                                                                                                       
                                cell_text.append('NaN ')                                                                                                                                                                         
                                if width_diff > 50:                                                                                                                                                                              
                                        x += 2                                                                                                                                                                                   
                                        cell_text.append('Nan ')                                                                                                                                                                 
                                else:
                                        x += 1
                                width_diff = 0

                        if x == 0 or x == 1 or x == 2 or x == 3 or x == 4 or x == 6:
                                width_range = [35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50]
                        elif x == 5:
                                width_range = [220,221,222,223,224,225,226,227,228,229,230]
                        elif x == 7:
                                width_range = [136]


                        if cell.text:
                                cell_text.append(cell.text.strip() + ' ')
                        else:
                                cell_text.append('NaN ')

                        if int(width) not in width_range:
                                width_diff = int(width) - width_range[-1]
                        x += 1
                        #print x,
                length = len(cell_text)
                for i in range(0, length):
                        print cell_text[i],
                diff = 9 - length
                if diff > 0:
                        for j in range(0, diff):
                                print 'NaN ',

Как видите, я заметил, что в каждом столбце используется определенный диапазон ширины. Сравнивая каждую ячейку с ее предполагаемой шириной, мы можем определить, сколько места она занимает. Если разница в ширине слишком велика, это означает, что она занимает пространство следующих двух ячеек.

Может потребоваться доработка, вам нужно протестировать скрипт по всем URL, чтобы убедиться, что данные абсолютно чистые.

Вот пример выходных данных при запуске этого кода:

61.00  SED  TERT  WBDS  NaN  Woolwich Beds  GP  NaN  WLDB                                                                                                                                                                        
62.00  NaN  NaN  PACL  NaN  Palaeocene Claystones  NaN  Nan  SWAP                                                                                                                                                                
63.00  NaN  NaN  SMFC  NaN  Shallow Marine Facies  NaN  Nan  SONS                                                                                                                                                                
64.00  NaN  NaN  DMFC  NaN  Deep Marine Facies  NaN  NaN  NaN                                                                                                                                                                    
65.00  NaN  NaN  SLSY  NaN  Selsey Member  GN  NaN  WSXB                                                                                                                                                                         
66.00  NaN  NaN  MFM  NaN  Marsh Farm Member  NaN  NaN  NaN                                                                                                                                                                      
67.00  NaN  NaN  ERNM  NaN  Earnley Member  NaN  NaN  NaN                                                                                                                                                                        
68.00  NaN  NaN  WITT  NaN  Wittering Member  NaN  NaN  NaN                                                                                                                                                                      
69.00  NaN  NaN  WHI  NaN  Whitecliff Beds  GZ  NaN  NaN                                                                                                                                                                         
70.00  NaN  NaN  Nan  WFSM  NaN  Whitecliff Sand Member  NaN  Nan  GN                                                                                                                                                            
71.00  NaN  WESQ  NaN  Nan  Westray Group Equivalent  NL  GW  WESH                                                                                                                                                               
72.00  NaN  WESR  NaN  Nan  Westray Group  NM  GO  CNSB                                                                                                                                                                          
73.00  NaN  NaN  THEF  NaN  Thet Formation  NaN  Nan  MOFI                                                                                                                                                                       
74.00  NaN  NaN  SKAD  NaN  Skade Formation  NB  NaN  NONS                                                                                                                                                                       
75.00  NaN  NORD  NaN  Nan  Nordland  NP  Q  CNSB                                                                                                                                                                                
75.50  NaN  NaN  SWCH  NaN  Swatchway Formation  Q  NaN  MOFI                                                                                                                                                                    
75.60  NaN  NaN  CLPT  NaN  Coal Pit Formation  NaN  NaN  NaN                                                                                                                                                                    
75.70  NaN  NaN  LNGB  NaN  Ling Bank Formation  NaN  NaN  NaN                                                                                                                                                                   
76.00  NaN  NaN  SHKL  NaN  Shackleton Formation  GO  QP  ROCK                                                                                                                                                                   
77.00  NaN  NaN  UGNS  NaN  Upper Tertiary sands  NaN  NM  NONS                                                                                                                                                                  
78.00  NaN  NaN  CLSD  NaN  Claret Sand  NP  NaN  SVIG                                                                                                                                                                           
79.00  NaN  NaN  BLUE  NaN  Blue Sand  NaN  NaN  NaN                                                                                                                                                                             
80.00  NaN  NaN  ABGF  NaN  Aberdeen Ground Formation  QH  NaN  CNSB                                                                                                                                                             
81.00  NaN  NaN  NUGU  NaN  Upper Glauconitic Unit  NB  NA  MOFI                                                                                                                                                                 
82.00  NaN  NaN  POWD  NaN  Powder Sand  GN  NaN  SVIG                                                                                                                                                                           
83.00  NaN  NaN  BASD  NaN  Basin Sand  NaN  Nan  CNSB                                                                                                                                                                           
84.00  NaN  NaN  CRND  NaN  Crenulate Sand  NaN  NaN  NaN                                                                                                                                                                        
85.00  NaN  NaN  NORS  NaN  Nordland Sand  QP  NaN  SONS                                                                                                                                                                         
86.00  NaN  NaN  MIOS  NaN  Miocene Sand  NM  NaN  ESHB                                                                                                                                                                          
87.00  NaN  NaN  MIOL  NaN  Miocene Limestone  NaN  Nan  CNSB                                                                                                                                                                    
88.00  NaN  NaN  FLSF  NaN  Fladen Sand Formation  GP  GO  WYGG

Примечание: я не знаю, как создается 0 в первой ячейке вашего примера, поэтому я исключил его из ответа. Я не знаю, нужно ли его также очищать, потому что я его нигде не нашел.

Nilo · Answer 2 · 29 марта 2019

@ samy Большое спасибо за ваш крутой метод очистки этого сайта:

Требуется лишь небольшая модификация, чтобы убедиться, что он будет работать хорошо для всех веб-страниц, я собираюсь применить этиизменения в вашем коде, чтобы быть уверенным, что все будет очищено.

import requests                                                                                                                                                                                                                  
import bs4 


URL = 'https://itportal.ogauthority.co.uk/information/well_data/lithostratigraphy_hierarchy/rptLithoStrat_1Page2.html'  

dfcolname=['OrderNo', 'Type', 'Group', 'Formation', 'Member', 'Description', 'Upper Age', 'Lower Age', 'Basin']

response = requests.get(URL)                                                                                                                                                                                                     
soup = bs4.BeautifulSoup(response.text, 'lxml')                                                                                                                                                                                  

tables = soup.find_all('table')                                                                                                                                                                                                  
count = 0                                                                                                                                                                                                                        
cells_count = 0                                                                                                                                                                                                                  

for table in tables:                                                                                                                                                                                                   
    count +=1
    cell_text = [] 
    if count > 2 and table!=tables[-1]:
        row = table.tr 
        cells = row.find_all('td') 
        print ('')                                                                                                                                                                                                        
        x = 0                                                                                                                                                                                                            
        width_diff = 0                                                                                                                                                                                                   
        cell_text = []                                                                                                                                                                                                   
        for cell in cells:                                                                                                                                                                                               
                                width = cell.get('width') 
                                if int(width) < 10:                                                                                                                                                                                      
                                        continue                                                                                                                                                                                         

                                if width_diff > 2:
                                        cell_text.append('NaN ')                                                                                                                                                                         
                                        if width_diff > 50:                                                                                                                                                                              
                                                x += 2                                                                                                                                                                                   
                                                cell_text.append('Nan ')                                                                                                                                                                 
                                        else:
                                                x += 1
                                        width_diff = 0
                                if x == 0 or x == 1 or x == 2 or x == 3 or x == 4 or x == 6:
                                    width_range = [35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50]
                                elif x == 5:
                                     width_range = [220,221,222,223,224,225,226,227,228,229,230]
                                elif x == 7:
                                        width_range = [136]

                                if cell.text:
                                        cell_text.append(cell.text.strip() + ' ')
                                else:
                                        cell_text.append('NaN ')

                                if int(width) not in width_range:
                                        width_diff = int(width) - width_range[-1]
                                x += 1
                                length = len(cell_text)
                                for i in range(0, length):
                                    rlist.append(cell_text[i])

        diff = 8 - length
        if diff > 0:
            for j in range(0, diff):
                cell_text.append('NaN ')
    print(cell_text)

На самом деле этот 0 является идентификатором кадра данных.Сначала я попытался сохранить результат в кадре данных, поэтому в моем предыдущем результате было 0.

Как очистить не очень структурированные HTML-таблицы с Beautifulsoup в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как очистить не очень структурированные HTML-таблицы с Beautifulsoup в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы