Я пытаюсь извлечь следующую информацию с веб-сайта архива SE C.
1) Большой ускоренный файлер 2) Ускоренный файлер 3) Неускоренный файлер 4) Меньшая компания, предоставляющая отчеты 5) Новые Рост компании
Вот как это выглядит на сайте:
Large accelerated filer ☒
Accelerated filer ☐
Non-accelerated filer ☐ (Do not check if a smaller reporting company)
Smaller reporting company ☐
Emerging growth company ☐
В некоторых случаях один или несколько элементов могут отсутствовать. Я хочу написать обобщенный код c, который может извлечь эти значения для ряда компаний. Теперь проблема, с которой я сталкиваюсь, заключается в том, что структура HTML меняется от компании к компании. До сих пор я сталкивался с 3 различными структурами (см. Ниже структуру HTML). Как мне написать код для обобщения различных структур?
<td valign="bottom">Large accelerated filer</td>
<td valign="bottom"> </td>
<td valign="bottom">☒</td>
<td valign="bottom"> </td>
<td valign="bottom">Accelerated filer</td>
<td valign="bottom"> </td>
<td valign="bottom">☐</td></tr>
<tr style="page-break-inside:avoid ; font-family:Times New Roman; font-size:10pt">
<td valign="bottom"><font style="white-space:nowrap">Non-accelerated filer</font></td>
<td valign="bottom"> </td>
<td valign="bottom">☐ (Do not check if a smaller reporting company)</td>
<td valign="bottom"> </td>
<td valign="bottom">Smaller reporting company</td>
<td valign="bottom"> </td>
<td valign="bottom">☐</td></tr>
<tr style="page-break-inside:avoid ; font-family:Times New Roman; font-size:10pt">
<td valign="bottom">Emerging growth company</td>
<td valign="bottom"> </td>
<td valign="bottom">☐</td>
<td valign="bottom"> </td>
<td valign="bottom"></td>
<td valign="bottom"> </td>
<td valign="bottom"></td></tr>
Другая структура:
filer <font style="FONT-FAMILY:WINGDINGS">x</font> Accelerated filer <font style="FONT-FAMILY:WINGDINGS">¨</font> Non-accelerated filer <font style="FONT-FAMILY:WINGDINGS">¨</font> Smaller reporting company <font style="FONT-FAMILY:WINGDINGS">¨</font> </font>
Другая структура:
<tbody><tr>
<td width="63%"></td>
<td valign="bottom" width="2%"></td>
<td width="35%"></td></tr>
<tr>
<td valign="top"> <p style="text-indent:2.00em"><font face="Times New Roman" size="2">Large accelerated filer <font face="WINGDINGS">¨</font></font></p></td>
<td valign="bottom"><font size="1"> </font></td>
<td valign="bottom"><font face="Times New Roman" size="2">Accelerated filer <font face="WINGDINGS">þ</font></font></td></tr>
<tr>
<td valign="top"> <p style="text-indent:2.00em"><font face="Times New Roman" size="2">Non-accelerated filer <font face="WINGDINGS">¨</font> (Do not check if a smaller reporting company)</font></p></td>
<td valign="bottom"><font size="1"> </font></td>
<td valign="bottom"><font face="Times New Roman" size="2">Smaller reporting Company <font face="WINGDINGS">¨</font></font></td></tr>
</tbody>