Это около 2000 строк, поэтому ручная работа, вероятно, потребует больше работы, чем поиск способа сделать это программно. Это должно сработать только один раз, поэтому меня не интересует производительность или что-то в этом роде.
<tr><td>Canada (CA)</td><td>Alberta (AB)</td></tr>
<tr><td>Canada (CA)</td><td>British Columbia (BC)</td></tr>
<tr><td>Canada (CA)</td><td>Manitoba (MB)</td></tr>
В основном это отформатировано следующим образом, и мне нужно разделить его на 4 части: название страны, сокращение страны, название подразделения и сокращение подразделения.
В соответствии с моим полным отсутствием эффективности я планировал просто сделать строку. Заменить теги HTML после того, как я их разбил, а затем просто найти индекс открывающих скобок и захватить оставшиеся разделенные пробелами строки. Затем я понял, что у меня нет возможности отследить, какая это страна, а какая - подразделение, а также выяснить, как их сгруппировать по странам.
Так есть ли лучший способ сделать это? Или, что еще лучше, более простой способ наполнения базы данных страной и провинциями / штатами? Я осмотрел SO и единственные легкодоступные базы данных, которые я могу найти, не дают полного названия стран или провинций / штатов или используют IP-адреса вместо географических названий.