В настоящее время я собираю html с общедоступного веб-сайта, чтобы создать более оптимизированную базу данных для целей моего клиента.Этот конкретный веб-сайт предлагает экспорт в CSV, который был бы гораздо предпочтительнее, чем просмотр HTML - но у CSV есть некоторые ограничения, для которых я просто не вижу обходных путей.
Возьмем, к примеру, этот список компаний.В html - это простая ul, и я просто перебираю каждую li, чтобы получить отдельную компанию
<ul>
<li>Lerner New York, Inc.</li>
<li>Charming Shoppes, Inc.</li>
<li>Lane Bryant, Inc.,</li>
<li>Nordstrom, Inc.</li>
</ul>
В экспорте CSV - эти данные (одна ячейка) выглядят так:
Lerner New York, Inc., Charming Shoppes, Inc., Lane Bryant, Inc., Nordstrom, Inc.
Разделить эту строку на запятую проблематично, потому что тогда я получаю:
Lerner New York|Inc.|Charming Shoppes|Inc.|Lane Bryant|Inc.
Хотелось бы, чтобы это было так же просто, как игнорирование Inc. - но это не так просто.
У вас естьУ вас, бывших волшебников, есть какая-нибудь магия, которую вы можете предложить, чтобы решить эту проблему?