У меня большой текстовый файл URL (> 1 миллиона URL).URL-адреса представляют страницы продукта в нескольких разных доменах.
Я пытаюсь проанализировать SKU и название продукта по каждому URL-адресу, например:
- www.amazon.com /totes-Mens-Mike-Duck-Boot / dp / B01HQR3ODE /
- totes-Mens-Mike-Duck-Boot
- B01HQR3ODE
- www.bestbuy.com/site/apple-airpods-white/5577872.p?skuId=5577872
- яблочно-воздушные штучки белого цвета
- 5577872
У меня уже есть отдельные шаблоны регулярных выражений для анализа двух компонентов URL (название продукта и SKU) для всех доменов в моем списке.Это почти 100 различных шаблонов.
Хотя я разобрался с тем, как тестировать этот URL-адрес / шаблон за раз, у меня возникают проблемы с выяснением того, как создать скрипт, который будет читать весь мой список., затем пройдите и проанализируйте каждую строку на основе соответствующего шаблона регулярных выражений.Любые предложения, как лучше всего решить эту проблему?
Если мой ввод - один столбец (URL), то мой желаемый вывод - 4 столбца (URL, домен, product_name, SKU).