Python Web Scraping: разделение количеств по неструктурированным данным - PullRequest
0 голосов
/ 26 октября 2018

Я относительно новичок в области Web Scraping, а также Python. Я пытаюсь собрать данные из супермаркета / Интернет-магазина. Я сталкиваюсь с проблемой очистки очищенных данных. Образец данных Scraped

  • Tata Salt Lite, с низким содержанием натрия, 1 кг
  • Чистое горчичное масло Fortune Kachi Ghani, 1 л (бутылка для домашних животных)
  • Бурбон Блисс, 150 г (купи 3, получи 1 бесплатно) Бренд Amazon
  • Ведака Популярный Тоор / Архар Дал, 1 кг
  • Ено бутылка 100 г (обычная) Pro
  • Натуральная 100% натуральная мазура, черная, 500 г
  • Surf Excel Жидкое моющее средство 1,05 л

Учитывая приведенный выше образец данных, я бы хотел отделить количества от названий продуктов. Требуемый формат Name -Tata Salt Lite, с низким содержанием натрия, Количество -1 кг Название - Чистое горчичное масло Fortune Kachi Ghani
Количество - 1 л и так далее ... Я попытался отделить то же самое с помощью регулярного выражения

re.split("[,/._-]+", i)

но с частичным успехом. Может кто-нибудь, пожалуйста, помогите мне, как обращаться с набором данных. Заранее спасибо.

1 Ответ

0 голосов
/ 26 октября 2018

Вы можете попробовать реализовать приведенное ниже решение для каждой строки:

text_content = "Tata Salt Lite, Low Sodium, 1kg"
quantity = re.search("(\d+\s?(kg|g|L))", text_content).group()
name = text_content.rsplit(quantity)[0].strip().rstrip(',')
description = "Name - {}, Quantity - {}".format(name, quantity)
...