Question

Я относительно новичок в области Web Scraping, а также Python. Я пытаюсь собрать данные из супермаркета / Интернет-магазина. Я сталкиваюсь с проблемой очистки очищенных данных. Образец данных Scraped

Tata Salt Lite, с низким содержанием натрия, 1 кг
Чистое горчичное масло Fortune Kachi Ghani, 1 л (бутылка для домашних животных)
Бурбон Блисс, 150 г (купи 3, получи 1 бесплатно) Бренд Amazon
Ведака Популярный Тоор / Архар Дал, 1 кг
Ено бутылка 100 г (обычная) Pro
Натуральная 100% натуральная мазура, черная, 500 г
Surf Excel Жидкое моющее средство 1,05 л

Учитывая приведенный выше образец данных, я бы хотел отделить количества от названий продуктов. Требуемый формат Name -Tata Salt Lite, с низким содержанием натрия, Количество -1 кг Название - Чистое горчичное масло Fortune Kachi Ghani
Количество - 1 л и так далее ... Я попытался отделить то же самое с помощью регулярного выражения

re.split("[,/._-]+", i)

но с частичным успехом. Может кто-нибудь, пожалуйста, помогите мне, как обращаться с набором данных. Заранее спасибо.

Andersson · Answer 1 · 26 октября 2018

Вы можете попробовать реализовать приведенное ниже решение для каждой строки:

text_content = "Tata Salt Lite, Low Sodium, 1kg"
quantity = re.search("(\d+\s?(kg|g|L))", text_content).group()
name = text_content.rsplit(quantity)[0].strip().rstrip(',')
description = "Name - {}, Quantity - {}".format(name, quantity)

Python Web Scraping: разделение количеств по неструктурированным данным

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python Web Scraping: разделение количеств по неструктурированным данным

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы