Есть ли способ разделить набор тегов Product, который представляет собой смесь категорий, объектов, материалов, брендов, на отдельные столбцы? - PullRequest
0 голосов
/ 03 апреля 2019

У меня есть CSV-файл с более чем 800К-записями с одним столбцом с именем «теги», который имеет значение в виде набора тегов, разделенных знаком «+». Например, [lipton + plastic + package] является значением некоторой записи xyz. Это в основном состав категории, объекта, материала, бренда. Сложность в том, что если я токенизирую это с помощью разделителя, я могу получить отдельные слова. Но, поскольку нет порядка, в котором расположены эти слова, становится трудно определить, какое слово идет в какое ведро (Категория, Объект, Материал, Бренд).

Я подготовил отдельный файл COMB и попытался выделить его вручную. Поскольку данные огромны и может быть больше слов-тегов, которые должны быть частью файла COMB, мне нужен какой-то автоматизированный способ сделать это. Есть ли какой-нибудь простой способ или рамки, которые я могу использовать?

Результат выглядит следующим образом: Предположим, у нас есть запись:

id lat lon time tags
2551739 38 -9 21.02.2015 сигарета + бумага + бутон + мальборо

Теперь, если мы видим столбец тега, он имеет 3 слова, разделенных +. Теперь нам нужно создать 4 отдельных столбца «Категория», «Объект», «Материал», «Марка» и поместить слова в соответствующие поля. Например: Категория: Сигареты; Объект: Bud; Материал: Бумага; Марка:. Marlboro

...