У меня проблемы с решением проблемы. У меня есть данные о ценах продуктов, продаваемых в супермаркетах еженедельно. Моя цель состоит в том, чтобы сравнить цены однородной корзины продуктов через магазины во времени.
Я знаю, что товара нет во всех магазинах все время. Но я хочу иметь однородный набор продуктов, который присутствует каждую неделю (чтобы я мог сравнивать корзину продуктов за все время), и я хочу найти магазины, в которых находятся эти продукты.
Мои данные выглядят так:
Product Number - Store - Week - Price
70001 - 1 - 30 - 22.00
70002 - 2 - 30 - 4.50
70003 - 3 - 30 - 11.25
70003 - 1 - 31 - 12.50
70002 - 2 - 31 - 5.00
70001 - 3 - 31 - 22.50
Просто чтобы иметь в виду, у меня есть более 1000 продуктов, все недели в году и более 2000 магазинов. В общей сложности это около 30 Гб данных. Я пытаюсь избежать использования петель.
Я потратил около недели, пытаясь сделать это с помощью dplyr и агрегата, но я никуда не попал.