Расчет средней дилеммы - PullRequest
       15

Расчет средней дилеммы

0 голосов
/ 14 февраля 2011

Я столкнулся с небольшой дилеммой. Для своей последней диссертации я работаю над одним из своих предметов, где в данный момент пытаюсь дать представление о средних порядках заказа за заказ. Набор данных содержит данные из 15.000 интернет-магазинов, примерно 400.000 выполненных заказов и около 2.5 млн. Заказов (всего, включая незавершенные заказы).

После вычисления среднего я пришел к странному выводу (в среднем было 20,9 строк на заказ). Кажется, и логично, что набор данных содержит заказ на тестирование, размещенный владельцами магазинов (предположительно). Дилемма заключается в том, чтобы определить, когда определенный порядок можно считать истинным, как в реальном заказанном продукте.

Например, есть упорядоченные строки для заказанных конвертов. В этом случае заказанная сумма 15.000 может быть правдой. Но когда товар стоит около 1,199 евро, маловероятно, что был заказ, где было заказано 500+ этого товара.

Теперь я думаю объединить цену за единицу с заказанной суммой, и скажем, она не может быть дороже, чем € 7,500, -. В противном случае, я думаю, подобная покупка вряд ли будет совершена через Интернет.

...