Я разрабатываю метрику для измерения, когда поисковый термин "неоднозначный".Оценка, близкая к единице, означает, что она является неоднозначной («Аякс» может быть языком программирования, решением для очистки, греческим героем, европейским футбольным клубом и т. Д.), А оценка, близкая к нулю, означает, что довольно ясно, что пользовательимел в виду («Леди Гага», вероятно, означает только одно). Часть этой метрики состоит в том, что у меня есть список возможных интерпретаций и частоты этих интерпретаций из прошлых данных, и мне нужно превратить это число в число от 0 до 1.
Например:скажем, термин «кошки» - из миллиона испытаний 850 000 раз пользователь имел в виду пушистую вещь, которую мяукает, 80 000 раз они имели в виду мюзикл под этим именем, а остальные - сокращения для вещей, каждое из которых означало лишь тривиальное число раз,Я бы сказал, что это должно иметь низкую оценку неоднозначности, потому что, хотя было несколько возможных значений, одно из них было наиболее предпочтительным.Напротив, скажем, термин «Друзья» - из миллиона испытаний 500 000 раз пользователь имел в виду людей, с которыми они тусуются все время, 450 000 раз они имели в виду телешоу под этим именем, а остальные имели какое-то другое значение,Это должно получить более высокую оценку неоднозначности, потому что различные значения были намного ближе по частоте.
TLDR: если я сортирую массив в порядке убывания, мне нужен способ, чтобы брать массивы, которые быстро уменьшаются до чисел, близких к нулюи массивы, которые падают медленнее, до чисел, близких к единице.Если массив был [1,0,0,0 ...], это должно получить идеальный результат 0, а если это было [1 / n, 1 / n, 1 / n ...], то это должно получить идеальный результатиз 1. Есть предложения?