Какова лучшая практика для расчета сходства между двумя парами X И у - PullRequest
1 голос
/ 11 февраля 2020

У меня есть несколько значений об одном элементе. Например, element1: values1, values2. Для каждого элемента мне нужно рассчитать «оценку» для заданного количества функций. Представьте, что у нас есть одна особенность, которая представлена ​​в виде:

  • Высокая оценка для функции 1 определяется высокой оценкой значения 1 и низкой оценкой значения 2.

Так что, если я предполагаю, что высокой оценке value1 (1) и низкой оценке value2 (0) соответствует высокая оценка 'feature1', какова лучшая практика для вычисления оценки feature1, заданной как value1 И value2, двух разных оценки? (Например, значение 1 = 0,7, значение = 0,2). Я использую Python в качестве языка программирования, и я предпочитаю использовать рекламный модуль sklearn, но приемлемо любое подходящее решение.

1 Ответ

0 голосов
/ 11 февраля 2020
  1. Сначала нормализуйте ваши данные. Один из типов нормализации состоит в том, чтобы ваши значения1, значения2 помещались в диапазоне [0,1].
  2. Предположим, что среднее значение двух характеристик объекта1 на основе нормализованных данных равно (.7, .2) , Для любых новых 2-х значений (x, y) вычислите расстояние между (x, y) и (.7, .2)

При вычислении расстояния в машинном обучении компонент sqrt обычно не рассчитано.

dist^2 = (x-.7)^2 + (y-.2)^2

Возможно, вас также заинтересует вычисление погрешности 2-значного (x, y) по сравнению с (.7, .2), и вы можете посмотреть на категориальную перекрестную энтропию.

...