IBM Watson Personality Insights: использовать сырые или процентильные оценки? - PullRequest
0 голосов
/ 07 сентября 2018

Я использую IBM Watson Personality Insights в контексте академического исследовательского проекта.

Из анализа, проведенного до сих пор, я заметил, что часто существуют большие различия между необработанными и процентильными оценками для одних и тех же твитов, и в некоторых случаях оценки даже находятся на противоположных концах (например, необработанный счет приемлемости: 0,21 и оценочный процент приемлемости 0,76). Более того, на совокупном уровне для моей выборочной популяции дисперсия черт личности намного выше для показателей процентиля и очень низка для необработанных оценок (все наблюдения находятся в диапазоне от 0,1 до 0,2 на черту).

Я понимаю, что процентили - это нормализованные оценки, и интерпретации оценок отличаются. Мой вопрос заключается в том, какую оценку обычно используют исследователи, стремящиеся применить их в регрессионном анализе (например, личностные качества человека - успех)? В работах, которые я видел, которые применяют Personality Insights, авторы не обсуждают, какую оценку они используют. Было бы здорово, если бы у вас были какие-то соображения по этому поводу, и вы могли бы поделиться любыми исследованиями, в которых более подробно обсуждается их подход к Personality Insights.

Заранее большое спасибо за руководство!

1 Ответ

0 голосов
/ 07 сентября 2018

Вы правы, что оценки имеют разные интерпретации. Необработанные оценки являются именно такими, где нормализованная оценка превышает большую популяцию. Хотя диапазоны для необработанных оценок черты от 0 до 1 на практике, это не всегда так, и оценки могут быть сконцентрированы в более узкой полосе. Вот почему в приведенном выше примере небольшое изменение необработанного значения может привести к гораздо большему изменению в процентном значении.

Обратите внимание, что для расчета процентилей мы запустили профили для большей совокупности (100 000), где вы могли бы наблюдать эти тенденции, которые могут не отображаться в меньшей выборке.

Что касается вашего другого вопроса; какой счет вы бы использовали очень сильно зависит. В целом, большинство используют процентиль, поскольку это дает представление о том, как данная группа людей сравнивается с населением в целом. Например, если мне интересно посмотреть, как одна группа сравнивается с другой, использование показателей процентили облегчает интуитивное понимание различий (разница в приемлемости в 25% легче понять, чем в натуральной разнице 0,1). так как вы не будете знать, важно это или нет). С другой стороны, необработанные оценки используются в основном, когда вы создаете более крупную модель и используете оценку PI как одну из функций. В этом случае, как правило, полезно использовать необработанные оценки, так как вы делаете свои собственные выводы из более крупной модели.

...