Первый способ может быть полностью субъективным или частично количественным: жалобы пользователей и положительные отзывы. Проблема в том, что у вас могут быть сильные предубеждения, когда дело доходит до фильтрации этих отзывов, поэтому вам лучше делать это как можно количественно. Может быть полезно наличие системы тикетов для подачи каждого отчета от пользователей и сбора статистики по каждой версии интерфейса. Просто получите правильную статистику.
Второй способ состоит в том, чтобы измерить разницу в вопроснике об интерфейсе для конечных пользователей. Ответы на каждый вопрос должны представлять собой набор дискретных значений, а затем снова можно собирать статистику для каждой версии интерфейса.
Последний способ может быть намного сложнее в настройке (разработка вопросника и, возможно, контролируемой среды для него, а также руководящих принципов для интерпретации результатов - это самодеятельность), но первый способ неприятно легко спутать с измерения. Например, вы должны учитывать тот факт, что количество билетов, которые вы получаете на каждую версию, зависит от времени ее использования, и что все временные диапазоны не равны (например, целый класс критических проблем может никогда не быть обнаружен до третья или четвертая неделя использования, или пользователи могут не подавать заявки в первые дни использования, даже если они находят проблемы и т. д.).