Допустим, вы создали классификатор настроений для нескольких разных доменов.Скажем, фильмы, музыкальные DVD и электроника.Для этого легко создать высококачественные классификаторы, потому что есть куча обучающих данных, которые вы извлекли из Amazon.Наряду с каждым классификатором вы также создаете детектор сходства, который сообщит вам для данного фрагмента текста, насколько он был похож на набор данных, на котором обучался каждый из классификаторов.
Теперь вы хотите найти мнениенекоторого текста из неизвестного домена или такого, в котором нет такого большого набора данных для обучения.Что ж, как насчет того, чтобы мы взяли взвешенную по сходству комбинацию классификаций из трех уже имеющихся у нас высококачественных классификаторов.Если мы пытаемся классифицировать обзор посудомоечной машины (к сожалению, нет гигантского корпуса обзоров посудомоечной машины), он, вероятно, наиболее похож на электронику, поэтому классификатору электроники будет уделено наибольшее внимание.С другой стороны, если мы пытаемся классифицировать рецензию на телешоу, вероятно, классификатор фильмов будет работать лучше.