Предположим, что n строк текста аналогичны приведенным ниже:
"Sony KDL46NX720 BRAVIA 46" 3D HDTV со светодиодной подсветкой и HDTV - 1080p, 1920 x 1080, 16:9, 120 Гц, HDMI, USB, WiFi Ready »за $ 1148,99 на Tiger Direct"
"Samsung NV40 10,5 Мп Цифровая камера - серебро - 3-кратный зум-объектив» за 64,99 $ на eBay "
"Шлюз NV57H27u 15,6", ноутбук Intel Core i3-2310M (2,10 ГГц), 4 ГБ памяти DDR3, 500 ГБ HDD, супер-привод DVD, 64-разрядная версия Windows 7 Home Premium (розовый)- LX.WZF02.002 »за 399,99 долларов США на сайте Buy.com"
Я хотел бы проанализировать эти строки и классифицировать каждую из них как "ТВ, камера, ноутбук" и т. Д.
Атрибуты текста могут или не могут быть похожими.
Как это можно сделать всесторонне?
Какой код / инструменты я должен использовать?
На каком языке?
Я не хочу делать поиск по ключевым словам.Можно ли классифицировать эти строки с помощью логики класса / атрибута?
Можно ли использовать Protege для построения иерархии классов / подклассов?
Я совершенно новичок в этой области интеллектуального анализа данных.Извините за невежество!
Заранее спасибо.