Извлечение данных - нужны идеи - PullRequest
2 голосов
/ 26 октября 2011

Предположим, что n строк текста аналогичны приведенным ниже:

  • "Sony KDL46NX720 BRAVIA 46" 3D HDTV со светодиодной подсветкой и HDTV - 1080p, 1920 x 1080, 16:9, 120 Гц, HDMI, USB, WiFi Ready »за $ 1148,99 на Tiger Direct"

  • "Samsung NV40 10,5 Мп Цифровая камера - серебро - 3-кратный зум-объектив» за 64,99 $ на eBay "

  • "Шлюз NV57H27u 15,6", ноутбук Intel Core i3-2310M (2,10 ГГц), 4 ГБ памяти DDR3, 500 ГБ HDD, супер-привод DVD, 64-разрядная версия Windows 7 Home Premium (розовый)- LX.WZF02.002 »за 399,99 долларов США на сайте Buy.com"

Я хотел бы проанализировать эти строки и классифицировать каждую из них как "ТВ, камера, ноутбук" и т. Д.

Атрибуты текста могут или не могут быть похожими.


Как это можно сделать всесторонне?

Какой код / ​​инструменты я должен использовать?

На каком языке?

Я не хочу делать поиск по ключевым словам.Можно ли классифицировать эти строки с помощью логики класса / атрибута?

Можно ли использовать Protege для построения иерархии классов / подклассов?


Я совершенно новичок в этой области интеллектуального анализа данных.Извините за невежество!

Заранее спасибо.

1 Ответ

0 голосов
/ 26 октября 2011

Регулярные выражения, даже javascript может сделать работу

РЕДАКТИРОВАТЬ:

   var criteria = {
      camera : {
         identifier : /.*camera.*/ ,
         resolution : /.*(\d+)\s*x\s*(\d*).*/ ,
         value : /.*$(\d+).*/ ,
         ...
      },
      notebook : {
         identifier : /.*notebook.*/ ,
         ram : /.*(d+)GB\s*(DDR.).*/
         ...
      }
      ...
   }

Затем напишите простой движок, который использует эту структуру для анализа каждой строки

РЕДАКТИРОВАТЬ2:

Это совсем не просто, потому что вам нужно заполнить какую-то базу знаний, но это возможно, вы можете кормить это такими страницами.

http://en.wikipedia.org/wiki/List_of_CPU_power_dissipation

но это работа для более чем одного человека или для более чем одного дня, в зависимости от того, сколько интеллекта вы хотите для своего кода.

...