Метод классификации переменных на основе одного строкового столбца - PullRequest
0 голосов
/ 29 апреля 2019

Я ищу какой-то метод, который может классифицировать переменную на основе одного строкового столбца.Мне сказали, что SVM должен с этим справиться, но я не уверен, как.

Это пример данных, которые у меня есть, я хотел бы классифицировать категорию на основе имен:

                                                                       names                    category
321                                             Friall Táborské krokety 750g Americké brambory a krokety
800                                                    McCain Fri'Style 600g Americké brambory a krokety
803                                                       McCain Smiles 450g Americké brambory a krokety
935                                            Nowaco Americké brambory 750g Americké brambory a krokety
937                                                      Nowaco Krokety 300g Americké brambory a krokety
1375                                    Tesco Kořeněné bramborové dílky 750g Americké brambory a krokety
939                                           Nowaco Pstruh lososovitý filet                 Balené ryby
1157       Rybářství Chlumec Nad Cidlinou Kapr půlka s kůží čerstvá chlazená                 Balené ryby
1158       Rybářství Chlumec Nad Cidlinou Kapr řízky s kůží čerstvě chlazené                 Balené ryby
1159 Rybářství Chlumec Nad Cidlinou Pstruh kuchaný s hlavou čerstvý chlazený                 Balené ryby
322                                                Gastro Camping salát 140g               Balené saláty
323                                               Gastro Ďábelský salát 140g               Balené saláty
324                                             Gastro Feferonový salát 140g               Balené saláty
325                                            Gastro Hermelínový salát 140g               Balené saláty
326                                              Gastro Holandský salát 140g               Balené saláty
327                                            Gastro Loupežnický salát 140g               Balené saláty

Ответы [ 2 ]

0 голосов
/ 29 апреля 2019

Я нашел решение своей проблемы, используя отличный учебник Франсуа де Риккеля .

В основном решение представляет собой библиотеку tm и caret в R, которая помогаетвыполнять различные операции с текстом для эффективного анализа данных.Простой пример на странице дает пользователю базовые знания, необходимые для начала обработки текста.

0 голосов
/ 29 апреля 2019

Большинство алгоритмов машинного обучения требуют, чтобы входные данные были числовыми. Существует несколько способов извлечь числовые элементы из любой строки. Возможны следующие варианты: # буквы, # слова или пустышки, указывающие на наличие определенных слов (в наборе слов, включенных в столбец «имена», может быть сколько угодно уникальных слов). Конечно, существует множество других методов, и какие из них будут наиболее эффективными, зависит от имеющихся данных. Ясно, что экспертиза предметной области может очень помочь здесь. Кроме того, иногда детерминированные правила могут охватывать уже большую часть случаев. Поэтому я бы не сосредоточился на поиске правильного алгоритма ML для использования, а скорее на том, какие функции извлечь из этой строки, а затем на сравнении нескольких алгоритмов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...