Классификация документов включает недословные слова - PullRequest
0 голосов
/ 13 января 2020

Мне нужно классифицировать столбцы text или excel / data, к какой группе относится, скажем, имя человека, название организации, адрес или другое.

С существующими понятиями, такими как пакет слов, tf-idf и применением в алгоритмах классификации (наивный Байес, SVM, другие модели), я не смог достичь точности. Потому что имя человека, организация может отражать на адрес, так что имена могут быть классифицированы как адрес.

И в моем случае другие поля, такие как числа, метки, предложения должны классифицироваться как другие категории. Так как в адресе присутствуют числа, во многих случаях даже категориальные имена, числа считаются адресами.

Даже если я приведу огромное количество наборов обучающих данных, если могут появиться новые имена человека, организации, других полей, в В этих случаях модель может быть неисправна.

Есть ли способ решить все эти проблемы. пожалуйста, предложите мне.

1 Ответ

0 голосов
/ 13 января 2020

Рассматривали распознавание именованных сущностей (NER), кажется, что это ваша задача. Посмотрите на эту ссылку , это может помочь вам сделать это

...