Как классифицировать текст, когда предопределенные категории недоступны - PullRequest
1 голос
/ 14 сентября 2011

У меня проблема, и я не понимаю, какой алгоритм должен применяться. Я думаю применить кластеризацию в случае два, но не знаю, в первом случае:

У меня есть 0,5 млн. Документов о деятельности по кредитной карте. Каждый документ четко определен и содержит 1 транзакцию на строку. Дата, сумма, имя продавца и краткое описание продавца из 5-20 слов. Образец: 2004-11-47, $ 500, Amazon, Интернет-магазин, предлагающий товары и услуги, включая книги, оборудование, музыку и т. Д. Вопросы: 1. Как бы классифицировать каждую запись без заданных категорий. 2. Как бы это сделать, если вам дали заранее определенные категории, такие как «ресторан», «развлечения» и т. Д.

1 Ответ

0 голосов
/ 15 сентября 2011

1) Как бы классифицировать каждую запись без заданных категорий.

Вы бы этого не сделали.Вместо этого вы будете использовать какой-то алгоритм уменьшения размерности для функций данных, которые будут им представлены в 2-х измерениях, угадать количество «естественных» кластеров, а затем запустить алгоритм кластеризации.

2) Как это сделатьэто, если вам дали заранее определенные категории, такие как «ресторан», «развлечения» и т. д.

Вы бы вручную пометили их несколько, а затем обучили этому классификатору и посмотрите, насколько хорошо он работает собычный механизм точности / F1, перекрестная проверка и т. д. Или вы бы проверили, хорошо ли алгоритм кластеризации улавливает эти категории, но тогда вам все еще нужны некоторые помеченные данные.

...