Прежде чем я смогу создать систему, которая автоматически классифицирует текст, мне нужно вручную классифицировать целую кучу образцов как набор для обучения / оценки. Есть ли какой-нибудь существующий инструмент, который позволит мне вручную помечать тысячи предметов без особой боли? А если нет, то какой самый быстрый способ собрать что-то вместе?
В качестве примера представьте, что у вас есть куча сообщений в Twitter. Вы хотели бы поместить их в определенные ведра: счастливые, грустные, смешные, злые и спам. Некоторые вещи идут в нескольких ведрах. Вы можете просто записать все в файл и вставить некоторые теги с помощью vi, но это подвержено ошибкам и довольно медленно. Что еще более важно, хороший интерфейс означает, что, возможно, вы сможете убедить своих коллег сделать кучу работы. Веб, графический интерфейс или консоль не имеют большого значения; пока это быстро и легко. Есть что-нибудь подобное?
Я надеюсь, что да, хотя я ничего не могу найти с Google. Если мне нужно что-то построить, есть ли хорошее место для начала? Судя по всему, мое первое впечатление таково, что Rails + jQuery + acts_as_taggable_on + jQuery Tokenizing Autocomplete выглядит нормально, но я открыт для других дел