Простой интерфейс для пометки данных исследований? - PullRequest
3 голосов
/ 17 декабря 2010

Прежде чем я смогу создать систему, которая автоматически классифицирует текст, мне нужно вручную классифицировать целую кучу образцов как набор для обучения / оценки. Есть ли какой-нибудь существующий инструмент, который позволит мне вручную помечать тысячи предметов без особой боли? А если нет, то какой самый быстрый способ собрать что-то вместе?

В качестве примера представьте, что у вас есть куча сообщений в Twitter. Вы хотели бы поместить их в определенные ведра: счастливые, грустные, смешные, злые и спам. Некоторые вещи идут в нескольких ведрах. Вы можете просто записать все в файл и вставить некоторые теги с помощью vi, но это подвержено ошибкам и довольно медленно. Что еще более важно, хороший интерфейс означает, что, возможно, вы сможете убедить своих коллег сделать кучу работы. Веб, графический интерфейс или консоль не имеют большого значения; пока это быстро и легко. Есть что-нибудь подобное?

Я надеюсь, что да, хотя я ничего не могу найти с Google. Если мне нужно что-то построить, есть ли хорошее место для начала? Судя по всему, мое первое впечатление таково, что Rails + jQuery + acts_as_taggable_on + jQuery Tokenizing Autocomplete выглядит нормально, но я открыт для других дел

Ответы [ 5 ]

1 голос
/ 24 декабря 2010

Amazon Mechanical Turk https://www.mturk.com/mturk/welcome разработан специально для описанного вами варианта использования. Он позволяет вам загружать данные, создавать форму, а затем передавать вашу классификацию людям, что затем приводит к возврату файла.

1 голос
/ 27 декабря 2010

Почему бы просто не пойти и не использовать Excel (или любую другую программу для работы с электронными таблицами)?

Просто поместите сообщения (для тегирования) в первом столбце, а затем создайте небольшой макрос, чтобы пользователь (вы / коллеги / ...) мог щелкнуть по соседней ячейке, чтобы выбрать один из сегментов. Если сообщение должно быть помещено в несколько сегментов, позвольте пользователю щелкнуть следующую соседнюю ячейку, чтобы выбрать другой сегмент. (При желании вы можете зафиксировать максимальное количество выбранных сегментов, просто ограничив количество ячеек, которые можно редактировать).

После этого все сообщения будут помечены в формате, который очень легко загрузить в базу данных для дальнейшей обработки.

Здесь нет ничего высокотехнологичного, что хорошо для коллег, которые могут не разбираться в компьютерах. Все знают, как вводить данные в электронную таблицу!

1 голос
/ 23 декабря 2010

Я думаю, что Rails + jQuery + acts_as_taggable_on + jQuery токенизация автозаполнения, как вы упомянули, является хорошим выбором!

0 голосов
/ 28 декабря 2010

В моем случае я закончил что-то с модулем Ruby HighLine для интерфейсов командной строки.Он не такой красивый, как веб-интерфейс, но его было просто построить и, благодаря односимвольному режиму, он очень быстр в использовании.

0 голосов
/ 27 декабря 2010

Если вы хотите стать высокотехнологичным (по сравнению с моим предыдущим ответом в формате Excel), вы можете просто использовать Weka Tools , который "... содержит инструменты для предварительной обработки данных, классификации, регрессии , кластеризация, правила ассоциаций и визуализация. Он также хорошо подходит для разработки новых схем машинного обучения. "

...