Если вы ищете пример из реальной жизни, посмотрите этот случай, в котором автоматически присваивает приоритет ошибкам .
Я также создал пару тестовых проектов, чтобы понять, как я могу использовать его в производстве.
Один из них предлагает теги для вопросов Stackoverflow. Модель для этого была обучена с вопросами (из дампа данных), которые имели только 1 тег. Это помогает распознавать особенности конкретного тега. Код и проза были разделены на отдельные функции, так как одна из них может оказать большее влияние на результат. Когда задается вопрос, он возвращает 10 лучших предложений тегов; фактические теги включены для сравнения.
Структура была CSV-файлом:
"tag","code blocks(200 chars)","body text(200 chars)"
Некоторые символы были отфильтрованы из code
, что вызвало ошибки обучения: []^|~
. Не уверен, кто из них вызывал проблемы.
Если вы хотите, чтобы определенный вопрос был добавлен в список тестов, дайте мне знать. Очевидно, что вопросы с кодом предсказывают лучше.
Другой проект прогнозирует рейтинги фильмов на основе данных IMDB и режиссера / актеров. В отличие от подсказки тегов, она является действующей, поэтому вы можете экспериментировать с различными комбинациями, чтобы увидеть, что она предсказывает.
Структура здесь была:
rating,"directorId","actorId actorId actorId"
Оба работают на Google App Engine, поэтому python - это серверная часть. Я не использую определенный API; просто следовал за некоторыми из примера кода Ника Джонсона .