Как использовать байесовский анализ для вычисления и комбинирования весов для нескольких правил для идентификации книг - PullRequest
1 голос
/ 14 октября 2011

Я экспериментирую с машинным обучением в целом и байесовским анализом в частности, пишу инструмент, который поможет мне идентифицировать мою коллекцию электронных книг.Входные данные состоят из набора файлов электронных книг, чьи имена и в некоторых случаях содержимое содержит подсказки относительно книги, которой они соответствуют.

Некоторые из них очевидны для читателя, например:

  • Искусственный интеллект - современный подход 3rd.pdf
  • Microsoft Press - SharePoint Foundation 2010 Inside Out.pdf
  • Полное руководство по ремонту ПК, 5-е издание [2011] .pdf
  • Hamlet.txt

Другие не так очевидны:

  • Vsphere5.prc (На самом деле «Освоение VSphere 5» Скотта Лоу)
  • as.ar.pdf (на самом деле «Атлант расправил плечи» Айн Рэнд)

Вместо того, чтобы пытаться кодировать различные парсеры для разных форматов имен файлов, я подумал, что я бы создал несколько десятков простых правилкаждый со счетом.

Например, одно правило будет искать на первых нескольких страницах файла что-то, напоминающее номер ISBN, и, если оно будет найдено, выдвигает гипотезу о том, что файл соответствует книге, идентифицируемой этим номером ISBN.

Другое правило проверяет, имеет ли имя файла формат «Автор - Заголовок», и, если да, предложит гипотезу о том, что автор - «Автор», а заголовок - «Заголовок».Аналогичные правила для других форматов.

Я подумал, что мог бы также получить список названий книг и авторов из Amazon или базы данных ISBN, и найти имя файла и первые несколько страниц файла для любого из них;любые найденные совпадения приведут к гипотезе, предложенной этим правилом.

В конце я получу набор кортежей, подобный этому:

[rulename, гипотеза]

Я ожидаю, что некоторые правила, такие как соответствие ISBN, с высокой вероятностью будут правильными, когда они будут доступны.Другие правила, такие как совпадения на основе известных названий книг и авторов, были бы более распространенными, но не такими точными.

Мои вопросы:

  1. Является ли это хорошим подходом для решения этой проблемы?
  2. Если да, то является ли байесовский анализ хорошим кандидатом для объединения всех гипотез этих правил в составной балл, чтобы помочь определить, какая гипотеза является самой сильной или наиболее вероятной?
  3. Есть ли лучший способчтобы решить эту проблему, или какую-нибудь исследовательскую работу или книгу, к которой вы можете обратиться за дополнительной информацией?

1 Ответ

0 голосов
/ 17 октября 2011

Это зависит от размера вашей коллекции и времени, которое вы хотите потратить на обучение классификатора.Будет трудно получить хорошее обобщение, которое сэкономит ваше время .Для любого типа классификатора вам придется создать большой тренировочный набор, а также найти много правил, прежде чем вы получите хорошую точность.Вероятно, будет более эффективно (меньше ложных срабатываний) создавать правила и использовать их только для того, чтобы предлагать альтернативы названий, из которых вы можете выбирать, а не для реализации классификатора.Но если цель состоит в том, чтобы научиться, тогда продолжайте.

...