Question

Я экспериментирую с машинным обучением в целом и байесовским анализом в частности, пишу инструмент, который поможет мне идентифицировать мою коллекцию электронных книг.Входные данные состоят из набора файлов электронных книг, чьи имена и в некоторых случаях содержимое содержит подсказки относительно книги, которой они соответствуют.

Некоторые из них очевидны для читателя, например:

Искусственный интеллект - современный подход 3rd.pdf
Microsoft Press - SharePoint Foundation 2010 Inside Out.pdf
Полное руководство по ремонту ПК, 5-е издание [2011] .pdf
Hamlet.txt

Другие не так очевидны:

Vsphere5.prc (На самом деле «Освоение VSphere 5» Скотта Лоу)
as.ar.pdf (на самом деле «Атлант расправил плечи» Айн Рэнд)

Вместо того, чтобы пытаться кодировать различные парсеры для разных форматов имен файлов, я подумал, что я бы создал несколько десятков простых правилкаждый со счетом.

Например, одно правило будет искать на первых нескольких страницах файла что-то, напоминающее номер ISBN, и, если оно будет найдено, выдвигает гипотезу о том, что файл соответствует книге, идентифицируемой этим номером ISBN.

Другое правило проверяет, имеет ли имя файла формат «Автор - Заголовок», и, если да, предложит гипотезу о том, что автор - «Автор», а заголовок - «Заголовок».Аналогичные правила для других форматов.

Я подумал, что мог бы также получить список названий книг и авторов из Amazon или базы данных ISBN, и найти имя файла и первые несколько страниц файла для любого из них;любые найденные совпадения приведут к гипотезе, предложенной этим правилом.

В конце я получу набор кортежей, подобный этому:

[rulename, гипотеза]

Я ожидаю, что некоторые правила, такие как соответствие ISBN, с высокой вероятностью будут правильными, когда они будут доступны.Другие правила, такие как совпадения на основе известных названий книг и авторов, были бы более распространенными, но не такими точными.

Мои вопросы:

Является ли это хорошим подходом для решения этой проблемы?
Если да, то является ли байесовский анализ хорошим кандидатом для объединения всех гипотез этих правил в составной балл, чтобы помочь определить, какая гипотеза является самой сильной или наиболее вероятной?
Есть ли лучший способчтобы решить эту проблему, или какую-нибудь исследовательскую работу или книгу, к которой вы можете обратиться за дополнительной информацией?

cyborg · Answer 1 · 17 октября 2011

Это зависит от размера вашей коллекции и времени, которое вы хотите потратить на обучение классификатора.Будет трудно получить хорошее обобщение, которое сэкономит ваше время .Для любого типа классификатора вам придется создать большой тренировочный набор, а также найти много правил, прежде чем вы получите хорошую точность.Вероятно, будет более эффективно (меньше ложных срабатываний) создавать правила и использовать их только для того, чтобы предлагать альтернативы названий, из которых вы можете выбирать, а не для реализации классификатора.Но если цель состоит в том, чтобы научиться, тогда продолжайте.

Как использовать байесовский анализ для вычисления и комбинирования весов для нескольких правил для идентификации книг

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как использовать байесовский анализ для вычисления и комбинирования весов для нескольких правил для идентификации книг

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы