Я экспериментирую с машинным обучением в целом и байесовским анализом в частности, пишу инструмент, который поможет мне идентифицировать мою коллекцию электронных книг.Входные данные состоят из набора файлов электронных книг, чьи имена и в некоторых случаях содержимое содержит подсказки относительно книги, которой они соответствуют.
Некоторые из них очевидны для читателя, например:
- Искусственный интеллект - современный подход 3rd.pdf
- Microsoft Press - SharePoint Foundation 2010 Inside Out.pdf
- Полное руководство по ремонту ПК, 5-е издание [2011] .pdf
- Hamlet.txt
Другие не так очевидны:
- Vsphere5.prc (На самом деле «Освоение VSphere 5» Скотта Лоу)
- as.ar.pdf (на самом деле «Атлант расправил плечи» Айн Рэнд)
Вместо того, чтобы пытаться кодировать различные парсеры для разных форматов имен файлов, я подумал, что я бы создал несколько десятков простых правилкаждый со счетом.
Например, одно правило будет искать на первых нескольких страницах файла что-то, напоминающее номер ISBN, и, если оно будет найдено, выдвигает гипотезу о том, что файл соответствует книге, идентифицируемой этим номером ISBN.
Другое правило проверяет, имеет ли имя файла формат «Автор - Заголовок», и, если да, предложит гипотезу о том, что автор - «Автор», а заголовок - «Заголовок».Аналогичные правила для других форматов.
Я подумал, что мог бы также получить список названий книг и авторов из Amazon или базы данных ISBN, и найти имя файла и первые несколько страниц файла для любого из них;любые найденные совпадения приведут к гипотезе, предложенной этим правилом.
В конце я получу набор кортежей, подобный этому:
[rulename, гипотеза]
Я ожидаю, что некоторые правила, такие как соответствие ISBN, с высокой вероятностью будут правильными, когда они будут доступны.Другие правила, такие как совпадения на основе известных названий книг и авторов, были бы более распространенными, но не такими точными.
Мои вопросы:
- Является ли это хорошим подходом для решения этой проблемы?
- Если да, то является ли байесовский анализ хорошим кандидатом для объединения всех гипотез этих правил в составной балл, чтобы помочь определить, какая гипотеза является самой сильной или наиболее вероятной?
- Есть ли лучший способчтобы решить эту проблему, или какую-нибудь исследовательскую работу или книгу, к которой вы можете обратиться за дополнительной информацией?