У меня есть помеченный человеком корпус из более чем 5000 проиндексированных документов в формате XML. Они различаются по размеру от нескольких сотен килобайт до нескольких сотен мегабайт. Будучи краткими статьями к рукописям. Все они были проиндексированы так глубоко, как уровень абзаца. Мне повезло, что у меня есть такой корпус, и я пытаюсь научить себя некоторым концепциям НЛП. По общему признанию, я только начал. До сих пор читал только свободно доступную книгу NLTK, streamhacker и скимминг Джейкобса (?) Поваренную книгу NLTK. Мне нравится экспериментировать с некоторыми идеями.
Мне было предложено, что, возможно, я мог бы взять биграммы и использовать наивную байесовскую классификацию для маркировки новых документов. Мне кажется, что это неправильный подход. Наивный Байес опытен в истинных / ложных отношениях, но чтобы использовать их в моем иерархическом наборе тегов, мне нужно построить новый классификатор для каждого тега. Почти 1000 из них. У меня есть память и процессор, чтобы выполнить такую задачу, но я скептически отношусь к результатам. Однако сначала я попробую этот подход, чтобы успокоить чью-то просьбу. Скорее всего, я должен был сделать это на следующий день или два, но я предсказываю, что точность будет низкой.
Так что мой вопрос немного открыт. Скорее всего, из-за характера дисциплины и общего неблагополучия с моими данными, будет трудно дать точный ответ.
Какой классификатор подойдет для этой задачи. Если я ошибаюсь, можно ли использовать байесовские операции для выполнения операций, не являющихся истинными / ложными.
Какую функцию извлечения я должен выполнить для такой задачи. Я не ожидаю многого от биграмм.
Каждый документ также содержит некоторую цитатную информацию, включая, автора / ов, пол авторов m, f, микс (m & f) и другие (Gov't inst et al.), Тип документа, дату публикации (16 век. в настоящее время), человеческий аналитик и несколько других общих элементов. Я также был бы признателен за некоторые полезные описательные задания, которые помогут лучше исследовать эти данные на предмет гендерной предвзятости, предвзятости аналитиков и т. Д. Но я понимаю, что это немного выходит за рамки этого вопроса.