НЛТК / НЛП строит классификатор предметов «многие ко многим» и «несколько ярлыков» - PullRequest
7 голосов
/ 12 октября 2011

У меня есть помеченный человеком корпус из более чем 5000 проиндексированных документов в формате XML. Они различаются по размеру от нескольких сотен килобайт до нескольких сотен мегабайт. Будучи краткими статьями к рукописям. Все они были проиндексированы так глубоко, как уровень абзаца. Мне повезло, что у меня есть такой корпус, и я пытаюсь научить себя некоторым концепциям НЛП. По общему признанию, я только начал. До сих пор читал только свободно доступную книгу NLTK, streamhacker и скимминг Джейкобса (?) Поваренную книгу NLTK. Мне нравится экспериментировать с некоторыми идеями.

Мне было предложено, что, возможно, я мог бы взять биграммы и использовать наивную байесовскую классификацию для маркировки новых документов. Мне кажется, что это неправильный подход. Наивный Байес опытен в истинных / ложных отношениях, но чтобы использовать их в моем иерархическом наборе тегов, мне нужно построить новый классификатор для каждого тега. Почти 1000 из них. У меня есть память и процессор, чтобы выполнить такую ​​задачу, но я скептически отношусь к результатам. Однако сначала я попробую этот подход, чтобы успокоить чью-то просьбу. Скорее всего, я должен был сделать это на следующий день или два, но я предсказываю, что точность будет низкой.

Так что мой вопрос немного открыт. Скорее всего, из-за характера дисциплины и общего неблагополучия с моими данными, будет трудно дать точный ответ.

  1. Какой классификатор подойдет для этой задачи. Если я ошибаюсь, можно ли использовать байесовские операции для выполнения операций, не являющихся истинными / ложными.

  2. Какую функцию извлечения я должен выполнить для такой задачи. Я не ожидаю многого от биграмм.

Каждый документ также содержит некоторую цитатную информацию, включая, автора / ов, пол авторов m, f, микс (m & f) и другие (Gov't inst et al.), Тип документа, дату публикации (16 век. в настоящее время), человеческий аналитик и несколько других общих элементов. Я также был бы признателен за некоторые полезные описательные задания, которые помогут лучше исследовать эти данные на предмет гендерной предвзятости, предвзятости аналитиков и т. Д. Но я понимаю, что это немного выходит за рамки этого вопроса.

Ответы [ 2 ]

10 голосов
/ 13 октября 2011

Какой классификатор подойдет для этой задачи.Если я ошибаюсь, может ли байесовский метод использоваться не только для операций типа «истина / ложь».

Вы можете легко построить многолинейный классификатор, создав отдельный двоичный классификатор для каждого класса , который может отличить этот класс от всех остальных.Классы, для которых соответствующий классификатор дает положительное значение, являются выходом комбинированного классификатора.Вы можете использовать Наивный Байес для этого или любого другого алгоритма.(Вы также можете поиграть в уловки с выходом вероятности NB и пороговым значением, но оценки вероятности NB общеизвестно плохи; только его ранжирование среди них делает его ценным.)

какую характеристику я должен преследоватьдля такой задачи

Для классификации текста известно, что векторы tf-idf работают хорошо, но вы не указали, какая именно задача существует.Любые метаданные в документах могут также работать;попробуйте сделать простой статистический анализ.Если какая-либо функция данных присутствует в одних классах чаще, чем в других, это может быть полезной функцией.

0 голосов
/ 15 мая 2015

Я понимаю, что вам нужно решить две задачи.Во-первых, вы хотите пометить статью на основе ее темы (?), И, таким образом, статья может быть классифицирована по нескольким категориям / классам, и, таким образом, у вас есть проблема классификации с несколькими метками.Существует несколько алгоритмов, предложенных для решения проблемы классификации по нескольким меткам - пожалуйста, ознакомьтесь с литературой.Я нашел эту статью весьма полезной, когда столкнулся с подобной проблемой: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.104.9401

Вторая проблема, которую вы хотите решить, - пометить статью авторами, полом, типом документа.Это проблема нескольких классов - каждый класс имеет более двух потенциальных значений, но во всех документах есть некоторые значения для этих классов.

Я думаю, что в качестве первого шага важно понять различия между несколькими классами имульти-этикеточная классификация.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...