В чем разница между маркировкой POS и мелким разбором? - PullRequest
42 голосов
/ 25 января 2012

В настоящее время я учусь на курсе по изучению естественного языка в моем университете и все еще не могу понять какую-то базовую концепцию. Я получил определение POS-тегов из Основы статистической обработки естественного языка книга:

Пометка - это задача пометить (или пометить) каждое слово в предложении с соответствующей частью речи. Мы решаем, является ли каждое слово существительное, глагол, прилагательное или что-то еще.

Но я не могу найти определение мелкого синтаксического анализа в книге, так как оно также описывает неглубокий анализ как одну из утилит POS-тегов. Поэтому я начал искать в Интернете и не нашел прямого объяснения мелкого разбора, но в Wikipedia :

Неглубокий синтаксический анализ (также фрагментация, «легкий анализ») - это анализ предложения, в котором определяются составляющие (группы существительных, глаголы, группы глаголов и т. Д.), Но не указывается ни их внутренняя структура, ни их роль в основное предложение.

Честно говоря, я не вижу разницы, но это может быть из-за моего английского или просто из-за того, что я не понимаю простую базовую концепцию. Может кто-нибудь объяснить, пожалуйста, разницу между мелким разбором и POS-тегами? Часто ли неглубокий разбор также называют мелким семантическим разбором?

Спасибо, раньше.

Ответы [ 5 ]

52 голосов
/ 25 января 2012

POS-теги дадут POS-тег каждому слову во входном предложении.

Анализ предложения (например, с использованием stanford pcfg) преобразует предложение в дерево, листья которого будут содержать POS-теги (которые соответствуют словам в предложении), но остальная часть дерева расскажет вам, какименно эти слова объединяются, чтобы составить общее предложение.Например, прилагательное и существительное могут объединяться в «Фраза существительного», которое может объединяться с другим прилагательным, образуя другую фразу существительного (например, быстрая коричневая лиса) (точный способ объединения фигур зависит от рассматриваемого синтаксического анализатора).
Вы можете увидеть, как выглядит вывод парсера на http://nlp.stanford.edu:8080/parser/index.jsp

Неглубокий парсер или «чанкер» находится где-то между этими двумя.Простой POS-тегер действительно быстр, но не дает вам достаточно информации, а полноценный парсер работает медленно и дает слишком много.POS-тегер можно рассматривать как синтаксический анализатор, который возвращает вам только самый нижний уровень дерева разбора.Чанкер может рассматриваться как синтаксический анализатор, который возвращает вам какой-то другой уровень дерева разбора.Иногда вам просто нужно знать, что куча слов вместе образуют словосочетание, но не заботятся о подструктуре дерева в этих словах (т.е. какие слова являются прилагательными, определителями, существительными и т. Д. И как они сочетаются),В таких случаях вы можете использовать чанкер, чтобы получить именно ту информацию, которая вам нужна, вместо того, чтобы тратить время на генерацию полного дерева разбора для предложения.

38 голосов
/ 26 января 2012

POS-теги - это процесс, определяющий тип каждого токена из текста, например, NOUN, VERB, DETERMINER и т. Д. Токен может быть словом или пунктуацией.
Между тем мелкий разбор или чанкинг - это процесс, разделяющий текст на синтаксически связанную группу.

Pos Tagging output

Мой / PRP $ собака / NN любит / VBZ его / PRP $ еда / NN ./.

Выход блока данных

[NP My Dog] [VP любит] [NP его еда]

2 голосов
/ 28 января 2012

В POS_tagger мы помечаем слова, используя "tagset", такой как {существительное, глагол, прил., Adv, prob ...} , в то время как неглубокий анализатор попробуйте определить подкомпоненты, такие как Name Entity и фразы, в предложении , например, «я в настоящее время (прохожу курс Natural (Language Processing курс) в (мой университет))» и (все еще путаюсь с некоторой базовой концепцией.) "

2 голосов
/ 25 января 2012

Структура грамматики ограничения является иллюстративной.В своей простейшей и грубой форме он принимает в качестве входного текста с тегами POS и добавляет то, что вы могли бы назвать тегами части предложения.Например, для прилагательного можно добавить @NN>, чтобы указать, что он является частью NP, чье главное слово находится справа.

0 голосов
/ 24 февраля 2017

D. Jurafsky и JH Martin говорят в своей книге , что поверхностный анализ (частичный анализ) - это анализ, который не извлекает всю возможную информацию из предложения, а просто извлекает ценный в информация о конкретном случае.

Chunking - это только один из подходов к мелкому разбору. Как уже упоминалось, он извлекает только информацию об основных нерекурсивных фразах (например, глагольные фразы или фразы с существительными).

Другие подходы, например, производят плоские деревья разбора. Эти деревья могут содержать информацию о тегах части речи, но откладывать решения, которые могут потребовать семантических или контекстуальных факторов, таких как вложения PP, неоднозначности координации и номинальный составной анализ.

Итак, неглубокий синтаксический анализ - это анализ, который создает частичное дерево анализа. Чанкинг является примером такого разбора.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...