Добавить к объяснению dmn:
В целом, в НЛП вам следует обратить внимание на две темы:
Статистический анализ на основе правил
Анализ в полутяжелом и тяжелом весе
Статистический анализ использует статистические методы машинного обучения для классификации текста и в целом имеет хорошую точность и хороший отзыв. Основанный на правилах анализ методы в основном используют правила, собранные вручную, и имеют очень хорошую точность, но ужасный отзыв (в основном они идентифицируют случаи в ваших правилах, но не более того).
Анализ облегченного и тяжелого веса - это два подхода, которые вы увидите в поле. В целом, академическая работа тяжеловесная, с парсерами, модными классификаторами и множеством высокотехнологичных НЛП. В промышленности, в целом, акцент делается на данные, и многие академические вещи плохо масштабируются, и выход за рамки стандартных статистических или машинных методов обучения не принесет вам много пользы. Например, анализ в значительной степени бесполезен (и медленен), и поэтому анализ ключевых слов и ngram на самом деле довольно полезен, особенно когда у вас много данных. Например, Google Translate явно не настолько закулисен - у них просто так много данных, что они могут сокрушить всех остальных, независимо от того, насколько усовершенствовано их программное обеспечение для перевода.
Результатом этого является то, что в промышленности много машинного обучения и математики, но используется материал НЛП, не очень сложный, потому что сложный материал действительно не работает хорошо. Гораздо предпочтительнее использовать пользовательские данные, такие как клики по смежным предметам и механический турок ... и это работает очень хорошо, поскольку люди гораздо лучше понимают естественный язык, чем компьютеры.
Синтаксический анализ - это разбить предложение на фразы, произнесите фразу глагола, фразу существительного, предлогическую фразу и т. Д. И получите грамматическое дерево. Вы можете использовать онлайн-версию Stanford Parser , чтобы поиграть с примерами и почувствовать, что делает парсер. Например, допустим, у нас есть предложение
My cat's name is Pat.
Затем мы делаем POS-теги:
My/PRP$ cat/NN 's/POS name/NN is/VBZ Pat/NNP ./.
Используя POS-теги и обученный статистический парсер, мы получаем дерево разбора:
(ROOT
(S
(NP
(NP (PRP$ My) (NN cat) (POS 's))
(NN name))
(VP (VBZ is)
(NP (NNP Pat)))
(. .)))
Мы также можем выполнить немного другой тип анализа, называемый анализом зависимости:
poss(cat-2, My-1)
poss(name-4, cat-2)
possessive(cat-2, 's-3)
nsubj(Pat-6, name-4)
cop(Pat-6, is-5)
N-граммы - это, в основном, наборы смежных слов длины n. Вы можете посмотреть n-грамм в данных Google здесь . Вы также можете делать n-граммы символов, которые интенсивно используются для исправления орфографии.
Анализ настроений анализирует текст, чтобы определить, что люди думают о чем-то или о чем упоминаются легкие вещи (например, бренды). Это включает в себя много взгляда на слова, которые обозначают эмоции.
Семантический анализ анализирует значение текста. Часто это принимает форму таксономий и онтологий, где вы группируете понятия (собака, кошка принадлежат животному и домашнему животному), но это очень неразвитая область. Здесь полезны такие ресурсы, как WordNet и Framenet.