НЛП: есть ли простые и хорошие методы для нахождения семантического сходства между словами? - PullRequest
21 голосов
/ 14 марта 2010

Я не знаю, покрывает ли StackOverflow НЛП, поэтому я попробую. Мне интересно найти семантическую взаимосвязь двух слов из определенной области, то есть «качество изображения» и «шум». Я делаю некоторые исследования, чтобы определить, являются ли обзоры камер положительными или отрицательными для определенного атрибута камеры. (как качество изображения в каждом из обзоров).

Однако, не все используют одинаковую формулировку «качество изображения» в постах, поэтому я хочу посмотреть, есть ли способ для меня создать что-то подобное:

«качество изображения», которое включает («шум», «цвет», «резкость» и т. Д.) так что я могу обернуть все в один большой зонт.

Я делаю это для другого языка, поэтому Wordnet не всегда полезен. И нет, я не работаю на Google или Microsoft, поэтому у меня нет данных о поведении людей в качестве входных данных.

Тем не менее, у меня есть много текста, помеченные, сегментированные и т. Д.

Ответы [ 7 ]

5 голосов
/ 30 октября 2012

Чтобы найти семантическое сходство между словами, модель пространства слов должна добиться цели. Такая модель может быть реализована очень легко и достаточно эффективно. Скорее всего, вы захотите реализовать какое-то уменьшение размерности. Самый простой из них, о котором я могу подумать, это Случайная индексация , которая широко использовалась в НЛП.

Когда у вас есть модель пространства слов, вы можете вычислить расстояния (например, расстояние от косинуса) между словами. В такой модели вы должны получить результаты, которые вы упомянули ранее ( расстояние между "фокусом" и "деталями" должно быть больше, чем "вес камеры" против "вспышки" ).

Надеюсь, это поможет!

5 голосов
/ 28 июля 2012

Проверьте расстояние сходства Google - http://arxiv.org/abs/cs.CL/0412098 например. если многие веб-страницы включают их оба, они, вероятно, связаны между собой.

демонстрационная программа на http://mechanicalcinderella.com

Кроме этого, вы можете попытаться перевести проект, такой как wordnet ((Google Translate может помочь) или начать совместную онтологию.

4 голосов
/ 14 марта 2010

Ваш комментарий:

  1. Классификация по машинному обучению используется для НЛП все время.
  2. Относительно семантического сходства понятий см. Информационно-теоретическое определение сходства Деканга Лин .

Пожалуйста, посмотрите также эти вопросы: поиск связанных слов , семантическое сходство двух фраз .

2 голосов
/ 06 ноября 2014

Word-Space определенно является подходящим вариантом. Если LSA замедляет работу вашего приложения, и если семантика случайной индексации слишком мала, вам следует рассмотреть api.cortical.io . Этот REST API может дать вам семантическое представление отпечатка пальца любого слова. Этот семантический отпечаток содержит все различные контексты, к которым относятся слова. Вы можете однозначно выразить любое слово одним словом, как «органные» возвраты (мышцы, фортепиано, церковь, членство ...) И для каждого из контекстов вы можете получить контекстные термины: «пианино» даст (орган, кларнет, скрипка, флейта, виолончель, композиции, клавесин, оркестр) Что касается вашего последнего аспекта, эти семантические отпечатки полностью не зависят от языка. В настоящее время cortical.io API охватывает: английский, испанский, французский, немецкий, датский, арабский, русский, китайский. Другие языки публикуются до конца 2014 года.

2 голосов
/ 29 сентября 2013

Я видел word2vec на HackerNews пару недель назад, выглядит довольно близко к тому, что вы хотите.

2 голосов
/ 14 марта 2010

Взгляните на скрытое семантическое индексирование http://en.wikipedia.org/wiki/Latent_semantic_indexing, оно специально решает вашу проблему. Однако вам нужно найти способ соотнести эти мета-концепции с положительными или отрицательными настроениями. Анализ настроений http://en.wikipedia.org/wiki/Sentiment_analysis должен вам помочь.

0 голосов
/ 14 марта 2010

Возможно, вы захотите взглянуть на книгу Анализ мнений и анализ настроений . Если вас интересует только сходство слов и фраз, этот обзорный документ может помочь вам: От частоты к значению: модели векторного пространства семантики

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...