Иерархия значения - PullRequest
       10

Иерархия значения

4 голосов
/ 24 марта 2010

Я ищу способ построения иерархии слов.

Справочная информация. Я - "любитель" энтузиастов обработки естественного языка, и сейчас одна из проблем, которые меня интересуют, - это определение иерархии семантики слов из группы слов.

Например, если у меня есть набор, который содержит «супер» представление других, то есть

[cat, dog, monkey, animal, bird, ... ]

Мне интересно использовать любую технику, которая позволила бы мне извлечь слово «животное», которое имеет наиболее значимое и точное представление других слов в этом наборе.

Примечание: они НЕ одинаковы по смыслу. кошка! = собака! = обезьяна! = животное НО кошка - это подмножество животных, а собака - это подмножество животных.

Теперь я знаю, что многие из вас будут говорить мне использовать Wordnet. Ну, я постараюсь, но на самом деле я заинтересован в создании предметной области, которая не применима к WordNet, потому что: 1) Большинство слов не найдены в Wordnet 2) Все слова на другом языке; перевод возможен, но имеет ограниченный эффект.

другой пример:

[ noise reduction, focal length, flash, functionality, .. ]

так что функциональность включает в себя все в этом наборе.

Я также пытался сканировать страницы википедии и применять некоторые приемы к td-idf и т. Д., Но страницы википедии тоже мало что делают.

Может ли кто-нибудь просветить меня, в каком направлении должны идти мои исследования? (Я мог бы использовать что угодно)

Ответы [ 2 ]

5 голосов
/ 24 марта 2010

Похоже, вы хотите использовать что-то вроде гиперного / гипонимного отношения в WordNet, но без фактического использования WordNet из-за проблем с охватом языка и области? То есть, если бы у вас были специфические для домена гиперные отношения, вы могли бы получить «супер» представление, просто отыскивая ближайшего родителя, который включил все слова в списке, или ближайший узел, который был равен одному из слов списка и включил всех остальных.

Для начала я хотел бы отметить, что WordNets действительно доступны для многих основных языков мира, см. Список в Global WordNet .

Чтобы получить специфичные для домена гиперные отношения , вы можете использовать технику, представленную в Сноу и др. * Изучение синтаксических шаблонов для автоматического обнаружения гиперных . То есть вы могли бы начать с небольшого списка начальных гипернимков, а затем использовать их для обучения классификатора для обнаружения гиперниммов в корпусе. Затем вы должны запустить этот классификатор для данных из вашего домена, чтобы создать список доменных гиперновых пар.

1 голос
/ 24 марта 2010

анализ мнений и анализ настроений люди могут делать связанные вещи, с точки зрения решения, какие слова представляют особенности продуктов, не зная ничего о продуктах.

Краткий набросок идеи о том, как вы можете это сделать, которую я полностью выдумал на месте: Разобрать кучу предложений в соответствующей области; найти существительные фразы и прилагательные. Выясните, какие словосочетания связаны с какими прилагательными. Cluster существительные фразы вместе на основе набора прилагательных, используемых для их описания. Животные будут стремиться вместе, потому что их будут описывать прилагательные типа «пушистый» или «милый» и т. Д. (В частности, иерархическая кластеризация, вероятно, будет наиболее подходящей).

Если вы попробуете это, и это сработает, дайте мне знать. :)

...