Как Yelp создает раздел «Обзор основных моментов»? - PullRequest
1 голос
/ 30 декабря 2011

Возьмем следующую ссылку в качестве примера: http://www.yelp.com/biz/chef-yu-new-york.

В разделе «Основные моменты обзора» есть 3 фразы (острая нарезанная кубиками курица, счастливый час, специальные предложения на обед), которые выделены на основе отзывов, представленных пользователями. Очевидно, что это наиболее часто встречающиеся фразы, или наиболее часто встречающиеся длинные фразы, или какая-то другая логика.

Их официальное объяснение таково:

В своих обзорах Yelpers много упоминал приведенные ниже фразы. И это не какие-то старые общие фразы, это также те, которые наши роботы Yelp определили уникальные и хорошие, быстрые способы опишите это дело. Нажмите на любую из фраз, чтобы увидеть все отзывы, которые упоминают об этом.

У меня вопрос: что они использовали для анализа ввода текста, чтобы получить эти точки данных? Это какой-то алгоритм, основанный на Lempel Ziv, или какая-то карта сокращения? Я не был майором CS, поэтому, наверное, здесь что-то не хватает. Хотелось бы помочь, теории и т. Д.

Спасибо!

Ответы [ 2 ]

1 голос
/ 08 января 2013

Я не знаю, какой именно алгоритм использует Yelp, но это обычная проблема в обработке естественного языка. По сути, вы хотите извлечь наиболее релевантные словосочетания (http://en.wikipedia.org/wiki/Collocation).

Простой способ сделать это - извлечь список из n-грамм с самым высоким PMI (точечная взаимная информация). Этот вопрос SO объясняет, как это сделать с помощью Python и библиотеки nltk:

Как извлечь общие / значимые фразы из серии текстовых записей

0 голосов
/ 30 декабря 2011

Lempel-Ziv - это алгоритм сжатия данных, а map-Reduction - это метод обработки данных. Первый, вероятно, не задействован, а второй, как правило, полезен, но здесь не актуален.

Не зная деталей кода Yelp, невозможно сказать наверняка, но кажется вероятным , что их "основные моменты обзора" просто основаны на сведении в таблицу всех фраз, которые появляются в обзорах для этого бизнеса, тогда отображать те, которые чаще встречаются в обзорах для этого бизнеса, чем для других предприятий. Вероятно, потребуется некоторое количество обработки естественного языка, чтобы обеспечить выбор существительных фраз.

...