Облако тегов хранилища данных движка приложения Google с питоном - PullRequest
5 голосов
/ 07 марта 2011

В нашем хранилище данных механизма приложений есть некоторые неструктурированные текстовые данные.Я хотел создать облако тегов «один раз» для одного свойства в подмножестве объектов хранилища данных.Осмотревшись вокруг, я не вижу никаких рамок, которые позволили бы мне сделать это, не написав это сам.

То, что я имел в виду, было:

  • Написать карту(как в уменьшении карты) функция для обхода каждого объекта определенного типа в хранилище данных,
  • Разделять текстовую строку на слова
  • Для каждого слова увеличивать счетчик
  • Используйте окончательные значения для генерации облака тегов с помощью какого-либо стороннего программного обеспечения (в автономном режиме - любые предложения приветствуются)это делает это для меня ( пожалуйста ), если нет, то я подхожу к этому правильным образом.т.е., пожалуйста, не стесняйтесь указывать на зияющие дыры в плане.

1 Ответ

5 голосов
/ 07 марта 2011

Feed TagCloud и PyTagCloud - это две возможности.

  • Feed TagCloud Generator Gadget для Google App Engine можетсоответствовать вашим потребностям.К сожалению, это недокументировано.К счастью, это довольно просто, хотя я не уверен, насколько он подходит для ваших нужд.

    Он работает с фидом и выглядит несколько гибким, поэтому, если у вас есть фид вашего сайта,интеграция может не составить особых проблем, хотя вся обработка будет выполняться в режиме онлайн.

  • PyTagCloud также стоит посмотреть.Вы сможете выполнять обработку в автономном режиме, и она генерирует довольно красивые облака.

    Все, что вам нужно сделать, чтобы это работало, это экспортировать ваше хранилище данных;Подсчет и разбиение будут сделаны за вас, так как PyTagCloud может работать с текстовыми файлами.Следуя инструкциям в документации App Engine о Выгрузка и загрузка данных , вы узнаете, как экспортировать хранилище данных на локальный компьютер.Вы захотите написать «Класс экспортера», и на выходе будет работать PyTagCloud.


Если вы решите свернуть свое собственное, вы, вероятно, захотите пропустить онлайнобрабатывать и использовать автономный метод Загрузка и выгрузка данных выше, если вам не требуется динамически обновляемое облако.Итерации по всему хранилищу данных и подсчет в режиме онлайн - самая раздражающая и дорогая часть задачи.Это имеет смысл делать, только если вы хотите или вам нужно динамическое облако тегов.Как и выше, я бы рекомендовал написать «Класс экспортера» и работать с ним локально.

...