Поиск похожих списков слов с помощью StringListProperty в App Engine - PullRequest
1 голос
/ 14 июля 2010

У меня есть список тегов, определенных в StringListProperty ().

База данных содержит около 1 миллиона записей, и каждая запись имеет около 20 различных значений в списке.

например,

a = ['ab', 'bc', 'ca', 'x', ....]

b = ['x','m', 'a', ....]

Я использую Google App Engine, поэтому у меня есть ограничения на запуск пакетных заданий ... (разрешено только 30 секунд)

Здесьмой вопрос:

Учитывая список a, я хочу найти все списки, которые имеют наибольшее количество элементов, общих с ... в порядке убывания числа общих элементов ...

howМогу ли я сделать это с помощью механизма приложений?

*** update

Я храню теги для URL-адресов - [shopping, shop, social-shopping, ....]

По сути, я хочу найти URL-адреса с похожим содержанием по

(1), совпадающим с тегами (2), просматривая частоту тегов на URL-адрес, чтобы определить, какие URL-адреса являются "более" связанным контентом

1 Ответ

0 голосов
/ 19 июля 2010

Я не думаю, что есть какой-либо изящный способ сделать это в App Engine - или, в этом отношении, в любой СУБД, имеющей только стандартные одномерные индексы.

Возможно, если вы расширите то, чего пытаетесь достичь, кто-то может предложить альтернативу?

...