Question

В настоящее время у меня работает кластер из 3 узлов с 200 миль данных и конкретной вершиной, которую я запрашиваю в общей сложности 25 вершин мельниц и 30 ребер мельниц. Я выполняю следующий запрос

g.V().hasLabel('people_node').has("age", inside(0,25)).filter(outE('posted_question').count().is(gt(1))).profile()

Я пробовал этот запрос на меньшем наборе ~ 100 вершин и ребер, и профилировщик показал, что индексы были использованы для всех частей запроса. Тем не менее, я думаю, что проблема может быть в моей схеме, которая показана ниже.

Схема

schema.propertyKey('id').Text().ifNotExists().create()
schema.propertyKey('name').Text().ifNotExists().create()
schema.propertyKey('age').Int().ifNotExists().create()
schema.propertyKey('location').Point().withGeoBounds().ifNotExists().create()
schema.propertyKey('gender').Text().ifNotExists().create()
schema.propertyKey('dob').Timestamp().ifNotExists().create()

schema.propertyKey('tags').Text().ifNotExists().create()
schema.propertyKey('date_posted').Timestamp().ifNotExists().create()

schema.vertexLabel('people_node').properties('id','name','location','gender','dob').create()
schema.vertexLabel('questions_node').properties('id','tags','date_posted').create()
schema.edgeLabel('posted_question').single().connection('people_node','questions_node').create()

Используемые индексы

schema.vertexLabel("people_node").index("search").search().by("name").by("age").by("gender").by("location").by("dob").ifNotExists().add()
schema.vertexLabel("people_node").index("people_node_index").materialized().by("id").ifNotExists().add()

schema.vertexLabel("questions_node").index("search").search().by("date_posted").by("tags").ifNotExists().add()
schema.vertexLabel("questions_node").index("questions_node_index").materialized().by("id").ifNotExists().add()

Я также читал о запросах "OLAP", я думаю, что я его активировал, но запрос все еще слишком медленный. Будем весьма благодарны за любые советы или идеи о том, что их замедляет.

Профиль профиля (OLTP)

gremlin> g1.V().has("people_node","age", inside(0,25)).filter(outE('posted_question').count().is(gt(1))).profile()
==>Traversal Metrics
Step                                                               Count  Traversers
     Time (ms)    % Dur
=============================================================================================================
DsegGraphStep(vertex,[],(age < 25 & age > 0 & l...                     1           1
        38.310    25.54
  query-optimizer
         0.219
    \_condition=((age < 25 & age > 0 & label = people_node) & (true))
  query-setup
         0.001
    \_isFitted=true
    \_isSorted=false
    \_isScan=false
  index-query
        26.581
    \_indexType=Search
    \_usesCache=false
    \_statement=SELECT "community_id", "member_id" FROM "MiniGraph"."people_node_p" WHERE "solr_query" = '{"q
                ":"*:*", "fq":["age:{0 TO 25}"]}' LIMIT ?; with params (java.lang.Integer) 50000
    \_options=Options{consistency=Optional[ONE], serialConsistency=Optional.empty, fallbackConsistency=Option
              al.empty, pagingState=null, pageSize=-1, user=Optional[cassandra], waitForSchemaAgreement=true,
               async=true}
TraversalFilterStep([DsegVertexStep(OUT,[posted...
       111.471    74.32
  DsegVertexStep(OUT,[posted_question],edge,(di...                     1           1
        42.814
    query-optimizer
         0.227
    \_condition=((direction = OUT & label = posted_question) & (true))
    query-setup
         0.036
    \_isFitted=true
    \_isSorted=false
    \_isScan=false
    vertex-query
        29.908
    \_usesCache=false
    \_statement=SELECT * FROM "MiniGraph"."people_node_e" WHERE "community_id" = ? AND "member_id" = ? AND "
                 ~~edge_label_id" = ? LIMIT ? ALLOW FILTERING; with params (java.lang.Integer) 1300987392, (j
                 ava.lang.Long) 1026, (java.lang.Integer) 65584, (java.lang.Integer) 2
    \_options=Options{consistency=Optional[ONE], serialConsistency=Optional.empty, fallbackConsistency=Optio
               nal.empty, pagingState=null, pageSize=-1, user=Optional[cassandra], waitForSchemaAgreement=tru
               e, async=true}
    \_usesIndex=false
  RangeGlobalStep(0,2)                                                 1           1
         0.097
  CountGlobalStep                                                      1           1
         0.050
  IsStep(gt(1))
        68.209
DsegPropertyLoadStep
         0.205     0.14
                                            >TOTAL                     -           -
       149.986        -

Далее, из-за того, что частичный запрос выполняется намного быстрее, я предполагаю, что длительное время потребляется из-за необходимых обходов графа. Следовательно, возможно ли кэшировать или активировать индексы (_usesIndex=false), чтобы запросы OLAP были намного быстрее?

Jonathan Lacefield · Answer 1 · 13 мая 2019

Не могли бы вы опубликовать вывод оператора .profile?

Семантически, похоже, что вы пытаетесь найти всех "людей" в возрасте до 25 лет, у которых более 1 опубликованного вопроса. Это точно?

DSE: время ожидания запроса / медленное

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

DSE: время ожидания запроса / медленное

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы