Является ли AWS Cloudsearch масштабируемым? - PullRequest
0 голосов
/ 15 января 2019

У меня есть данные объемом 500 МБ для поиска в облаке.

Вот варианты, которые я пробовал:

Загрузка напрямую с консоли:

Попытка выгрузить файл, ограничение 5 МБ.

Затем загрузил файл на S3 и выбрал опцию S3,

Загрузить на S3 и дать S3 url в консоли :

Сбой и просит попробовать командную строку.

Пробовал с командной строкой

aws cloudsearchdomain загрузите документы --endpoint-url http://endpoint --контентное приложение / json --documents s3: //bucket/cs.json

Error parsing parameter '--documents': Blob values must be a path to a file.

ОК, скопировал файл с s3 на локальный и попытался загрузить,

Пробовал с локальным файлом и кли:

aws cloudsearchdomain загрузите документы --endpoint-url http://endpoint --контентное приложение / json --documents ./cs.json

Соединение было закрыто до того, как мы получили действительный ответ от URL-адреса конечной точки: "http://endpoint/2013-01-01/documents/batch?format=sdk".

В любом случае, чтобы CloudSearch заработал?

1 Ответ

0 голосов
/ 15 января 2019

Как я понимаю вопрос, речь идет не о масштабируемости Cloudsearch согласно заголовку вопроса, а об ограничениях загрузки и о том, как загрузить большой файл в Amazon Cloudsearch.

Лучшим и оптимальным решением было бы загрузить данные, разделив их на части. Разбейте документ на пакеты и загрузите данные партиями. (Но имейте в виду ограничения, связанные с)

Преимущество этого заключается в том, что если у вас есть несколько документов для отправки, отправляйте их все в одном вызове, а не всегда отправляйте пакеты размером 1. AWS рекомендует группировать (до 5 МБ) и отправлять в одном вызове. Я думаю, что каждая 1000 пакетных звонков обойдется вам в $ 0,10, поэтому группировка также сэкономит вам немного денег.

Это сработало для меня. Ниже приведены несколько рекомендаций, которые помогут лучше решить проблему.


Правила , которым необходимо следовать при загрузке данных в Amazon Cloudsearch.

  1. Группируйте документы в пакеты перед их загрузкой. Постоянная загрузка пакетов, состоящих только из одного документа, оказывает огромное негативное влияние на скорость, с которой Amazon CloudSearch может обрабатывать ваши обновления. Вместо этого создайте пакеты, максимально приближенные к пределу, и загружайте их реже. (Пределы объяснены ниже)

  2. Чтобы загрузить данные в свой домен, они должны быть отформатированы как действительные JSON или XML пакет


Теперь позвольте мне объяснить ограничения, связанные с поиском в Amazon Cloud , связанные с загрузкой файлов.

1) Размер партии:

Максимальный размер пакета составляет 5 МБ

2) Размер документа

Максимальный размер документа 1 МБ

3) Поля документа

Документы могут содержать не более 200 полей

4) Объем загрузки данных

Вы можете загружать один пакет документов каждые 10 секунд (примерно 10 000 пакетами каждые 24 часа), размер каждой партии до 5 МБ.

Но если вы хотите увеличить лимиты, вы можете связаться с Amazon CloudSearch. На данный момент Amazon не позволяет увеличивать ограничения по размеру загрузки.

Вы можете подать запрос, если вам нужно увеличить максимальное количество разделы для поискового домена . Для информации об увеличении других ограничения, такие как максимальное количество поисковых доменов, связаться с Amazon CloudSearch .

...