Индексные файлы json навалом эластичный поиск 5.6 - PullRequest
0 голосов
/ 17 января 2019

У меня есть папка с 590,035 json файлами. Каждый файл - это документ, который необходимо проиндексировать. Если я индексирую каждый документ, используя python, то это занимает более 30 часов Как быстро проиндексировать эти документы?

Примечание - я видел массовый API, но для этого требуется объединить все файлы в один, что занимает примерно столько же времени, как указано выше. Подскажите пожалуйста, как улучшить скорость. Спасибо.

1 Ответ

0 голосов
/ 17 января 2019

Если вы уверены, что ввод-вывод является вашим узким местом, используйте потоки для чтения файлов, т. Е. С ThreadPoolExecutor, и либо накапливайте их для массового запроса, либо сохраняйте по одному. У ES не будет никаких проблем, пока вы не используете ни уникальные, ни внутренние идентификаторы.

Bulk будет работать быстрее, просто сэкономив ваше время на издержках HTTP, а сохранение 1 на 1 немного проще для кодирования.

...