Question

У меня есть папка с 590,035 json файлами. Каждый файл - это документ, который необходимо проиндексировать. Если я индексирую каждый документ, используя python, то это занимает более 30 часов Как быстро проиндексировать эти документы?

Примечание - я видел массовый API, но для этого требуется объединить все файлы в один, что занимает примерно столько же времени, как указано выше. Подскажите пожалуйста, как улучшить скорость. Спасибо.

Slam · Answer 1 · 17 января 2019

Если вы уверены, что ввод-вывод является вашим узким местом, используйте потоки для чтения файлов, т. Е. С ThreadPoolExecutor, и либо накапливайте их для массового запроса, либо сохраняйте по одному. У ES не будет никаких проблем, пока вы не используете ни уникальные, ни внутренние идентификаторы.

Bulk будет работать быстрее, просто сэкономив ваше время на издержках HTTP, а сохранение 1 на 1 немного проще для кодирования.

Индексные файлы json навалом эластичный поиск 5.6

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Индексные файлы json навалом эластичный поиск 5.6

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы