Вы правы, что вам понадобится дополнительная библиотека для хранения данных в elasti c. go -колли выполняет только часть работы по очистке. В зависимости от вашей стратегии парсинга вам нужно будет написать код для сохранения результатов парсинга в индексы.
Как правило, вы хотите использовать такую библиотеку, как Olivere / elasti c, подключитесь к elasti c и инициализируйте index. Тогда вы, вероятно, захотите иметь функцию, которая будет хранить структурированные данные в этом индексе и вызывать эту функцию из соответствующего обратного вызова go -colly (например, c.OnHTML()
), когда у вас есть все данные, которые вы хотите сохранить (что на самом деле не ясно из предоставленного фрагмента кода). Чтобы узнать больше о том, как использовать Olivere / elasti c (обратите внимание, что версия 7 содержит критические изменения API, поэтому некоторые руководства для более старых версий могут не работать) см. godo c.
В зависимости от конкретного варианта использования необходимо принять множество решений (например, решить, как данные будут структурированы в индексах, когда данные должны быть отправлены в elasti c - что означает, какой обратный вызов go -colly использовать для этого, как вы хотите обновить sh страницы, которые уже находятся в индексе, и т. д. c.).
Что касается фреймворков, я не знаю ничего, что могло бы иметь конечный конвейер от очистки до хранения в эластичном c.