Индексирование HTML в Elasticsearch через python3 - PullRequest
0 голосов
/ 16 ноября 2018

Я новичок в Elasticsearch.Я должен проиндексировать многие файлы HTML через python3.Я видел много примеров добавления информации в Elasticsearch, но не смог найти ничего подходящего для меня.Могу ли я индексировать файлы HTML без извлечения всей их информации в формате JSON?Я видел несколько примеров индексирования PDF в Elasticsearch через PHP с использованием конвейера, но не смог найти что-то подобное для python.

Ответы [ 2 ]

0 голосов
/ 19 ноября 2018

Вот пример класса, который может быть полезен для вас ..

#ELK credentials
ELK_HOST = "[hostname]"
ELK_USER = "[elastic_user]"
ELK_PASSWORD= "[elastic_password]"

HEADERS = {
    'host' : '[put hostname again if using redirects ;)]',
    'Content-Type' : 'application/json',
}

class ElasticSearch():
    def __init__(self,host,user,password):
        self._host = host
        self._user = user
        self._password = password
        self._auth = (self._user, self._password)

    def update_index(self, index, data):
        endpoint = str(index)+"/doc/"
        uri = self._host +"/"+ endpoint
        _data = data
        _data = python_to_json(_data)
        response = requests.post(uri, headers=HEADERS, auth=self._auth,data=_data)


es = ElasticSeach(ELK_HOST,ELK_USER,ELK_PASSWORD);

#some random data
data = {"test1": 1, "test2" : 2}

#update index (if doesnt exist, it will create a new one)
es.update_index("testindex",data)

надеюсь, это поможет вам!

0 голосов
/ 16 ноября 2018

Что вы подразумеваете под индексом файлов HTML для Elasticsearch? Какую информацию вы хотите отправить в Elasticsearch?

Да, это определенно возможно, но расскажите немного подробнее о том, что вы хотите отправить в Elasticsearch. (полные страницы HTML, только имя, определенная информация из файлов HTML и т. д.)

...