Как проиндексировать исходный код с ElasticSearch - PullRequest
14 голосов
/ 17 октября 2011

Мне нужно обеспечить полнотекстовый поиск по исходным файлам javascript и выделить результаты.

Мой вопрос: какая комбинация существующих токенизаторов и анализаторов ElasticSearch была бы для этого наилучшей?

Ответы [ 3 ]

5 голосов
/ 22 октября 2011

Интересный вопрос, но я не знаю о готовом решении. Вы можете использовать токенайзер WordDelimiter, как вы можете указать, например, подчеркивание, которое будет обрабатываться как цифра, а затем функции вроде hello_world (или helloWorld, если camelcase включен) будут доступны для поиска через hello или world.

Но я сомневаюсь, что результатов достаточно ... и вам придется самостоятельно реализовать анализатор исходного кода или использовать код , который извлекает синтаксическое дерево для индексации имен методов и тела в разные поля

1 голос
/ 30 июля 2014

Вы можете использовать плагин типа вложения , чтобы загрузить файлы в Elasticsearch и позволить ему индексировать файлы.Он может обрабатывать метаданные для файлов и индексировать содержимое файлов.

Страница github содержит информацию о том, как выполнять выделение для поисковых документов.

0 голосов
/ 30 июля 2014

Если вы не хотите показывать это как услугу кому-либо, я бы порекомендовал вам установить плагин InstaSearch в eclipse; этот плагин создает индекс Lucense и дает вам мгновенные результаты.

...