Как разобрать / распаковать / распаковать индексы репозитория Maven, сгенерированные Nexus - PullRequest
10 голосов
/ 25 апреля 2011

Я скачал индексы, созданные для Maven Central из http://mirrors.ibiblio.org/pub/mirrors/maven2/dot-index/nexus-maven-repository-index.gz

Я хотел бы перечислить информацию об артефактах из этих файлов индекса (например, groupId, artifactId, версия).Я читал, что для этого есть API высокого уровня.Кажется, что я должен использовать следующую Maven зависимость.Однако я не знаю, какую точку входа использовать (какой класс?) И как использовать ее для доступа к этим файлам:


Ответы [ 3 ]

8 голосов
/ 26 апреля 2011

Взгляните на https://github.com/cstamas/maven-indexer-examples проект.

Вкратце: вам не нужно загружать GZ / ZIP (новый / устаревший формат) вручную, он позаботится об этом для индексатора.вы (более того, он также будет обрабатывать инкрементные обновления, если это возможно).

GZ - это «новый» формат, независимый от индекса-формата Lucene (следовательно, независимый от версии Lucene), содержащий только данные, в то время какZIP является «старым» форматом, который на самом деле является простым индексом Lucene 2.4.x.В настоящее время изменения содержимого данных не происходит, но планируется в будущем.

Как я уже сказал, между двумя нет разницы в содержании данных, но некоторые поля (как вы заметили) проиндексированы, но не сохранены в индексе, следовательно,если вы используете формат ZIP, вы будете иметь их для поиска, но не для поиска.

7 голосов
/ 22 января 2015

https://github.com/cstamas/maven-indexer-examples устарел. И сборка не проходит (тесты не проходят).

Nexus Indexer продвинулся вперед и включил также примеры: https://github.com/apache/maven-indexer/tree/master/indexer-examples

Это строит, и код работает.

Вот упрощенная версия, если вы хотите свернуть свою собственную:



    <!-- For ResourceFetcher implementation, if used -->

    <!-- Runtime: DI, but using Plexus Shim as we use Wagon -->


public IndexToGavMappingConverter(File dataDir, String id, String url)
    throws PlexusContainerException, ComponentLookupException, IOException
    this.dataDir = dataDir;

    // Create Plexus container, the Maven default IoC container.
    final DefaultContainerConfiguration config = new DefaultContainerConfiguration();
    config.setClassPathScanning( PlexusConstants.SCANNING_INDEX );
    this.plexusContainer = new DefaultPlexusContainer(config);

    // Lookup the indexer components from plexus.
    this.indexer = plexusContainer.lookup( Indexer.class );
    this.indexUpdater = plexusContainer.lookup( IndexUpdater.class );
    // Lookup wagon used to remotely fetch index.
    this.httpWagon = plexusContainer.lookup( Wagon.class, "http" );

    // Files where local cache is (if any) and Lucene Index should be located
    this.centralLocalCache = new File( this.dataDir, id + "-cache" );
    this.centralIndexDir = new File( this.dataDir,   id + "-index" );

    // Creators we want to use (search for fields it defines).
    // See https://maven.apache.org/maven-indexer/indexer-core/apidocs/index.html?constant-values.html
    List<IndexCreator> indexers = new ArrayList();
    // https://maven.apache.org/maven-indexer/apidocs/org/apache/maven/index/creator/MinimalArtifactInfoIndexCreator.html
    indexers.add( plexusContainer.lookup( IndexCreator.class, "min" ) );
    // https://maven.apache.org/maven-indexer/apidocs/org/apache/maven/index/creator/JarFileContentsIndexCreator.html
    //indexers.add( plexusContainer.lookup( IndexCreator.class, "jarContent" ) );
    // https://maven.apache.org/maven-indexer/apidocs/org/apache/maven/index/creator/MavenPluginArtifactInfoIndexCreator.html
    //indexers.add( plexusContainer.lookup( IndexCreator.class, "maven-plugin" ) );

    // Create context for central repository index.
    this.centralContext = this.indexer.createIndexingContext(
            id + "Context", id, this.centralLocalCache, this.centralIndexDir,
            url, null, true, true, indexers );

    final IndexSearcher searcher = this.centralContext.acquireIndexSearcher();
        final IndexReader ir = searcher.getIndexReader();
        Bits liveDocs = MultiFields.getLiveDocs(ir);
        for ( int i = 0; i < ir.maxDoc(); i++ )
            if ( liveDocs == null || liveDocs.get( i ) )
                final Document doc = ir.document( i );
                final ArtifactInfo ai = IndexUtils.constructArtifactInfo( doc, this.centralContext );

                if (ai == null)
                if (ai.getSha1() == null)
                if (ai.getSha1().length() != 40)
                if ("javadoc".equals(ai.getClassifier()))
                if ("sources".equals(ai.getClassifier()))

                out.append(StringUtils.lowerCase(ai.getSha1())).append(' ');
        this.centralContext.releaseIndexSearcher( searcher );

Мы используем это в проекте Windup - инструмент миграции JBoss .

2 голосов
/ 25 апреля 2011

Устаревший почтовый индекс - это простой индекс люцена.Мне удалось открыть его с помощью Luke и написать простой код lucene для удаления интересующих заголовков (в данном случае "u")

import org.apache.lucene.document.Document;
import org.apache.lucene.search.IndexSearcher;

public class Dumper {
    public static void main(String[] args) throws Exception {
        IndexSearcher searcher = new IndexSearcher("c:/PROJECTS/Test/index");
        for (int i = 0; i < searcher.maxDoc(); i++) {
            Document doc = searcher.doc(i);
            String metadata = doc.get("u");
            if (metadata != null) {

Пример вывода ...


Хотя, возможно, есть лучшие способы добиться этого ...
