написал код в Java для NUTCH - PullRequest
       16

написал код в Java для NUTCH

0 голосов
/ 10 апреля 2011

привет: я пишу код на языке Java для Nutch (поисковая система с открытым исходным кодом), чтобы удалить движения из арабских слов в индексаторе.Я не знаю, что в этом ошибка.Это код:

package com.mycompany.nutch.indexing;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.Text;
import org.apache.log4j.Logger;
import org.apache.nutch.crawl.CrawlDatum;
import org.apache.nutch.crawl.Inlinks;
import org.apache.nutch.indexer.IndexingException;
import org.apache.nutch.indexer.IndexingFilter;
import org.apache.nutch.indexer.NutchDocument;
import org.apache.nutch.parse.getData().parse.getData();


public class InvalidUrlIndexFilter implements IndexingFilter {

  private static final Logger LOGGER = 
    Logger.getLogger(InvalidUrlIndexFilter.class);

  private Configuration conf;

  public void addIndexBackendOptions(Configuration conf) {
    // NOOP
    return;
  }

  public NutchDocument filter(NutchDocument doc, Parse parse, Text url,
      CrawlDatum datum, Inlinks inlinks) throws IndexingException {
    if (url == null) {
      return null;
    }



    char[] parse.getData() = input.trim().toCharArray();
        for(int p=0;p<parse.getData().length;p++)
          if(!(parse.getData()[p]=='َ'||parse.getData()[p]=='ً'||parse.getData()[p]=='ُ'||parse.getData()[p]=='ِ'||parse.getData()[p]=='ٍ'||parse.getData()[p]=='ٌ' ||parse.getData()[p]=='ّ'||parse.getData()[p]=='ْ' ||parse.getData()[p]=='"' ))
            new String.append(parse.getData()[p]);

    return doc;
  }

  public Configuration getConf() {
    return conf;
  }

  public void setConf(Configuration conf) {
    this.conf = conf;
  }
}

Я думаю, что ошибка в использовании parse.getdata(), но я не знаю, что мне следует использовать вместо него?

1 Ответ

1 голос
/ 10 апреля 2011

Строка

char[] parse.getData() = input.trim().toCharArray();

выдаст ошибку компиляции, поскольку левая часть не является переменной.Замените parse.getData() уникальным именем переменной (например, parsedData) в этой строке и следующих строках.

Во-вторых, импорт

import org.apache.nutch.parse.getData().parse.getData();

также не удастся.Очень похоже на проблему с заменой текста.

...