Как разрешить проверять более двух слов в этом Java-коде - PullRequest
1 голос
/ 10 января 2011

Мне нужно изменить этот сценарий, чтобы можно было проверить более двух слов, и мои знания Java слишком ограничены, чтобы вносить изменения самостоятельно.Этот сценарий является частью средства проверки грамматики с открытым исходным кодом для OpenOffice (LanguageTool), и целью сценариев является замена определенных слов другими словами.

Файл проверяемых слов называется «coherency.txt», и онформат выглядит следующим образом: WrongWord1 = CorrectWord1 WrongWord2 = CorrectWord2

И когда я набираю: WrongWord1, он помечается сценарием и говорит мне, что вместо этого следует использовать CorrectWord1.

Но мне нужно уметьиметь три или более слов, например: WrongWord1 = WrongWord2 = CorrectWord1 WrongWord3 = WrongWord4 = WrongWord5 = CorrectWord2 WrongWord6 = CorrectWord3

Так что, когда я набираю WrongWord3, он помечается и сценарий говорит мне, что я должен использовать ИЛИ CorrectWord2когда я набираю WrongWord2, он также помечается, и скрипт говорит мне, что я должен использовать CorrectWord1

Если вы можете мне помочь, я могу разместить ссылку на вашу веб-страницу по адресу http://www.sbbic.org/lang/en-us/volunteer/

Любая помощь, которую вы можете оказатьо том, как изменить этот код, чтобы можно было сравнивать более двух слов, заменяяочень ценится!Спасибо, Натан

    /* LanguageTool, a natural language style checker 
 * Copyright (C) 2005 Daniel Naber (http://www.danielnaber.de)
 * 
 * This library is free software; you can redistribute it and/or
 * modify it under the terms of the GNU Lesser General Public
 * License as published by the Free Software Foundation; either
 * version 2.1 of the License, or (at your option) any later version.
 *
 * This library is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 * Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with this library; if not, write to the Free Software
 * Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301
 * USA
 */
package de.danielnaber.languagetool.rules;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Locale;
import java.util.Map;
import java.util.ResourceBundle;

import de.danielnaber.languagetool.AnalyzedSentence;
import de.danielnaber.languagetool.AnalyzedTokenReadings;
import de.danielnaber.languagetool.JLanguageTool;
import de.danielnaber.languagetool.tools.StringTools;

/**
 * A Khmer rule that matches words or phrases which should not be used and suggests
 * correct ones instead. Loads the relevant words  from 
 * <code>rules/km/coherency.txt</code>, where km is a code of the language.
 * 
 * @author Andriy Rysin
 */
public abstract class KhmerWordCoherencyRule extends KhmerRule {

  private Map<String, String> wrongWords; // e.g. "вреѿті реѿт" -> "зреѿтою"

  private static final String FILE_NAME = "/km/coherency.txt";

  public abstract String getFileName();

  private static final String FILE_ENCODING = "utf-8";

  public String getEncoding() {
    return FILE_ENCODING;
  }

  /**
   * Indicates if the rule is case-sensitive. Default value is <code>true</code>.
   * @return true if the rule is case-sensitive, false otherwise.
   */
  public boolean isCaseSensitive() {
    return false;  
  }

  /**
   * @return the locale used for case conversion when {@link #isCaseSensitive()} is set to <code>false</code>.
   */
  public Locale getLocale() {
    return Locale.getDefault();
  }  

  public KhmerWordCoherencyRule(final ResourceBundle messages) throws IOException {
    if (messages != null) {
      super.setCategory(new Category(messages.getString("category_misc")));
    }
    wrongWords = loadWords(JLanguageTool.getDataBroker().getFromRulesDirAsStream(getFileName()));
  }

  public String getId() {
    return "KM_WORD_COHERENCY";
  }

  public String getDescription() {
    return "Checks for wrong words/phrases";
  }

  public String getSuggestion() {
    return " is not valid, use ";
  }

  public String getShort() {
    return "Wrong word";
  }

  public final RuleMatch[] match(final AnalyzedSentence text) {
    final List<RuleMatch> ruleMatches = new ArrayList<RuleMatch>();
    final AnalyzedTokenReadings[] tokens = text.getTokensWithoutWhitespace();

    for (int i = 1; i < tokens.length; i++) {
      final String token = tokens[i].getToken();

      final String origToken = token;
      final String replacement = isCaseSensitive()?wrongWords.get(token):wrongWords.get(token.toLowerCase(getLocale()));
      if (replacement != null) {
        final String msg = token + getSuggestion() + replacement;
        final int pos = tokens[i].getStartPos();
        final RuleMatch potentialRuleMatch = new RuleMatch(this, pos, pos
            + origToken.length(), msg, getShort());
        if (!isCaseSensitive() && StringTools.startsWithUppercase(token)) {
          potentialRuleMatch.setSuggestedReplacement(StringTools.uppercaseFirstChar(replacement));
        } else {
          potentialRuleMatch.setSuggestedReplacement(replacement);
        }
        ruleMatches.add(potentialRuleMatch);
      }
    }
    return toRuleMatchArray(ruleMatches);
  }


  private Map<String, String> loadWords(final InputStream file) throws IOException {
    final Map<String, String> map = new HashMap<String, String>();
    InputStreamReader isr = null;
    BufferedReader br = null;
    try {
      isr = new InputStreamReader(file, getEncoding());
      br = new BufferedReader(isr);
      String line;

      while ((line = br.readLine()) != null) {
        line = line.trim();
        if (line.length() < 1) {
          continue;
        }
        if (line.charAt(0) == '#') { // ignore comments
          continue;
        }
        final String[] parts = line.split("=");
        if (parts.length != 2) {
          throw new IOException("Format error in file "
              + JLanguageTool.getDataBroker().getFromRulesDirAsUrl(getFileName()) + ", line: " + line);
        }
        map.put(parts[0], parts[1]);
      }

    } finally {
      if (br != null) {
        br.close();
      }
      if (isr != null) {
        isr.close();
      }
    }
    return map;
  }

  public void reset() {
  }  

}

Ответы [ 3 ]

1 голос
/ 10 января 2011

То, что вы должны изменить, это часть в loadWords:

final String[] parts = line.split("=");
if (parts.length != 2) {
    throw new IOException("Format error in file " + JLanguageTool.getDataBroker().getFromRulesDirAsUrl(getFileName()) + ", line: " + line);
}
map.put(parts[0], parts[1]);

Этот элемент помещает левую часть равенства в качестве ключа и правую часть в качестве значения на карту. Поэтому я думаю, что левая часть должна быть неправильным словом. Поэтому ваш ввод должен быть неправильный1 = неправильный2 = ... = правильный .

С помощью этого параметра вы можете просто изменить его на следующий

final String[] parts = line.split("=");
if (parts.length < 2) {
    throw new IOException("Format error in file " + JLanguageTool.getDataBroker().getFromRulesDirAsUrl(getFileName()) + ", line: " + line);
}
for (int i = 0; i < parts.length - 1; i++) {
    map.put(parts[i], parts[parts.length - 1]);
}

, который будет производить следующие записи на карте:

wrong1 = correct
wrong2 = correct
wrong3 = correct
...

Возможно, это не самое эффективное решение, но оно должно работать примерно так. С этой картой можно искать неправильные слова, и предложения будут правильными.

(P.S .: Я не смог запустить код, поэтому в нем могут быть ошибки кодирования)

1 голос
/ 10 января 2011

Для небольших приспособлений:

Рассмотрите возможность изменения желаемого формата ввода на

WrongWord = CorrectWord[, CorrectWord]*

Ключом будет неправильное слово, значение которого - список правильных альтернатив через запятую. Таким образом, вы можете сохранить синтаксический анализ файла как есть.

Карта должна иметь тип Map<String, Set<String>> - каждый токен соответствует множеству альтернатив.

Теперь вы можете разбить каждую строку вокруг =, чтобы получить пару ключ / значение, и каждое значение около ,, чтобы получить массив предлагаемых токенов для замены ввода.


Тогда вам понадобятся некоторые изменения в match, чтобы собрать новое сообщение, потому что вы ожидаете более одного предложения сейчас.

Изменить строки после final String origToken = token; на

final String[] replacements = wrongWords.get(token);
  if (replacements != null) {
    final String msg = createMessage(token, replacements);
    final int pos = tokens[i].getStartPos();

и реализовать метод createMessage, чтобы вернуть удобочитаемое сообщение, которое сообщает пользователю о множестве альтернатив для токена.

0 голосов
/ 10 января 2011
import java.util.regex.Matcher;
import java.util.regex.Pattern;




public class Test {

        public static void main(String[] args) {

            String txtFromFile = "Hipopotamus=hIppoPotamus=hiiippotamus Magazine=Mazagine=Masagine";
            String searchWord = "Masagine";
            Pattern searchPattern= Pattern.compile("\\s*(\\w+=)*?("+searchWord+")");
            Matcher m = searchPattern.matcher(txtFromFile);
            String source = "";
            while(m.find()) {
                source = m.group();
                System.out.println("word pairs:"+source);
            }
            System.out.println("correct word:"+source.split("=")[0]);
        }
    }
...