Question

Допустим, у меня есть этот список слов:

 String[] stopWords = new String[]{"i","a","and","about","an","are","as","at","be","by","com","for","from","how","in","is","it","not","of","on","or","that","the","this","to","was","what","when","where","who","will","with","the","www"};

Чем у меня есть текст

 String text = "I would like to do a nice novel about nature AND people"

Есть ли метод, который соответствует stopWords и удаляет их, игнорируя регистр; как это где-то там?:

 String noStopWordsText = remove(text, stopWords);

Результат:

 " would like do nice novel nature people"

Если вы знаете о регулярных выражениях, то они отлично работают, но я бы действительно предпочел что-то вроде общего решения, ориентированного на производительность.

Кстати, сейчас я использую этот метод общего доступа, в котором отсутствует должная нечувствительная обработка регистра:

 private static final String[] stopWords = new String[]{"i", "a", "and", "about", "an", "are", "as", "at", "be", "by", "com", "for", "from", "how", "in", "is", "it", "not", "of", "on", "or", "that", "the", "this", "to", "was", "what", "when", "where", "who", "will", "with", "the", "www", "I", "A", "AND", "ABOUT", "AN", "ARE", "AS", "AT", "BE", "BY", "COM", "FOR", "FROM", "HOW", "IN", "IS", "IT", "NOT", "OF", "ON", "OR", "THAT", "THE", "THIS", "TO", "WAS", "WHAT", "WHEN", "WHERE", "WHO", "WILL", "WITH", "THE", "WWW"};
 private static final String[] blanksForStopWords = new String[]{"", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", ""};

 noStopWordsText = StringUtils.replaceEach(text, stopWords, blanksForStopWords);

Theo · Answer 1 · 22 января 2011

Создайте регулярное выражение с вашими стоп-словами, сделайте его нечувствительным к регистру, а затем используйте метод replaceAll совпадения для замены всех совпадений пустой строкой

import java.util.regex.*;

Pattern stopWords = Pattern.compile("\\b(?:i|a|and|about|an|are|...)\\b\\s*", Pattern.CASE_INSENSITIVE);
Matcher matcher = stopWords.matcher("I would like to do a nice novel about nature AND people");
String clean = matcher.replaceAll("");

... в шаблоне - просто я ленив, продолжаю список стоп-слов.

Другой метод - перебрать все стоп-слова и использовать метод String replaceAll. Проблема этого подхода в том, что replaceAll будет компилировать новое регулярное выражение для каждого вызова, поэтому его использование в циклах не очень эффективно. Кроме того, вы не можете передать флаг, который делает регистр нечувствительным к регистру, когда вы используете String s replaceAll.

Редактировать: я добавил \b вокруг шаблона, чтобы он соответствовал только целым словам. Я также добавил \s*, чтобы после этого загромождать все пробелы, возможно, в этом нет необходимости.

Jigar Joshi · Answer 2 · 22 января 2011

Вы можете создать выражение reg, чтобы оно соответствовало всем стопам слов [например a, пробел здесь] и заканчивалось

str.replaceAll(regexpression,"");

OR

 String[] stopWords = new String[]{" i ", " a ", " and ", " about ", " an ", " are ", " as ", " at ", " be ", " by ", " com ", " for ", " from ", " how ", " in ", " is ", " it ", " not ", " of ", " on ", " or ", " that ", " the ", " this ", " to ", " was ", " what ", " when ", " where ", " who ", " will ", " with ", " the ", " www "};
        String text = " I would like to do a nice novel about nature AND people ";

        for (String stopword : stopWords) {
            text = text.replaceAll("(?i)"+stopword, " ");
        }
        System.out.println(text);

выход:

 would like do nice novel nature people

IdeOneDemo

Возможно, есть лучший способ.

Theo · Answer 3 · 22 января 2011

Это решение, которое не использует регулярные выражения.Я думаю, что он уступает моему другому ответу, потому что он намного длиннее и менее ясен, но если производительность действительно, очень важна, то это O (n) , где n - длинатекст.

Set<String> stopWords = new HashSet<String>();
stopWords.add("a");
stopWords.add("and");
// and so on ...

String sampleText = "I would like to do a nice novel about nature AND people";
StringBuffer clean = new StringBuffer();
int index = 0;

while (index < sampleText.length) {
  // the only word delimiter supported is space, if you want other
  // delimiters you have to do a series of indexOf calls and see which
  // one gives the smallest index, or use regex
  int nextIndex = sampleText.indexOf(" ", index);
  if (nextIndex == -1) {
    nextIndex = sampleText.length - 1;
  }
  String word = sampleText.substring(index, nextIndex);
  if (!stopWords.contains(word.toLowerCase())) {
    clean.append(word);
    if (nextIndex < sampleText.length) {
      // this adds the word delimiter, e.g. the following space
      clean.append(sampleText.substring(nextIndex, nextIndex + 1)); 
    }
  }
  index = nextIndex + 1;
}

System.out.println("Stop words removed: " + clean.toString());

fastcodejava · Answer 4 · 22 января 2011

Разделить text в то время как пространство. Затем переберите массив и продолжайте добавлять к StringBuilder, только если это не одно из стоп-слов.

Удаление строк из другой строки в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удаление строк из другой строки в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов