Question

Я хочу удалить все слова, которые являются дубликатами, из файла с помощью регулярных выражений.

Например:

 The university of Hawaii university began using began radio.

Вывод:

 The university of Hawaii began using radio.

Я написалэто регулярное выражение:

 String regex = "\\b(\\p{IsAlphabetic}+)(\\s+\\1\\b)+";

, которое удаляет только слова, идущие подряд после слова.

Например: The university university of Hawaii Hawaii began using radio.

Вывод: The university of Hawaii began using radio.

Мой код с регулярным выражением:

File dir = new File ("C: /Users / Arnoldas / workspace / uplo / ");

            String source = dir.getCanonicalPath() + File.separator + "Output.txt";
            String dest = dir.getCanonicalPath() + File.separator + "Final.txt";

            File fin = new File(source);
            FileInputStream fis = new FileInputStream(fin);
            BufferedReader in = new BufferedReader(new InputStreamReader(fis, "UTF-8"));

            //FileWriter fstream = new FileWriter(dest, true);
            OutputStreamWriter fstream = new OutputStreamWriter(new FileOutputStream(dest, true), "UTF-8");

            BufferedWriter out = new BufferedWriter(fstream);

            String regex = "\\b(\\p{IsAlphabetic}+)(\\s+\\1\\b)+";

            //String regex = "(?i)\\b([a-z]+)\\b(?:\\s+\\1\\b)+";
            Pattern p = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);

            String aLine;
            while ((aLine = in.readLine()) != null) {

                Matcher m = p.matcher(aLine);
                while (m.find()) {
                    aLine = aLine.replaceAll(m.group(), m.group(1));
                }

                //Process each line and add output to *.txt file
                out.write(aLine);
                out.newLine();
                out.flush();
            }

Joop Eggen · Answer 1 · 23 мая 2018

Вы были на правильном пути, но если между повторениями может быть текст, это должно быть выполнено в цикле (для "началось ... началось ... началось").

String s = "The university of Hawaii university began using began radio.";
for (;;) {
    String t = s.replaceAll("(?i)\\b(\\p{IsAlphabetic}+)\\b(.*?)\\s*\\b\\1\\b",
                            "$1$2");
    if (t.equals(s)) {
        break;
    }
    s = t;
}

Для замены без учета регистра: используйте (?i).

Это очень неэффективно, поскольку регулярное выражение должно возвращаться.

Просто бросьте все слова в Set.

// Java 9
Set<String> corpus = Set.of(s.split("\\P{IsAlphabetic}+"));

// Older java:
Set<String> corpus = new TreeSet<>();
Collections.addAll(set, s.split("\\P{IsAlphabetic}+"));

corpus.remove("");

После комментария

Исправление исходного кода
Использование ввода / вывода нового стиляФайлы и путь, но пока нет потоков
Попробуйте с ресурсами для автоматического закрытия и входа

Регулярно выражайте только для поиска слова с необязательным пробелом.Использование набора для проверки дубликатов.

    Path dir = Paths.get("C:/Users/Arnoldas/workspace/uplo");
    Path source = dir.resolve("Output.txt");
    String dest = dir.resolve("Final.txt");

    String regex = "(\\s*)\\b\\(p{IsAlphabetic}+)\\b";
    Pattern p = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);

    try (BufferedReader in = Files.newBufferedReader(source);
            BufferedWriter out = new BufferedWriter(dest)) {
        String line;
        while ((line = in.readLine()) != null) {
            Set<String> words = new HashSet<>();
            Matcher m = p.matcher(line);
            StringBuffer sb = new StringBuffer();
            while (m.find()) {
                boolean added = words.add(m.group(2).toLowerCase());
                m.appendReplacement(sb, added ? m.group() : "");
            }
            m.appendTail(sb);
            out.write(sb.toString());
            out.newLine();
        }
    }

Adya · Answer 2 · 23 мая 2018

Попробуйте это регулярное выражение:

\b(\w+)\s+\1\b
Here \b is a word boundary and \1 references the captured match of the first group.

Источник: Регулярное выражение для последовательных повторяющихся слов

Ralf Renz · Answer 3 · 23 мая 2018

Вместо этого вы можете использовать Streams:

String s = "The university university of Hawaii Hawaii began using radio.";
System.out.println(Arrays.asList(s.split(" ")).stream().distinct().collect(Collectors.joining(" ")));

В этом примере строка разделяется по пробелам, а затем преобразуется в поток.Дубликаты удаляются с помощью different (), и в конце все соединяются вместе с пробелами между.

Но у этого подхода есть проблема с точкой в конце.«радио» и «радио».это разные слова.

Как удалить повторяющиеся слова (слова идут не подряд) в файле с помощью регулярных выражений?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как удалить повторяющиеся слова (слова идут не подряд) в файле с помощью регулярных выражений?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов