Я знаю, что могу извлечь английские буквы и цифры с помощью регулярного выражения A-Za-z0-9
.
Как я могу извлечь слова из других языков, таких как арабский, и разрешить только буквы и цифры в их алфавите и ничего больше?
Один из способов, которым я воспользовался, - это отфильтровать все, что я не хочу, из текста, а затем у меня остались одни слова, но этот подход занимает много процессорного времени и неэффективен в крупномасштабных приложениях.
Теперь мне было интересно, какие еще методы использовались или кто-то знает, которые можно использовать для анализа текста на других языках.
Как могут быть слова извлечены из таких языков, как китайский, японский и т. Д., Которые даже не используют пробелы между словами? Один из подходов, которые я использовал, чтобы различать слова, состоит в том, чтобы рассматривать стили и разрывы строк как метод, позволяющий понять, что они должны быть разными, но этот подход иногда бывает ненадежным, когда люди не используют много разрывов строк или форматирования для разделения разных слова.
Итак, подведем итог: как можно проанализировать другие языки с помощью регулярных выражений?