Какое было бы лучшее регулярное выражение для токенизации английского текста?
Под английским токеном я подразумеваю атом, состоящий из максимального количества символов, которые могут быть осмысленно использованы для целей НЛП. Аналогия - это «токен» в любом языке программирования (например, в Си, «{», «[», «привет», «&» и т. Д. Могут быть токенами). Есть одно ограничение: хотя английские знаки препинания могут быть «значимыми», давайте просто проигнорируем их ради простоты, когда они не появляются в середине \ w +. Итак, «Привет, мир». дает «привет» и «мир»; Точно так же: «Вы хорошо выглядите». может принести либо [вы, хорошо, хорошо выглядеть] или [вы, хорошо, хорошо выглядеть].