Во-первых, что касается sed
и awk
, я вообще не нуждался в них, поскольку они особенно старой школы.Я часто пишу регулярные выражения на Perl и достигаю того же, с несколько более легкой читабельностью.Я не хочу обсуждать достоинства реализации, но когда я не пишу такие функции в Perl, я нахожу, что gsub
, grep
и связанные с ними инструменты регулярных выражений работают достаточно хорошо в R. Обратите внимание, что они могутпринять perl = TRUE
в качестве аргумента;Я предпочитаю обработку регулярных выражений в Perl.
Что касается гораздо более серьезных пакетов, пакет tm
особенно примечателен.Для получения дополнительной информации о ресурсах обработки естественного языка и интеллектуального анализа текста ознакомьтесь с представлением задач CRAN для NLP .
Кроме того, я думаю, что заголовок вашего вопроса объединяет две концепции.Такие инструменты, как sed & awk, регулярные выражения, токенизация и т. Д., Являются важными элементами в обработке и предварительной обработке текста.Анализ текста является более статистическим и зависит от эффективной предварительной обработки и количественного определения текстовых данных.Хотя это и не упомянуто, два последующих этапа анализа, поиск информации и обработка естественного языка, являются областями исследований и разработки, которые более конкретны в своих целях.Если вы в первую очередь интересуетесь манипулированием текстом, тогда должно хватить различных инструментов для применения регулярных выражений и предварительной обработки / нормализации.Если вы хотите заниматься анализом текста, вам нужно изучить больше статистических функций.Для НЛП тогда потребуются инструменты, которые делают более глубокий анализ.Все доступны изнутри R, но вопрос в том, как далеко вы хотите пройти по этой кроличьей норе?Хотите проглотить красную таблетку?