У меня дикий и безумный текстовый файл, заголовок которого выглядит так:
2016-07-01 02:50:35 <name redacted> hey
2016-07-01 02:51:26 <name redacted> waiting for plane to Edinburgh
2016-07-01 02:51:45 <name redacted> thinking about my boo
2016-07-01 02:52:07 <name reda> nothing crappy has happened, not really
2016-07-01 02:52:20 <name redac> plane went by pretty fast, didn't sleep
2016-07-01 02:54:08 <name r> no idea what time it is or where I am really
2016-07-01 02:54:17 <name redacted> just know it's london
2016-07-01 02:56:44 <name redacted> you are probably asleep
2016-07-01 02:58:45 <name redacted> I hope fish was fishy in a good eay
2016-07-01 02:58:56 <name redacted> ?
2016-07-01 02:59:34 <name redacted> ???
2016-07-01 03:02:48 <name > British security is a little more rigorous...
Это продолжается некоторое время. Это большой файл. Но я чувствую, что будет трудно комментировать библиотеку coreNLP или пакет. Я делаю обработку естественного языка. Другими словами, мне любопытно, как бы сбрить, скажем, хотя бы даты, если не даты и имена.
Но я думаю, что мне понадобятся имена, потому что, в конце концов, я бы хотел быть похожим, этот человек сказал это 50 раз, тогда как этот человек сказал это 75 раз, и так далее, но это становится немного впереди меня, наверное.
Требуется ли регулярное выражение? Я работаю в Р.
Я еще ничего не пробовал, так как не знаю с чего начать. Как бы я написал код на R, который будет выборочно читать только для текста? содержательно составленные фразы и предложения?