Удаление твита / строки, если она содержит неанглийское слово - PullRequest
0 голосов
/ 10 июня 2018

Я хочу удалить весь твит или строку из фрейма данных, если он содержит любое неанглийское слово.Мой фрейм данных выглядит как

     text
1  | morning why didnt i go to sleep earlier oh well im seEING DNP TODAY!!  
     JIP UHH <f0><U+009F><U+0092><U+0096><f0><U+009F><U+0092><U+0096>

2  | @natefrancis00 @SimplyAJ10 <f0><U+009F><U+0098><U+0086><f0><U+009F 
     <U+0086> if only Alan had a Twitter hahaha

3  | @pchirsch23 @The_0nceler @livetennis Whoa whoa let’s not take this too 
     far now
4  | @pchirsch23 @The_0nceler @livetennis Well Pat that’s just not true
5  | One word #Shame on you! #Ji allowing looters to become president

Ожидаемый фрейм данных должен быть таким:

 text
3  | @pchirsch23 @The_0nceler @livetennis Whoa whoa let’s not take this too 
     far now
4  | @pchirsch23 @The_0nceler @livetennis Well Pat that’s just not true
5  | One word #Shame on you! #Ji allowing looters to become president.

1 Ответ

0 голосов
/ 11 июня 2018

Вы хотите сохранить буквенно-цифровые символы вместе с некоторыми пунктуациями, такими как @ , ! и т. Д.
Если ваш столбец содержит в основном<unicode>, тогда это должно сделать:

Для фрейма данных df со столбцом text, используя grep:

new_str <- grep(df_str$text, pattern = "<*>", value= TRUE , invert = TRUE )
new_str[new_str != ""]

Чтобы вернуть его в исходный столбец text.Вы можете просто работать с нужными индексами и устанавливать другие значения на NA:

idx <-  grep(df$text, pattern = "<*>", invert = TRUE )
df$text[-idx] <- NA 

. Для очистки твита вы можете использовать функцию gsub.см. этот пост чистящий твит в R

...