У меня есть файл excel (original_data.xls) с одним столбцом, содержащим данные только на арабском языке. У меня есть другой текстовый файл (Keywords.txt), который содержит некоторые арабские слова. Я хочу извлечь только те строки, которые содержат хотя бы одно слово из файлаwords.txt. Я пробовал readLines () и scan (), но. Было бы довольно легко, если бы оно было на английском, но на арабском. Например, здесь я хочу узнать, существуют ли ключевые слова1 в test_data или нет.
keyword1<- c("الروافض")
test_data <- c("الدولة_الإسلامية لا حول لها ولا قوة إلا بالله وهي مجرد سبب")
Когда я просто использовал grepl напрямую, это работало.
keywords1 <- "الرافض"
test_data <- c("رافضي","رواف","الرافض")
###[1] FALSE FALSE TRUE
EDIT-1
Это то, что я пытался. Но в clean_data2 нет данных.
original_data<-read_excel("original_data.xlsx")
fileName <- "keywords.txt"
conn <- file(fileName,open="r")
linn <-readLines(conn)
for (i in 1:length(linn)){
print(linn[i])
clean_data2 <- clean_data[grep(pattern = paste("\\b", linn[i] , "\\b", sep = ""), x = clean_data$Snippet, fixed = TRUE),]
}
close(conn)