Арабский образец соответствия в R - PullRequest
0 голосов
/ 08 мая 2019

У меня есть файл excel (original_data.xls) с одним столбцом, содержащим данные только на арабском языке. У меня есть другой текстовый файл (Keywords.txt), который содержит некоторые арабские слова. Я хочу извлечь только те строки, которые содержат хотя бы одно слово из файлаwords.txt. Я пробовал readLines () и scan (), но. Было бы довольно легко, если бы оно было на английском, но на арабском. Например, здесь я хочу узнать, существуют ли ключевые слова1 в test_data или нет.

keyword1<- c("الروافض")

test_data <- c("الدولة_الإسلامية لا حول لها ولا قوة إلا بالله وهي مجرد سبب")

Когда я просто использовал grepl напрямую, это работало.

keywords1 <- "الرافض"
test_data <- c("رافضي","رواف","الرافض")


###[1] FALSE FALSE  TRUE


EDIT-1 Это то, что я пытался. Но в clean_data2 нет данных.

original_data<-read_excel("original_data.xlsx")

fileName <- "keywords.txt"

conn <- file(fileName,open="r")
linn <-readLines(conn)
for (i in 1:length(linn)){
print(linn[i])
  clean_data2 <- clean_data[grep(pattern = paste("\\b", linn[i] , "\\b", sep = ""), x = clean_data$Snippet, fixed = TRUE),]

}
close(conn)

...