«Есть ли функция R (text-analysis) для пометки предмета слова (например, существительное, прил.)?» - PullRequest
0 голосов
/ 23 декабря 2018

Я занимаюсь анализом настроений.Тем не менее, я столкнулся с проблемой, когда я использовал анализ текста с английскими статьями.Я хочу спросить, есть ли какая-либо функция, похожая на функцию "worker (type = 'tag')" пакета Jieba, но она используется в пакете для анализа текста на английском языке (например, tidytext)?

Inследующее, это часть моего кода.Этот код используется для китайского майнинга текста.Тем не менее, я хочу сделать английский текстовый майнинг аналогичным образом.Какую функцию я могу использовать для замены функции работника (type = "tag")

library(jiebaRD)
library(jiebaR)
library(dplyr)
jieba <- worker(type="tag",user="C:/Users/User/Desktop/dict/bbb.txt",symbol = TRUE)

ecal<-function(str){
  result <- jieba <= str    
  winfront <- 1L 
  count <- 1  
  winvalue <- c()  
  posvalue <- c()  
  negvalue <-c ()  
  pvalue <- 0L     
  nvalue <- 0L    
  ppcount <- 1
  nncount <- 1
  rheflag <- FALSE
  for (i in 1:length(result)){
    if(names(result[i])=="positive"){      
      #cat("find positive word:",result[i],"\n")      
      if(i==1)
        winvalue[count] <- 1
      else{
        winvalue[count] <- 1
        for (j in (i-1):winfront) {
          if(!is.na((as.numeric(names(result[j])))))
            winvalue[count] = winvalue[count]*as.numeric(names(result[j]))
          else if(names(result[j])=="deny")
            winvalue[count] = winvalue[count]*(-1)
          else if(names(result[j])=="rhe")
            rheflag <- TRUE
        }
      }
      #cat("the value of window is:",winvalue[count],"\n")      
      count = count+1
      winfront <- i+1
    }

1 Ответ

0 голосов
/ 02 января 2019

Вы можете сделать следующее:

library(udpipe)
x <- udpipe("我拜訪了我在香港的朋友", "chinese")

Обратите внимание, что если у вас уже есть токенизатор на китайском языке (например, Jieba), вы также можете использовать udpipe для обогащения ваших токенизированных данных с помощью тегов pos - см. Раздел 'Мои текстовые данные уже размечены в https://cran.r -project.org / web / packages / udpipe / vignettes / udpipe-annotation.html # annotate_your_text

Статистика точности для построения модели наЗдесь сообщается о китайском GSD из универсальных зависимостей: https://github.com/jwijffels/udpipe.models.ud.2.3/blob/master/inst/udpipe-ud-2.3-181115/README Токенизация неоптимальна, но pos-тегирование с учетом золотого токенизации довольно хорошо с точки зрения точности.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...