Я использую пакет CleanNLP в R, и у меня есть две аннотации - первая (x
) представляет один документ, а вторая (y
) представляет первые 1000 строк ряда документов, считанных в r ( используя read_dir
) в качестве отдельного кадра данных. Документ под аннотацией x
является одним из документов в каталоге за аннотацией y
.
Я пытаюсь использовать распознавание именованных объектов для извлечения списка мест и имен из двух аннотаций. При проверке таблицы сущностей за каждой аннотацией (x$entity
и т. Д.) Таблица аннотации y
указывается как пустая - No data available in table
. Эквивалентная таблица для аннотации x
заполнена, как я и ожидал.
Обе аннотации были прочитаны в r и преобразованы в аннотации с использованием одних и тех же методов:
text_y <- read_dir("N:/data/All")
y_df <- tibble(line = 1:1000, text = text_y$content[1:1000])
y <- cnlp_annotate(y_df, as_strings = TRUE)
text_x <- read_docx("N:/data/All/file1.docx")
x_df <-tibble(line = 1:nrow(text_x),text = x)
x <- cnlp_annotate(x_df, as_strings = TRUE)
Будем весьма благодарны за любые советы относительно того, почему одна таблица сущностей пуста, а другая содержит распознанные сущности.