Нет данных в таблице сущностей CleanNLP - PullRequest
0 голосов
/ 18 июня 2019

Я использую пакет CleanNLP в R, и у меня есть две аннотации - первая (x) представляет один документ, а вторая (y) представляет первые 1000 строк ряда документов, считанных в r ( используя read_dir) в качестве отдельного кадра данных. Документ под аннотацией x является одним из документов в каталоге за аннотацией y.

Я пытаюсь использовать распознавание именованных объектов для извлечения списка мест и имен из двух аннотаций. При проверке таблицы сущностей за каждой аннотацией (x$entity и т. Д.) Таблица аннотации y указывается как пустая - No data available in table. Эквивалентная таблица для аннотации x заполнена, как я и ожидал.

Обе аннотации были прочитаны в r и преобразованы в аннотации с использованием одних и тех же методов:

text_y <- read_dir("N:/data/All")
y_df <- tibble(line = 1:1000, text = text_y$content[1:1000])
y <- cnlp_annotate(y_df, as_strings = TRUE)

text_x <- read_docx("N:/data/All/file1.docx")
x_df <-tibble(line = 1:nrow(text_x),text = x)
x <- cnlp_annotate(x_df, as_strings = TRUE)

Будем весьма благодарны за любые советы относительно того, почему одна таблица сущностей пуста, а другая содержит распознанные сущности.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...