Question

Я пытаюсь использовать пакет textcat для анализа n-граммы, который имеет следующую функцию:

textcat(x, p = TC_char_profiles, method = "CT", ..., options = list())

В спецификации функции указано, что

Аргумент x может бытьсимвольный вектор текстов или объект R, который может быть приведен к этому с помощью as.character.

Я не знаю, что означает объект "R", который может быть приведен к этому с помощью as.character" имею в виду?Другими словами, я не совсем понимаю, какой должен быть правильный формат ввода для этого x в соответствии с приведенным выше описанием.Предположим, у меня есть 100 документов.Как перевести эти документы в формат х?

mdsumner · Answer 1 · 01 апреля 2012

У вас действительно есть два вопроса здесь.

(1).Что означает «объект R, который может быть приведен к этому с помощью as.character»?

Это означает, что другие классы объекта R могут быть переданы вместо одного, который является просто character.Примером является фактор, где as.character(x) отбросит дополнительные предоставляемые функции и вернется к простому символьному вектору.

as.character (1: 2) ## даст вектор c ("1", "2")

Это распространяется на другие производные классы, и это стандартная идиома R дляпредоставить метод для общих функций, таких как as.character, которые определяют приведение от любого данного класса к символу.

(2).В каком формате мои данные должны вводиться в textcat?

Короче говоря, это должен быть символьный вектор или что-то, что может быть приведено к одному .Вы спрашиваете о документах, поэтому предположительно у вас есть текстовые файлыФункция readLines будет предоставлять символьный вектор из текстового файла, вектор до количества строк в файле.Еще для этого вопроса нужно от вас гораздо больше подробностей о том, что должен делать анализ, нужно ли разбивать его на строки текста из файла?Разбитый на слова?Сохранить наборы строк / слов из разных файлов как отдельные наборы?И так далее.

В очень упрощенном виде, используя пример из readLines, вы могли бы сделать что-то подобное, но для получения более подробной информации требуется больше информации для вашего вопроса:

 cat("TITLE extra line", "2 3 5 7", "", "11 13 17", file="ex.data",
     sep="\n")
 readLines("ex.data", n=-1)
 x <-      readLines("ex.data", n=-1)

 require(textcat)  
 textcat(x)

вопросы о формате для данного аргумента

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

вопросы о формате для данного аргумента

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов