Можно ли расширить набор символов, разрешенный функцией 'alnumx' в пакете R 'lsa', чтобы включить другие символы или символы? - PullRequest
0 голосов
/ 15 декабря 2018

Я пытаюсь использовать пакет R lsa (для выполнения скрытого семантического анализа) для обработки некоторого набора текстовых данных, который включает много терминов, которые буквально не являются «словами» на английском языке.Существует много сленга, аббревиатур или сокращенных терминов, которые включают некоторые не алфавитно-цифровые символы, такие как косая черта, тире и т. Д. (Например, «C / W», что означает «соблюдается»).Фильтрация регулярных выражений, выполняемая в функции textvector (которая использует предопределенную строку RegEx с именем alnumx), обычно удаляет все, что не входит в набор символов [: alnum:] (и некоторые немецкие буквы), но в результате остается много законныхтермины как отключенные 1 или 2-буквенные подстроки, которые больше не имеют никакого значения.

В настоящее время разрешено использование RegEx символов (значение alnumx):

[^ [: alnum:]}мест.

Я также пытался использовать функцию trace для получения кода для функции textvector, но он показывает только использование данных alnumx, а не их определение.Поэтому мне некуда переопределять его в коде, и я не могу пересмотреть этот код в пакете lsa, даже временно.

Итак, вопрос в том, могу ли я расширить набор допустимых используемых символовс помощью функции alnumx, чтобы оставить эти термины без изменений?Если да, то как мне это сделать?

Продолжая исследовать эту проблему, я получил копию исходного кода в пакет lsa и вижу, где строка RegEx определена для alnumx,поэтому я мог бы отредактировать этот файл, добавив некоторые дополнительные «разрешенные» символы.Если это то, что мне нужно сделать, то возникает вопрос: «Как мне сложить отредактированный файл данных в существующий пакет lsa, или мне нужно перекомпилировать весь пакет целиком?

...