R-Text Mining: заменить сокращения, цифры и символы на немецком языке - PullRequest
0 голосов
/ 27 мая 2020

Я хотел бы заменить в своем тексте сокращения, цифры и символы. Так как мой текст на немецком языке, а не на английском sh, у меня проблемы с его преобразованием.

Я пробовал:

review_text <- replace_abbreviation(review_text)

review_text <- replace_number(review_text)

review_text <- replace_symbol(review_text)

Но это работает только для текста на английском языке sh, а не для немецкого. Что добавить, что функция работает и на немецком языке?

1 Ответ

0 голосов
/ 28 мая 2020
Пакеты

qdap и связанные с qdap предназначены исключительно для использования с английским языком sh. Если вы хотите использовать немецкий текст с ümlauts и всем остальным, с этим справятся такие пакеты, как quanteda и udpipe. Но они не обрабатывают аббревиатуры и символы. Теперь функцию replace_symbol легко настроить, просто проверьте функцию, скопируйте код, чтобы создать свою собственную функцию, и замените английские переводы sh на немецкие переводы.

Функция replace_abbreviation указывает на таблицу замены, в которой сокращение хранится с соответствующим значением. Вам необходимо создать собственную таблицу для немецкого языка.

Самая большая проблема - это перевод чисел в текст. Это отличается для каждого языка, который на самом деле недоступен в Интернете. Поиск этого обычно приводит к преобразованию чисел в текст в Excel. Но если вы умеете читать python, вы можете перевести функцию python в R (или использовать сетку), чтобы решить эту проблему. См. эту ссылку на библиотеку python на Github, которая может делать это для нескольких языков, включая немецкий. Но я не уверен, можно ли это использовать в контексте интеллектуального анализа текста.

...