Текст-майнинг / корреляция слов в R - PullRequest
0 голосов
/ 29 апреля 2020

Я пытаюсь заставить работать текстовый анализ или, скорее, корреляцию слов в R.

Более общая картина того, что я пытаюсь сделать, - это запрос всей экспортированной базы данных OpenStreetMap для всех функций, которые в пределах определенного c расстояния до различных местностей долготы и широты. Пока что это работает как чудо, и я дошел до того, что у меня есть столбец фрейма данных типа character, который содержит все объекты на указанном расстоянии c, где одна строка представляет одно местоположение долготы-широты. Столбец фрейма данных можно найти в этом csv , а каталог всех возможных функций можно найти в этом csv .

Мой следующий шаг теперь будет классифицировать места в зависимости от их окружающих особенностей. Для этого я хотел бы использовать алгоритм анализа текста / корреляции слов, который способен создавать категории на основе признаков, которые часто присутствуют в одних и тех же местах.

Короче говоря: У меня есть столбец типа character (слова, разделенные запятыми), где одна строка содержит все объекты, которые находятся в определенной близости от местоположения долгота-широта. Основываясь на этих окружающих функциях, я хотел бы классифицировать свои местоположения, опираясь на соответствующие функции.

Я пробовал findAssocs из пакета tm, что, к сожалению, не работает ни для одного типа list data.frame или character. Я также нашел эту замечательную документацию , которая управляет основами c интеллектуального анализа текста в R. Проблема здесь в том, что мне кажется, что мне нужно преобразовать каждую строку столбца фрейма данных в документ для подготовки корпус для дальнейшей обработки. Хотя это может быть выполнимо для моего тестового случая из 61 местоположения, это не так много для моего окончательного анализа нескольких десятков тысяч местоположений.

Может ли кто-нибудь подтолкнуть меня в правильном направлении здесь? Желательно, не полагаясь на стороннее программное обеспечение, такое как «rapidminer». В моем сценарии использования было бы намного лучше иметь все в одном R-сценарии.

Заранее спасибо. Если вам нужна дополнительная информация, пожалуйста, дайте мне знать.

1 Ответ

0 голосов
/ 29 апреля 2020

Я нашел пошаговое руководство по преобразованию данных из моего формата в формат, который можно использовать для интеллектуального анализа текста. Руководство можно найти здесь . Это действительно решает мою проблему на данный момент. Я прошу прощения за пост.

...