Text Mining в R - Как разделить разделы текста на основе заголовков для отдельного анализа текста - PullRequest
1 голос
/ 27 мая 2020

Я работаю над 160 отдельными ответами на опрос. Я запустил код R для создания после очистки простого облака слов и некоторого анализа чувствительности.

Однако шаблон, заполненный респондентами, разбит на разделы. Например, структура шаблона - это заголовок 2 - Энергия, затем набор вопросов, затем заголовок 3 - Энергетический переход, еще один набор вопросов, затем заголовок 4 - Потребители и вопросы. Это повторяет до 12 разделов.

Вместо оценки всего набора ответов, есть ли способ сегментировать ответы на разделы в соответствии с заголовками c в шаблоне?

Это позволит проводить анализ внутри разделов, а чем по всем темам.

Я не могу поделиться ответами из-за уверенности, но могу поделиться пустым шаблоном, доступным по адресу https://www.economy-ni.gov.uk/energy-strategy-call-for-evidence

Фиктивная дата в R

[50] «2. Энергетика в Северной Ирландии»
[51] «Q1. Какие уроки мы можем извлечь из других источников в решении вопросов энергетики в рамках«
[52] »всеобъемлющей программы действий по борьбе с изменением климата?»
[53] «Q2. Каковы основные соображения для декарбонизации энергетического сектора Северной Ирландии»
[54] «с учетом существующих связей с другими юрисдикциями?»
[55] «Q3. В какой степени Северная Ирландия должна Ирландия выполняет ключевые рекомендации по энергетике «
[56]» из отчета CCC «Сокращение выбросов в Северной Ирландии» «
[57]»? »
[58]« Q4. согласен с 30-летний срок? Если нет, укажите предпочитаемый вами подход и причины «
[59]».
[60] «Текст ответа респондента xxxxxxxx blahblahvlahblah»
[61] «3. Энергетический переход в Северной Ирландии "
[62]" Q5. Каковы уникальные характеристики Северной Ирландии, которые должны быть учтены «
[63]» при переходе на net нулевой углеродной энергии? »
[64]« Q6. Ваша организация реализует или планирует осуществлять проекты в поддержку «
[65]» энергетического перехода? Если да, то просьба представить дополнительную информацию ».
[66]« Текст ответа респондента xxxxxxxx blahblahvlahblah »

Строки 60 - это текст, который необходимо сохранить для анализа в разделе 2 об энергии, а строка 66 - в разделе 3. Очевидно, текст респондентов, вероятно, будет длиннее одной строки. Тогда игнорируйте эти строки с вопросами и заголовками.

Все строки до 50 - это вводный текст, который также следует игнорировать.

Спасибо

Стивен

...