Найти слово в файле Excel в Rapidminer - PullRequest
0 голосов
/ 28 января 2019

У меня есть Process, который читает текстовый файл и имеет оператор Обрабатывает документ из данных Оператор с оператором Tokenize .

Он работает нормально, но когда я изменяюисточник Обработка документа из данных для чтения Excel, вывод пуст.Я думаю, что у меня ошибка, и оператор Read Excel не может подключиться к Обработка документа из данных напрямую и должен прочитать каждый столбец файла Excel, а затем подключиться к Обработка документа изДанные .

Кто-нибудь может мне помочь, как я подключаю файл Excel из Обработка документа из данных ?

PS: Моя цель - прочитать файл Excel и показать словокоторые повторяются в столбце файла Excel более 3 раз.

Пример файла: enter image description here

1 Ответ

0 голосов
/ 29 января 2019

Поскольку вы не включаете свой процесс или входные данные, могу ли я просто предложить альтернативу без документов вообще?

Если ваша цель - найти записи в определенном столбце файла Excel, вы можетесделать это в трех операторах: Чтение Excel , Совокупный и Примеры фильтров :

Использование Чтение Excel для извлечениястолбец в качестве примера установлен с одним атрибутом (например, words ), Aggregate words атрибут с функцией count , а также сгруппированы по слов (это дает вам желаемый счетчик за слово) и, наконец, используйте Примеры фильтра , чтобы хранить только слова со счетом 3 или более.

Пример процесса (повтор-запустите мастер настройки импорта для вашей конкретной настройки):

<?xml version="1.0" encoding="UTF-8"?><process version="9.0.003">
  <context>
    <input/>
    <output/>
    <macros/>
  </context>
  <operator activated="true" class="process" compatibility="9.0.003" expanded="true" name="Process">
    <process expanded="true">
      <operator activated="true" class="read_excel" compatibility="9.0.003" expanded="true" height="68" name="Read Excel" width="90" x="45" y="34">
        <parameter key="excel_file" value="D:\words.xlsx"/>
        <parameter key="imported_cell_range" value="A1:A100"/>
        <list key="annotations"/>
        <parameter key="date_format" value="MMM d, yyyy h:mm:ss a z"/>
        <list key="data_set_meta_data_information">
          <parameter key="0" value="words.true.polynominal.attribute"/>
        </list>
        <parameter key="read_not_matching_values_as_missings" value="false"/>
      </operator>
      <operator activated="true" class="aggregate" compatibility="9.0.003" expanded="true" height="82" name="Aggregate" width="90" x="179" y="34">
        <list key="aggregation_attributes">
          <parameter key="words" value="count"/>
        </list>
        <parameter key="group_by_attributes" value="words"/>
      </operator>
      <operator activated="true" class="filter_examples" compatibility="9.0.003" expanded="true" height="103" name="Filter Examples" width="90" x="313" y="34">
        <list key="filters_list">
          <parameter key="filters_entry_key" value="count(words).ge.3"/>
        </list>
      </operator>
      <connect from_op="Read Excel" from_port="output" to_op="Aggregate" to_port="example set input"/>
      <connect from_op="Aggregate" from_port="example set output" to_op="Filter Examples" to_port="example set input"/>
      <connect from_op="Filter Examples" from_port="example set output" to_port="result 1"/>
      <portSpacing port="source_input 1" spacing="0"/>
      <portSpacing port="sink_result 1" spacing="0"/>
      <portSpacing port="sink_result 2" spacing="0"/>
      <portSpacing port="sink_result 3" spacing="0"/>
    </process>
  </operator>
</process>
...