Как я могу построить определенный корпус - Алгоритмические инструкции - PullRequest
0 голосов
/ 08 октября 2019

Я работаю над проектом, и мне нужно создать корпус алгоритмических предложений. Другими словами, мне нужен корпус, состоящий из предложений, где каждое предложение является алгоритмической инструкцией, выраженной на естественном языке, английском. Примеры:

  • Назначить 5 для X
  • Умножить переменную X на 5
  • Объявить переменную с именем Z

IЯ провел несколько исследований, и я обнаружил, что Google BigQuery - Stack Overflow. Я все еще исследую это, и я не уверен, поможет ли это мне. Я рассматриваю веб-сканирование переполнения стека, но это выглядит очень шумно в качестве источника. Нет ли готового к использованию набора данных или API в этой ситуации? Знаете ли вы какой-либо веб-сайт, полный алгоритмических инструкций, которые я могу сканировать в Интернете?

Любые идеи более чем приветствуются, пожалуйста, помогите мне!

1 Ответ

2 голосов
/ 08 октября 2019

Похоже, вы можете сгенерировать их как можно больше с набором условий и инструкций, которые вы хотите использовать. Вероятно, вы должны следовать генеративному методу случайной выборки между набором «переменных», «цифр» и «операторов» для генерации таких инструкций.

Например: Допустим, вы хотите генерировать инструкции с:

  • Переменные, включающие x, y и z.
  • Числа, включающие 5, 6 и 7.
  • Операторы, включающие add, subtract, multiply.

Тогда ваш процесс будет заключаться в выборе оператора, выборе цифры и выборе переменной и в основном генерации инструкции на основе задействованного оператора. Или что-то в том же духе. Смысл в том, чтобы продолжать делать эту случайную выборку и генерировать столько инструкций, сколько вы хотите. Кроме того, если ваш набор переменных и чисел достаточно высок, вы можете получить довольно хороший список инструкций.

Надеюсь, это помогло.

...