Как бы я обрезал непрерывное действие в актере-критике? - PullRequest
0 голосов
/ 11 июня 2018

Допустим, у нас есть бот, у которого есть немного денег и несколько акций.Вводится список цен за последние 30 дней.Он не использует RNN, и цены вводятся одновременно.Результатом является непрерывное действие, где положительное число - это покупка, а отрицательное - продажа количества акций.Как я могу ограничить пространство действия так, чтобы оно урезалось между тем, сколько акций у него есть (нижняя граница) и сколько денег у него есть (верхняя граница)?

Должен ли я его обрезать или просто оштрафоватьнезаконные действия?Какой вариант даст лучшие результаты?

Ответы [ 2 ]

0 голосов
/ 12 июня 2018

Вы можете наказывать за незаконные действия, но по моему опыту это не оказало хорошего влияния на ИИ (еще одна вещь, о которой нужно беспокоиться).Просто обрезайте вывод, чтобы, если он попытается использовать больше денег, которые у него есть, он потратит все свои деньги.Если он пытается продать больше акций, чем имеет, он продает все свои акции.Сеть узнает, что происходит, когда пытается использовать больше ресурсов, чем достаточно быстро, поэтому это не приведет к снижению производительности.

0 голосов
/ 11 июня 2018

ИИ не может продать сумму, которой у него нет, или купить акцию, которая стоит больше, чем у него есть деньги, поэтому вам вообще не следует разрешать подобные транзакции.Однако, если ваш ИИ смотрит на тренды и предпочитает акции, которые, как ожидается, будут более ценными в ближайшем будущем, то есть большая вероятность, что на следующий день общая сумма имущества будет выше.Допустим, share1 имеет начальное значение s1 и конечное значение e1, а share2 имеет начальное значение s2 и конечное значение e2, тогда в случае, когда

e1 / s1> e2 /s2

Лучше отдать share1 более высокий приоритет.Если какой-либо si / ei меньше 1, то ИИ не должен вкладывать в него средства.

Кроме того, вы должны ценить стабильность, если стоимость акции постоянно увеличивалась в последние несколько дней, то она имеет растущийтенденция.Если начальная стоимость акции меньше конечной стоимости, но в последние несколько дней ее стоимость уменьшилась, то это может быть тенденция к снижению, и акция не должна быть предпочтительной.Такие правила должны быть реализованы, и когда они противоречат друг другу, ИИ должен уметь разумно выбирать свои приоритеты.

...