Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ Dynamics and Strengt...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

Monte-Carlo method and artificial intelligence: application of Monte-Carlo method in reinforcement learning

Monte-Carlo method and artificial intelligence: application of Monte-Carlo method in reinforcement learning

Abstract

Reinforcement learning is the fastest growing technology used in the creation of artificial intelligent systems. At the moment, this field is quite extensive. Many researchers around the world are actively working with reinforcement learning in various fields: neuroscience, control theory, psychology and many others. The purpose of this paper is to substantiate the possibility of using the Monte Carlo method in reinforcement learning. It is known that the main thing in such learning is to record aspects of a real problem when a learner interacts with the surrounding world to achieve his goal. That is, a learning agent must have a goal associated with the state of the environment. It is also necessary to be able to sense the environment and perform actions that affect it. The formulation of a reinforcement learning problem should take into account all three aspects - sensation, action and goal - in their simplest forms. Monte Carlo methods are able to solve reinforcement learning problems based on averaging sample results. In order to ensure the availability of clearly defined results, this article considers Monte Carlo methods only for episodic problems. Thus, Monte Carlo methods can be incremental at the episode level.

Навчання з підкріпленням - технологія, що найбільш швидко розвивається, застосовується при створенні штучні інтелектуальні системи. На даний момент ця галузь досить велика. Багато дослідників по всьому світу активно працюють з навчанням з підкріпленням у різноманітних галузях: нейробіологія, теорія управління, психологія та багато іншого. Метою даної є обґрунтування можливості застосування методу Монте-Карло в навчанні з підкріпленням. Відомо, що основним у такому навчанні є фіксація аспектів реальної проблеми при взаємодії того, хто навчається з навколишнім світом для досягнення своєї мети. Тобто агент навчання повинен мати мету, пов’язану зі станом навколишнього середовища. Також необхідно мати можливість відчувати середовище та вчиняти дії, що впливають на нього. Формулювання завдання навчання з підкріпленням має враховувати все три аспекти – відчуття, дія та мета – у їх найпростіших формах. Методи Монте-Карло здатні вирішити проблеми навчання із підкріпленням, ґрунтуючись на усередненні результатів вибірки. Щоб забезпечити доступність чітко визначених результатів, у статті розглядаються методи Монте-Карло лише епізодичних завдань. Таким чином, методи Монте-Карло можуть бути інкрементними лише на рівні епізодів.

Keywords

навчання з підкріпленням, метод Монте-Карло, стани, модель, прийняття рішень, оптимальність, стратегія, вибірка, цінність, оцінка, : reinforcement learning, Monte Carlo method, states, model, decision making, optimality, strategy, sampling, value, evaluation.

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
gold