
The object of research is the process of forecasting loosely structured data of retail artifacts by means of machine learning. The paper analyzes data and models for forecasting retail resources. The analysis is carried out for a specific business situation and task, when a large corporation needs a fuller loading of its own warehouses with goods and resources that will be used in future periods for sale or in projects. The task is to reduce overall corporate costs by purchasing the necessary goods/resources in advance. The data required for forecasting, their sources and properties are defined. It is shown that the data will come from different sources, will have a different time interval, categorical component and logistic reference. RNN, LSTM, Random Forest, Gradient Boosting, XGBoost models and forecasting methods were chosen for such data. They were analyzed according to the criteria of data source, time interval, categorization of data, availability of a logistic component, flexibility of tools in working with heterogeneous data, requirements of tools for computing resources, interpretability of modeling results. Data sources explain where the data for analysis comes from. Usually it is: stores, warehouses, logistics companies, projects and strategic plans of the corporation. The time interval characterizes the frequency and regularity of receiving data for analysis. The criterion "data categorization" characterizes how this type of data affects the quality of the analysis. The logistic parameters of the data also characterize the impact on the analysis. "Flexibility in working with heterogeneous data" shows the ability of the model to effectively work with data of different formats and sources. Requirements for computing resources determine their necessary power for training and operation of the model. Interpretability of a model characterizes its ability to explain how and why it makes specific decisions or predictions based on input data. The more complex the model, the more difficult it is to interpret. In the retail business, interpretability is important for explaining demand forecasts. Based on the results of the analysis, the XGBoost model was recommended as the best for forecasting retail resources.
Об’єктом дослідження є процеси прогнозування слабо структурованих даних артефактів ритейлу засобами машинного навчання. У роботі проведено аналіз даних та моделей для прогнозування ресурсів ритейлу. Аналіз проведений для конкретної бізнесової ситуації та задачі, коли велика корпорація має потребу у більш повній завантаженості власних складських приміщень товарами та ресурсами, що будуть використані в майбутніх періодах для продажу або в проєктах. Задача полягає у зменшенні загально корпоративних витрат шляхом закупівлі необхідних товарів/ресурсів заздалегідь. Визначено дані, які необхідні для прогнозування, їх джерела та властивості. Показано, що дані будуть надходити з різних джерел, будуть мати різний часовий інтервал, категорійну складову та логістичну прив’язку. Для таких даних було обрано моделі та метод прогнозування RNN, LSTM, Random Forest, Gradient Boosting, XGBoost. Їх проаналізовано за критеріями джерела даних, часовий інтервал, категорійність даних, наявність логістичної складової, гнучкість інструментів у роботі з різнорідними даними, вимоги інструментів до обчислювальних ресурсів, інтерпретованість результатів моделювання. Джерела даних пояснюють звідки походять дані для аналізу. Зазвичай то: магазини, склади, логістичні компанії, проєкти та стратегічні плани корпорації. Часовий інтервал характеризує частоту та регулярність надходження даних для аналізу. Критерій «категоріальність даних» характеризує, як цей тип даних впливає на якість аналізу. Логістичні параметри даних також характеризують вплив на аналіз. «Гнучкість у роботі з різнорідними даними» показує здатність моделі ефективно працювати з даними різних форматів і джерел. Вимоги до обчислювальних ресурсів визначає їх необхідну потужність для тренування та роботи моделі. Інтерпретованість моделі характеризує її здатність пояснювати, як і чому вона приймає конкретні рішення або прогнози на основі вхідних даних. Чим складніша модель, тим важче її інтерпретувати. У бізнес-ритейлі інтерпретованість є важливою для пояснення прогнозів попиту. За результатами аналізу була рекомендована модель XGBoost, як найкраща для проведення прогнозування ресурсів ритейлу.
retail resources, ритейл, моделі машинного навчання, прогнозування, ресурси ритейлу, інтерпретованість моделі, retail, forecasting, categorical data, model interpretability, категоріальність даних, machine learning models
retail resources, ритейл, моделі машинного навчання, прогнозування, ресурси ритейлу, інтерпретованість моделі, retail, forecasting, categorical data, model interpretability, категоріальність даних, machine learning models
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
