
RésuméNous étudions ici un algorithme de descente de gradient par mini-lots (FMGD) fixe pour résoudre les problèmes d'optimisation avec des ensembles de données massifs. Dans FMGD, l'ensemble de l'échantillon est divisé en plusieurs partitions non chevauchantes. Une fois les partitions formées, elles sont ensuite fixées dans le reste de l'algorithme. Pour plus de commodité, nous appelons les partitions fixes des mini-lots fixes. Ensuite, pour chaque itération de calcul, les gradients sont calculés séquentiellement sur chaque mini-lot fixe. Étant donné que la taille des mini-lots fixes est généralement beaucoup plus petite que la taille totale de l'échantillon, elle peut être facilement calculée. Cela réduit considérablement les coûts de calcul pour chaque itération de calcul. Cela rend la FMGD efficace sur le plan informatique et pratiquement plus réalisable. Pour démontrer les propriétés théoriques du FMGD, nous partons d'un modèle de régression linéaire avec un taux d'apprentissage constant. Nous étudions ses propriétés de convergence numérique et d'efficacité statistique. Nous constatons que des taux d'apprentissage suffisamment faibles sont nécessairement nécessaires à la fois pour la convergence numérique et l'efficacité statistique. Néanmoins, un taux d'apprentissage extrêmement faible pourrait conduire à une convergence numérique douloureusement lente. Pour résoudre le problème, une stratégie de planification du taux d'apprentissage décroissant peut être utilisée. Cela conduit à l'estimateur FMGD avec une convergence numérique plus rapide et une meilleure efficacité statistique. Enfin, les algorithmes FMGD avec brassage aléatoire et une fonction de perte générale sont également étudiés. Les matériaux supplémentaires pour cet article sont disponibles en ligne.KEYWORDS : Fixed mini-batchGradient descentLearning rate schedulingRandom shufflingStochastic gradient descente Matériaux supplémentairesLes preuves détaillées de toutes les propositions et théorèmes peuvent être trouvées dans les matériaux supplémentaires. RemerciementsLes auteurs remercient le rédacteur en chef, le rédacteur en chef adjoint et deux critiques anonymes pour leur lecture attentive et leurs commentaires constructifs. Déclaration de divulgationLes auteurs rapportent qu'il n'y a pas d'intérêts concurrents à déclarer. Informations supplémentairesFinancementCe travail est soutenu par la Fondation nationale des sciences naturelles de Chine (n ° 72001205), les Fonds de recherche fondamentale pour les universités centrales et les Fonds de recherche de l'Université Renmin de Chine (21XNA026).
ResumenEstudiamos aquí un algoritmo de descenso de gradiente de mini lote fijo (FMGD) para resolver problemas de optimización con conjuntos de datos masivos. En FMGD, toda la muestra se divide en múltiples particiones no superpuestas. Una vez que se forman las particiones, se fijan a lo largo del resto del algoritmo. Por comodidad, nos referimos a las particiones fijas como mini lotes fijos. Luego, para cada iteración de cálculo, los gradientes se calculan secuencialmente en cada mini lote fijo. Debido a que el tamaño de los mini lotes fijos suele ser mucho más pequeño que el tamaño total de la muestra, se puede calcular fácilmente. Esto conduce a un coste de cálculo muy reducido para cada iteración computacional. Hace que la FMGD sea computacionalmente eficiente y prácticamente más factible. Para demostrar las propiedades teóricas de la FMGD, comenzamos con un modelo de regresión lineal con una tasa de aprendizaje constante. Estudiamos sus propiedades de convergencia numérica y eficiencia estadística. Encontramos que se requieren necesariamente tasas de aprendizaje suficientemente pequeñas tanto para la convergencia numérica como para la eficiencia estadística. Sin embargo, una tasa de aprendizaje extremadamente pequeña podría conducir a una convergencia numérica dolorosamente lenta. Para resolver el problema, se puede utilizar una estrategia de programación de la tasa de aprendizaje decreciente. Esto conduce al estimador de FMGD con una convergencia numérica más rápida y una mejor eficiencia estadística. Finalmente, también se estudian los algoritmos de FMGD con barajado aleatorio y una función de pérdida general. Los materiales complementarios para este artículo están disponibles en línea.KEYWORDS: Fixed mini-batchGradient descentLearning rate schedulingRandom shufflingStochastic gradient descent Materiales complementariosLas pruebas detalladas de todas las proposiciones y teoremas se pueden encontrar en los materiales complementarios. AgradecimientosLos autores agradecen al Editor, al Editor Asociado y a dos revisores anónimos por su cuidadosa lectura y comentarios constructivos. Declaración de divulgaciónLos autores informan que no hay intereses en competencia que declarar. Información adicionalFinanciaciónEste trabajo está respaldado por la Fundación Nacional de Ciencias Naturales de China (No.72001205), los Fondos de Investigación Fundamentales para las Universidades Centrales y los Fondos de Investigación de la Universidad Renmin de China (21XNA026).
AbstractWe study here a fixed mini-batch gradient descent (FMGD) algorithm to solve optimization problems with massive datasets. In FMGD, the whole sample is split into multiple nonoverlapping partitions. Once the partitions are formed, they are then fixed throughout the rest of the algorithm. For convenience, we refer to the fixed partitions as fixed mini-batches. Then for each computation iteration, the gradients are sequentially calculated on each fixed mini-batch. Because the size of fixed mini-batches is typically much smaller than the whole sample size, it can be easily computed. This leads to much reduced computation cost for each computational iteration. It makes FMGD computationally efficient and practically more feasible. To demonstrate the theoretical properties of FMGD, we start with a linear regression model with a constant learning rate. We study its numerical convergence and statistical efficiency properties. We find that sufficiently small learning rates are necessarily required for both numerical convergence and statistical efficiency. Nevertheless, an extremely small learning rate might lead to painfully slow numerical convergence. To solve the problem, a diminishing learning rate scheduling strategy can be used. This leads to the FMGD estimator with faster numerical convergence and better statistical efficiency. Finally, the FMGD algorithms with random shuffling and a general loss function are also studied. Supplementary materials for this article are available online.KEYWORDS: Fixed mini-batchGradient descentLearning rate schedulingRandom shufflingStochastic gradient descent Supplementary MaterialsThe detailed proofs of all propositions and theorems can be found in the supplementary materials.AcknowledgmentsThe authors thank the Editor, Associate Editor, and two anonymous reviewers for their careful reading and constructive comments.Disclosure StatementThe authors report there are no competing interests to declare.Additional informationFundingThis work is supported by National Natural Science Foundation of China (No.72001205), the Fundamental Research Funds for the Central Universities and the Research Funds of Renmin University of China (21XNA026).
نبذة مختصرة ندرس هنا خوارزمية نزول متدرج مصغرة (FMGD) لحل مشاكل التحسين مع مجموعات البيانات الضخمة. في FMGD، يتم تقسيم العينة بأكملها إلى أقسام متعددة غير متداخلة. بمجرد تشكيل الأقسام، يتم تثبيتها في بقية الخوارزمية. للتسهيل، نشير إلى الأقسام الثابتة على أنها دفعات صغيرة ثابتة. ثم لكل تكرار حسابي، يتم حساب التدرجات بالتتابع على كل دفعة صغيرة ثابتة. نظرًا لأن حجم الدفعات الصغيرة الثابتة عادة ما يكون أصغر بكثير من حجم العينة بالكامل، يمكن حسابه بسهولة. وهذا يؤدي إلى انخفاض كبير في تكلفة الحساب لكل تكرار حسابي. إنه يجعل FMGD فعالاً من الناحية الحسابية وأكثر جدوى من الناحية العملية. لإظهار الخصائص النظرية للـ FMGD، نبدأ بنموذج انحدار خطي بمعدل تعلم ثابت. ندرس التقارب العددي وخصائص الكفاءة الإحصائية. نجد أن معدلات التعلم الصغيرة بما فيه الكفاية مطلوبة بالضرورة لكل من التقارب العددي والكفاءة الإحصائية. ومع ذلك، قد يؤدي معدل التعلم الصغير للغاية إلى تقارب عددي بطيء بشكل مؤلم. لحل المشكلة، يمكن استخدام استراتيجية متناقصة لجدولة معدل التعلم. وهذا يؤدي إلى مقدر FMGD مع تقارب عددي أسرع وكفاءة إحصائية أفضل. أخيرًا، تتم أيضًا دراسة خوارزميات FMGD مع الخلط العشوائي ووظيفة الخسارة العامة. تتوفر المواد التكميلية لهذه المقالة على الإنترنت .KEYWORDS: دفعة صغيرة ثابتةتدريج النسب جدولة معدل التعلمخلط عشوائيتدرج المواد التكميليةيمكن العثور على البراهين التفصيلية لجميع المقترحات والنظريات في المواد التكميلية .التقدير يشكر المؤلفون المحرر والمحرر المساعد واثنين من المراجعين المجهولين على قراءتهم الدقيقة وتعليقاتهم البناءة .بيان الإفصاحيذكر المؤلفون أنه لا توجد مصالح متنافسة للإعلان عنها .معلومات إضافيةتمويل هذا العمل مدعوم من قبل المؤسسة الوطنية للعلوم الطبيعية في الصين (No.72001205)، وصناديق البحوث الأساسية للجامعات المركزية وصناديق البحوث لجامعة رينمين في الصين (21XNA026).
FOS: Computer and information sciences, Artificial neural network, Artificial intelligence, Economics, Computational Mechanics, Sample size determination, Statistics - Computation, Estimator, Mathematical analysis, Engineering, Artificial Intelligence, FOS: Mathematics, Optimization Methods in Machine Learning, Large-Scale Optimization, Active Learning in Machine Learning Research, Computation (stat.CO), Economic growth, Stochastic Gradient Descent, Computer network, Gradient descent, Mathematical optimization, Statistics, Fixed point, Rate of convergence, Theory and Applications of Compressed Sensing, Applied mathematics, Computer science, Algorithm, Channel (broadcasting), Computer Science, Physical Sciences, Computation, Convergence (economics), Mathematics
FOS: Computer and information sciences, Artificial neural network, Artificial intelligence, Economics, Computational Mechanics, Sample size determination, Statistics - Computation, Estimator, Mathematical analysis, Engineering, Artificial Intelligence, FOS: Mathematics, Optimization Methods in Machine Learning, Large-Scale Optimization, Active Learning in Machine Learning Research, Computation (stat.CO), Economic growth, Stochastic Gradient Descent, Computer network, Gradient descent, Mathematical optimization, Statistics, Fixed point, Rate of convergence, Theory and Applications of Compressed Sensing, Applied mathematics, Computer science, Algorithm, Channel (broadcasting), Computer Science, Physical Sciences, Computation, Convergence (economics), Mathematics
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 15 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Top 10% | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Top 10% | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Top 10% |
