"En statistiques comme en IA, la qualité d'un modèle est fondamentalement limitée par la quantité et la représentativité des données qui l'alimentent. Pour l'Afrique, c'est à la fois le plus grand défi — et la plus grande opportunité."
Qu'est-ce que la Loi des Grands Nombres ?
La Loi des Grands Nombres (LGN) est l'un des théorèmes les plus fondamentaux de la théorie des probabilités. Formulée rigoureusement par Jakob Bernoulli au XVIIe siècle, elle stipule que lorsqu'une expérience aléatoire est répétée un très grand nombre de fois, la moyenne empirique des résultats converge vers l'espérance mathématique (la "vraie" moyenne théorique) de la variable aléatoire.
En termes simples : plus vous collectez d'observations, plus votre estimation de la réalité est précise. Un sondage de 100 personnes vous donne une approximation grossière. Un sondage de 100 000 personnes représentatives vous donne une image fidèle de la population.
Les deux versions de la loi
Il existe deux formes de la Loi des Grands Nombres, selon la nature de la convergence :
La moyenne empirique converge en probabilité vers l'espérance. Pour tout ε > 0, la probabilité que l'écart dépasse ε tend vers zéro.
La moyenne empirique converge presque sûrement — c'est-à-dire que la convergence se produit avec probabilité 1, pour presque toutes les séquences d'observations.
Pourquoi cela est crucial pour l'IA en Afrique
La Loi des Grands Nombres est la justification mathématique fondamentale de toute l'apprentissage automatique (machine learning). Un modèle d'IA n'apprend pas la vérité absolue — il estime des distributions de probabilités à partir de données d'entraînement. La LGN garantit que si ces données sont suffisamment nombreuses et représentatives, les estimations convergent vers la réalité.
C'est ici que réside le problème structurel de l'IA pour l'Afrique. Les grands modèles de langage (LLM) comme GPT, Claude ou Gemini sont entraînés sur des corpus massifs — majoritairement en anglais, espagnol, français ou mandarin. Les langues africaines, les marchés agricoles locaux, les comportements économiques informels, les systèmes juridiques coutumiers : tout cela est statistiquement sous-représenté, voire absent.
Un modèle d'IA entraîné pour prédire les prix agricoles en Iowa (USA) sur 50 ans de données sera excellent pour l'Iowa. Mais appliqué aux marchés de l'igname à Bouaké ou du cacao à San-Pédro, il produira des prédictions médiocres — non pas parce que l'algorithme est mauvais, mais parce que la LGN n'a pas pu opérer : il n'y avait pas assez de données africaines pour que la moyenne empirique converge vers la vraie distribution locale.
La réponse de FuturAfric : fabriquer des données
C'est précisément pour cette raison que le projet YiRi de FuturAfric a une dimension aussi structurante : en formant 2 000 jeunes à l'annotation de données dans 10 régions de Côte d'Ivoire, YiRi ne fait pas que créer des emplois. Il fabrique industriellement la matière première sans laquelle la LGN ne peut pas fonctionner pour les langues et réalités ivoiriennes.
De même, la plateforme Yiri.africa collecte des données agricoles locales réelles — prix des marchés, rendements par parcelle, conditions climatiques microlocales — qui permettront progressivement aux modèles d'IA d'avoir assez d'observations pour converger vers des prédictions pertinentes pour l'agriculteur ivoirien.
La LGN est une loi asymptotique : elle promet la convergence à l'infini. En pratique, pour des contextes africains, l'enjeu est de réduire le seuil à partir duquel la convergence est "suffisamment bonne" — c'est tout l'objet de la recherche du Lab' FuturAfric sur les méthodes d'estimation à faibles ressources (low-resource estimation methods).
Pour aller plus loin : Kolmogorov, A.N. (1933). Foundations of the Theory of Probability. Chelsea Publishing. — Vapnik, V. (1998). Statistical Learning Theory. Wiley. — Bekkerman, R., Bilenko, M., Langford, J. (2011). Scaling Machine Learning. Cambridge University Press.