Du Big Data au Better Data : 5 tendances stratégiques pour 2025 selon Starburst
novembre 2024 par Victor Coustenoble, responsable architecte solutions pour l’Europe du Sud chez Starburst
Les entreprises traversent une transformation majeure dans leur gestion des données. L’année 2024 s’est imposée comme un tournant décisif, marquée par une accélération des exigences avec l’essor de l’IA générative. La priorité des organisations évolue désormais du Big Data vers le Better Data, reflétant une tendance à privilégier la qualité des données plutôt que leur quantité. L’industrialisation de la data science remplace quant à elle les approches artisanales et la gouvernance se renforce avec des initiatives telles que l’automatisation des règles et la gestion des droits d’accès pour sécuriser les données sensibles. Ces évolutions nécessitent une refonte des priorités et des architectures des organisations, bien au-delà de simples ajustements technologiques.
Victor Coustenoble, responsable architecte solutions pour l’Europe du Sud chez Starburst, la société derrière Trino, décrypte cinq grandes transformations qui redessineront le paysage data en 2025 :
1. De la donnée statique à la donnée instantanée
L’idée d’attendre des rapports hebdomadaires ou mensuels pour ajuster la stratégie de l’entreprise appartient au passé. En 2025, la capacité à exploiter des flux de données en temps réel deviendra un différenciateur majeur. Les solutions d’analytique instantanée s’étendront à l’ensemble des fonctions (marketing, service client, opérations) permettant d’agir avant même que les opportunités ou les risques ne se matérialisent pleinement. Le temps réel devient un levier opérationnel essentiel, redéfinissant les mécanismes d’action au sein des entreprises.
2. Les Data Products comme fondations de l’IA
Si l’expérimentation avec l’intelligence artificielle a son utilité, elle a également révélé ses limites : des données non structurées, mal gouvernées ou dénuées de contexte métier peuvent freiner l’efficacité et la précision des modèles. C’est là que les Data Products émergeront comme un élément clé pour déployer l’IA à grande échelle. En encapsulant la qualité des données, les métadonnées et le contexte métier dans des artefacts réutilisables, ils standardisent l’accès aux données et simplifient leur exploitation dans des workflows complexes. Cette approche industrialisée de la donnée devient un prérequis pour tirer parti de cas d’usage exigeants comme les modèles génératifs ou les assistants enrichis par l’IA.
3. L’Hybrid Lakehouse, ou le pragmatisme appliqué aux architectures
Le cloud-only montre ses limites, particulièrement lorsqu’il s’agit de répondre à des exigences telles que la gestion de données sensibles, la maîtrise des coûts ou la conformité à des réglementations locales. Toutes les données ne peuvent ni ne doivent être centralisées dans le cloud. Face à ces contraintes, les Hybrid Lakehouses se distinguent comme une alternative concrète. En combinant la flexibilité du cloud avec la souveraineté et la sécurité du on-premises, ce modèle hybride offre une continuité entre différents environnements. Cependant, cette approche nécessite une orchestration fine et des outils capables de gérer des données fragmentées tout en préservant leur cohérence et leur accessibilité.
4. Le langage SQL, un outil traditionnel qui dicte l’avenir des data lakes
L’évolution des formats de table comme Apache Iceberg transforme radicalement les capacités des data lakes, réaffirmant la place centrale du langage SQL dans l’écosystème des données. Alors que les architectures complexes alimentaient jusqu’ici des pipelines spécialisés, le SQL redevient le langage universel, démocratisant l’accès aux données mais aussi la transformation des données pour un public bien plus large. Il apporte une efficacité opérationnelle, une standardisation et une facilité d’utilisation que peu de technologies peuvent égaler. En 2025, il ne s’agira pas seulement d’un outil parmi d’autres, mais d’un catalyseur pour accélérer la transformation data-driven.
5. Les lakes adoptés par les applications SaaS
Un glissement discret mais significatif est en cours dans le monde des applications SaaS : de plus en plus d’éditeurs optent pour des data lakes comme socle technologique. Les raisons sont claires : meilleur contrôle des coûts, flexibilité accrue et liberté vis-à-vis des grands fournisseurs cloud. Grâce à des formats ouverts comme Iceberg et des moteurs de requête performants comme Trino, ces applications peuvent gérer des volumes de données massifs avec un coût maîtrisé tout en garantissant une évolutivité à long terme. Ce choix stratégique reflète les pressions économiques actuelles, où des marges optimisées et des produits compétitifs deviennent des impératifs pour se démarquer.
Ces mutations s’entrelacent pour dessiner une approche holistique de la gestion des données, où stratégie, technologie et agilité se rencontrent. En 2025, l’enjeu sera d’orchestrer ces éléments pour transformer la donnée en véritable moteur de croissance.