Le millésime 2019 des plateformes data science
Le cabinet Gartner vient de sortir son classement ou plutôt son cadran (magic quadrant) sur les plateformes data science et machine learning.
Cette représentation des différents logiciels de data science est devenu une habitude dans la data science.
On peut longuement critiquer ce classement et tout d'abord parler de l'absence des solutions open source qui sont en fait les locomotives de la data science aujourd'hui. Ce sont en effet les projets open source qui drainent toutes les avancées en data science (avec les packages python ou R, les environnements deep learning ou encore les plateformes big data). Gartner se fend néanmoins de quelques lignes pour évoquer l'open source et l'intégration des solutions open source dans les offres commerciales.
Ce classement permet néanmoins de mettre en avant les acteurs commerciaux de ce domaine et des solutions qui sont présentes chez beaucoup de clients entreprises qui voient rapidement les contraintes de l'utilisation des solutions open source.
Les gagnants, les perdants, les évolutions
Il y a peu d'évolutions cette année sur les plateformes présentes, on notera :
- la sortie de Teradata
- l'entrée de Google et de DataRobot
- TIBCO software passe d'un statut de challenger à un statut de leader
- Dataiku passe d'un statut de visionnaire à un statut de challenger
- SAS reste dans les leaders mais perd de l'efficacité
- Alteryx passe d'un statut de leader à challenger
Depuis quelques années, deux plateformes de data science gardent leurs statuts de leaders, ce sont RapidMiner et KNIME.
L'image suivante permet de comparer les évolutions entre 2018 et 2019.
D'autres conclusions
Le rapport du Gartner n'est pas intéressant uniquement du fait du graphique, c'est toute l'explication sur les forces et les faiblesses des plateformes data science qui apporte des informations.
Les "gros" se cherchent toujours
Les "gros" du secteur que sont d'un côté les acteurs historiques (SAS et IBM) et de l'autre les acteurs "cloud" (Microsoft et Google) ont aujourd'hui du mal à proposer une offre claire de plateforme pour les utilisateurs de la data science et du machine learning. Avec des offres très larges, la lisibilité de l'offre est très mauvaise pour les analystes du Gartner (et pour nos clients aussi).
Les "pure players" s'installent
Les plateformes data science spécialisées dans ce domaine sont aujourd'hui des références dans les entreprises. Leur réel challenge est la vitesse de calcul et la scalabilité des outils. Ainsi, RapidMiner, KNIME, Dataiku, Alteryx et TIBCO offrent des solutions très efficaces. Attention néanmoins à leur coût qui peut devenir très vite prohibitif avec des offres peu claires.
Des acteurs de niches cherchant leur place
Je suis personnellement très attaché à Anaconda qui est présent dans cette étude, il ressort néanmoins comme un outil d'experts et d'adeptes de l'open source. A voir comment les équipes d'Anaconda réussiront à passer ce modèle à grande échelle.
On notera un absent dans ces plateformes data science : RStudio. En effet, avec ses offres Server Pro et Connect, RStudio aurait sa place au côté d'Anaconda dans cette étude. Nous verrons si cela changera avec le temps.
Un baromètre utile
Ce rapport annuel peut être facilement critiqué et reflète l'avis d'analystes du Gartner qui ont une vision parcellaire du marché mais il nous apporte quand même une certaine vision de notre "monde" de la data science.
Pas de changement de nom en 2019
Cette année, le magic quadrant n'a pas changé de nom ce qui prouve une certaine stabilisation de la pratique des outils de la data science. De plus, les acteurs présents sont toujours les mêmes ce qui est plutôt rassurant pour la pérennité de ces outils.
Obsession sur la scalabilité
Nous sommes passé de l'air des POC et autres prototypes à l'air du passage en production. Les outils classiques étaient adaptés au data mining et donc à un aspect exploratoire de l'analyse, on généralise aujourd'hui l'automatisation avec le machine learning et le deep learning. Le challenge des plateformes data science est de réussir ce changement.
Le futur
Avec un passage massif des entreprises au cloud, le risque pour les leaders actuels est de voir passer devant eux les spécialistes du cloud que sont Google et Microsoft. S'ils arrivent à clarifier leur offre, ils peuvent proposer une solution simple et répondant aux besoins des utilisateurs. Des acteurs comme Databricks ont bien compris cela et s'intègrent de manière très poussé dans l'environnement Microsoft.
Nous verrons les évolutions à venir... En attendant, n'hésitez pas à nous contacter pour vous former à tous ces outils novateurs et simple d'utilisation. Nous pouvons aussi vous accompagner pour leur mise en place dans votre structure.
Besoin de vous former aux outils de la data science ?
Partager cet article
Comments 3
Bonjour,
Merci pour votre excellent article. J’aurais toutefois une question. Quelles plateformes conseillez-vous d’apprendre, pour un datascientist junior (hormis les célèbres leaders, déjà très consolidés tels que Microsoft Azure et IBM).
Merci pour votre réponse
Bonjour,
La réponse n’est pas si simple. Je dirais qu’il vaut mieux s’adapter aux choix faits dans votre entreprise. Concernant les plateformes qui ont tendance à émerger sur le marché français, je vous conseillerai KNIME ou Dataiku qui ont des versions gratuites que vous pourrez tester.
Emmanuel
Merci beaucoup pour votre réponse