La dernière étude du cabinet Gartner compare les data science platforms. On s’attendait à ce nouveau nom, mais y a-t-il de réelles nouveautés ?
L’évaluation est faite sur 16 vendeurs de solutions permettant de construire des blocs de traitement de données allant de la récupération des données au machine learning en passant par des possibilités de mise en production. Les 6 analystes auteurs du rapport (Alexander Linden, Peter Krensky, Jim Hare, Carlie J. Idoine, Svetlana Sicular et Shubhangi Vashisth) rappellent quelques définitions, notamment celui de data science platform : « A cohesive software application that offers a mixture of basic building blocks essential for creating all kinds of data science solutions, and for incorporating those solutions into business processes, surrounding infrastructure and products ». Ce nouveau nom traduit bien les évolutions du marché et la tendance à l’utilisation du terme data science de plus en plus généralisé.
Les advanced analytics platforms sont donc devenues des data science platforms avec des petits nouveaux et beaucoup de similarités.
Comme à son habitude, Gartner n’inclut pas de solutions 100% open-source dans ses comparatifs même s’il admet que ces solutions sont moteurs sur ce marché (R, python,Apache spark…).
Le rapport original sur les data science platforms peut être demandé à certains vendeurs cités dans le rapport. Par exemple, par le biais de RapidMiner, ici.
16 data science platforms sélectionnées
Sur la base de critères basés sur les fonctionnalités des produits (15 critères), sur la croissance et sur le nombre de clients importants , 16 vendeursde data science platforms ont été sélectionnés. Il représente un bon échantillon des vendeurs présents sur le marché. On retrouve parmi eux de nombreux outils créés dans le cadre du data mining il y a déjà bien longtemps.
Tous ces éditeurs ont récemment fait évoluer leur cible avec l’avènement du data scientist et de la data science.
Des leaders bien en place
On peut noter que les leaders ne changent pas depuis 2016 : IBM, SAS, RapidMiner et KNIME sont toujours au même point et gardent leur place .
- IBM et ses solutions data science : IBM-SPSS Modeler et Statistics.
- SAS et ses solutions Entreprise Miner et Visual Analyitcs.
- RapidMiner et sa solution de traitement de données sous forme de blocs.
- KNIME et sa data science platform.
Ces 4 leaders sont définis par une forte présence et une place importante dans le marché.
De nouveaux entrants remarqués
On remarque aussi des petits nouveaux avec notamment le français DataIku (en tant que visionnaire), mais aussi Domino Data Lab ou encore MathWorks (qui est loin d’être un inconnu avec Matlab). Quest remplace Dell pour cause de revente de cette activité par Dell (Statistica). Microsoft garde sa place de visionnaire grâce à de nombreuses innovations dans son offre.
D’autres conclusions intéressantes
Malgré une faible évolution, la lecture du rapport permet de voir à quel point cet répartition des acteurs. En effet, les leaders paraissent avoir des faiblesses notamment, selon le rapport, l’offre floue des outils IBM (avec la multiplication des offres) et leur image « outdated and overpriced » ou les pricing très élevés de SAS et la multiplication des outils SAS.
Les nouveaux entrants pourraient rapidement devenir leaders s’ils suivent les évolutions rapides du marché et proposent de meilleures intégrations et de nouveaux traitements avancés. Il leur faudra aussi faire des investissements importants pour acquérir une base client suffisamment large. Dans ce cadre, Microsoft a clairement une carte à jouter avec des nouvelles en cloud et une base client déjà très étoffée. Il ne leur reste qu’à convaincre leurs clients que d’avoir des outils 100% SaaS est une solution acceptable.
Un autre point intéressant est la mise en avant par les analystes des technologies open-source avec notamment la fondation Apache et le projet Apache Spark (voir mon article sur le sujet ici). Et bien sûr, l’omniprésence sur le marche de python, R et scala, les langages de la data science (pour un autre articles sur ces langages, cliquez ici).
Il ressort en tout cas que la data science est en plein essor et que les plateformes mûrissent rapidement. A chacun de parier sur ses préférées et pour ça rien de mieux que de les tester !
Partager cet article
Comments 1
Pingback: Microsoft se lance dans R avec R open, R client et R server