Une forêt aléatoire ou random forest est une méthode d’apprentissage supervisé extrêmement utilisée par les data scientists. En effet, cette méthode combine de nombreux avantages dans le cadre d’un apprentissage supervisé. Dans cet article, je vais vous présenter l’approche et une application avec le langage python et le package de machine learning, scikit-learn.
10 sites pour trouver des jeux de données pour vos modèles
Lorsque vous essayez de tester des modèles, il est complexe de trouver des jeux de données intéressants. Dans cet article, nous faisons un petit tour de quelques sites vous permettant de vous lancer.
Traiter différents types de colonnes avec scikit-learn et ColumnTransformer
La classe ColumnTransformer de scikit-learn permet de traiter de manières différentes les colonnes d’un jeu de données, notamment les variables qualitatives et quantitatives.
Nouveau classement des plateformes data science 2019
Le cabinet Gartner vient de sortir son classement ou plutôt son cadran (magic quadrant) sur les plateformes data science et machine learning pour 2019.
Cette représentation des différents logiciels de data science est devenu une habitude dans la data science. Analysons ensemble ce rapport 2019.
L’intelligence artificielle : révolution ou évolution ?
Depuis plusieurs mois, le terme intelligence artificielle fleurit de toutes parts. Que ce soit dans la presse (il a remplacé le terme big data dans les médias généralistes), dans les revues plus techniques mais aussi sur tous les forums. J’avais envie de faire un point sur ce terme qui est loin d’être anodin et qui fait resurgir des imaginaires multiples et bien souvent effrayants.
Le machine learning pour tous
Voici quelques temps que le terme machine learning est présent dans le monde de la data. De plus en plus d’utilisateurs métiers, de managers, de dirigeants entendent ce mot. Il est souvent associé au big data, à l’intelligence artificielle… Je profite donc de cet article pour vous en présenter les grandes lignes sans formules ni trop de technicité.
Et si vous deveniez data scientist ?
Comme beaucoup, vous rêvez de devenir data scientist. Une fois que vous l’avez dit vous vous retrouvez face à un mur vertigineux et une première question périlleuse : un data scientist, c’est quoi ?
Le big data, c’est quoi ?
Aujourd’hui le big data est partout, l’idée derrière cet article est de clarifier un certain nombre de points que j’entends quasi quotidiennement sur le big data. Est-ce une révolution, un terme hype, une tendance lourde, un simple buzz-word ? Je dirais que c’est un peu tout à la fois et je vais vous expliquer pourquoi.
Big data (ou données massives, moins sexy pour les francophones) c’est surtout un terme qui a permis de mettre en avant comme jamais l’importance de la data dans notre quotidien. Notre quotidien professionnel bien sûr mais aussi notre vie de tous les jours et notre vie de citoyen.
Spark, boîte à outils du big data
Si vous suivez même de loin le monde du big data, vous avez forcément entendu parler du projet Spark. Et si vous n’en avez jamais entendu parler, il est temps de le découvrir.
Dans cet article je vais vous donner les clés pour comprendre ce qu’est Spark et la façon de l’utiliser.
Quel est la relation entre Spark et Hadoop ? Est-ce un langage ? Dans quel cas est-ce utile ? Quelles sont ses composantes ?…