python en data science

Liste des packages Python pour la data science

Emmanuel Jakobowicz Mis à jour le : 21 mai 2018 actualités, méthode Leave a Comment

Le langage Python a retrouvé une nouvelle jeunesse depuis quelques années grâce à l’essor de la data science.

Comme je le disais dans l’article sur les langages de la data science, Python a pris une réelle valeur grâce au fait qu’il est à la fois un langage généraliste mais aussi qu’il possède des packages Python spécifiquement adaptés à la data science. Que ce soit pour la data science, la statistique, l’analyse de données ou encore la data visualisation, Python offre une alternative intéressante à R.

Je vous présente ici une liste de packages Python extrêmement utiles pour les data scientists désirant utiliser Python.

La suite

licences logiciel libre

Les licences d’utilisation en data science

Emmanuel Jakobowicz Mis à jour le : 6 juillet 2018 méthode Leave a Comment

Cet article fait suite à de nombreux échanges liés aux licences d’utilisation dans le logiciel libre. Même s’il s’agit d’un thème plutôt juridique il est central pour de nombreux acteurs de la data science. Je parle ici des licences liées aux outils logiciels et non des licences liées aux documents (comme Creative Commons).

La suite

Comparaison python et R

Faire une régression linéaire avec R et avec python

Emmanuel Jakobowicz Mis à jour le : 6 octobre 2020 méthode 9 Comments

R et python s’imposent aujourd’hui comme les langages de référence pour la data science. Dans cet article, je vais vous exposer la méthodologie pour appliquer un modèle de régression linéaire multiple avec R et python. Il ne s’agit pas ici de développer le modèle linéaire mais d’illustrer son application avec R et python.

La suite

python en data science

Les étapes pour utiliser Python en data science

Emmanuel Jakobowicz Mis à jour le : 12 février 2016 méthode 3 Comments

Depuis quelques années, le langage python prend une ampleur tout à fait inattendue avec une utilisation de plus en plus large. En science des données, python est devenu le langage de prédilection pour le traitement et l’analyse des données. Python en data science est devenu une référence.

Grâce à un écosystème d’API extrêmement riche il permet de traiter des données de types très variées (entre autres SQL mais aussi noSQL) et de piloter des outils de traitement avancé (notamment Spark avec PySpark pour le traitement massivement parallèle de données dites big data).

Dans cet article, mon objectif est de vous présenter un processus assez standard de développement d’outil pour le traitement des données avec le langage python en introduisant les bibliothèques adaptées.

La suite

Langage de la data science

Le langage de la data science

Emmanuel Jakobowicz Mis à jour le : 20 janvier 2017 actualités 3 Comments

Quel langage choisir ? Est-ce que le choix de R est automatique ? Faut-il préférer un langage propriétaire ou un langage libre ? Est-ce qu’il faut choisir un langage générique ou un langage orienté pour le calcul scientifique ? Autant de questions que tout data scientist se pose lors de la mise en place d’un projet ou lors de l’apprentissage de nouvelles techniques.

Comme vous l’imaginez, il n’y a pas une réponse unique à toutes ces questions. Voici quelques éléments de réponse.

La suite