La Python Software Foundation (PSF) et JetBrains viennent de publier une enquête de grande envergure sur les utilisateurs de Python en 2018. Cette enquête basée sur plus de 20000 réponses tente de dessiner une photo des développeurs Python.
Vous trouverez toute l'analyse de base ici.
Les données brutes sont mises à disposition. Dans cet article mon ambition est d'obtenir une photographie similaire mais en me concentrant sur les utilisateurs du côté de la data science.
Les utilisateurs de Python en data science
L'objectif de cet article est d'analyser une sous-catégories des utilisateurs de Python de l'enquête de la PSF, ceux qui pratiquent Python pour traiter de la donnée.
Méthodologiquement, nous avons extrait les données brutes de l'enquête et nous avons effectué des analyses sur les utilisateurs dont la principale utilisation de Python était l'analyse des données ou le machine learning.
Cette sous-catégorie représente 28% des répondants ce qui nous permet d'avoir un échantillon de 4585 observations.
La première information intéressante réside dans le fait que 84% des répondants utilisent Python comme langage principal ce qui est exactement la même proportion que dans l'enquête complète.
Les autres langages
Les langages utilisés par les utilisateurs de Python en data science en plus de Python sont assez proches de l'ensemble des utilisateurs, on remarque surtout des différences sur les langages tels que R ou Scala pour lesquels il y a significativement plus d'utilisateurs. A l'inverse, les utilisateurs de langage "web" sont plus rares.
L'utilisation de Python 3 est extrêmement développée chez les utilisateurs de Python en data science avec 90% d'utilisateurs de Python 3. Ceci semble logique vu la récente apparition de Python en data science et vu le grand nombre de nouveaux projets.
Comment installe-t-on Python en data science ?
Si on rentre plus dans les détails, des outils Python utilisés, l'enquête de la PSF s'attarde sur les outils utilisés pour installer Python et sans grande surprise, on voit qu'Anaconda est beaucoup plus présent que chez les autres utilisateurs de Python.
De la même façon, pour créer des environnements, les utilisateurs de Python en data science privilégient Anaconda. Néanmoins VirtuaEnv reste le plus utilisé.
Quelles packages utilise-t-on ?
Assez logiquement, ce sont les packages de data science qui sont plébiscités.
- NumPy avec 89% d'utilisateurs
- Pandas avec 81%,
- Scikit-Learn avec 66%
- TensorFlow avec 50%.
Côté framework web, Django est moins bien adopté par les utilisateurs orientés data science. Par contre, Flask est plus utilisé chez les utilisateurs orientés data science que chez les autres (47% vs. 45%).
Quelles système d'exploitation utilise-t-on ?
Le système d'exploitation le plus utilisé reste Linux pour 69% des utilisateurs de Python en data science. Par contre, Windows est plus présent chez ce type d'utilisateurs que chez les autres (52% vs. 47%).
Quelle IDE ?
L'IDE est un point très important en Python. A la différence de R, pour lequel RStudio est la référence absolue, il n'existe pas de consensus côté Python. Il ressort qu'aucun outil ne dépasse les 15% d'utilisateurs ce qui est très faible.
PyCharm reste en tête, VS Code et Vim sont les deux autres outils "classiques" plébiscités. Jupyter Notebook arrive en 2nde position dans le monde de la data science ce qui est réellement une spécificité.
Qui a répondu à cette enquête ?
Uniquement 45% des répondants se considèrent comme développeurs (contre 73% dans l'enquête complète). Bien entendu, il y a beaucoup plus de data analysts que dans l'étude complète.
Concernant le travail d'équipe, ces utilisateurs travaillent plus seuls (53% contre 48%) . Ils sont dans le domaine de l'informatique depuis moins longtemps. Finalement en terme d'âge, on trouve plus de 20-29 ans dans cette sous-catégorie (45% vs. 39%) et moins "très jeunes".
Conclusions
Cette étude plus spécifique d'une sous-population de l'enquête de la PSF nous permet de comprendre un petit peu mieux le profil des utilisateurs de Python en data science. Même si cette étude conserve les biais de recueil de l'enquête initiale notamment le fort taux d'utilisateurs de Linux qui paraît exagérer si on se place dans le cadre d'utilisateurs de python en entreprise, il s'agit d'un pas dans le sens de la compréhension des utilisateurs et donc de la mise en place de réponses à leurs besoins.
N'hésitez pas à partager votre opinion dans les commentaires et à partager cet article sur les réseaux sociaux.
NOS FORMATIONS AUTOUR DE PYTHON
Partager cet article