Lorsque vous essayez de tester des modèles, il est complexe de trouver des jeux de données intéressants. Dans cet article, nous faisons un petit tour de quelques sites vous permettant de vous lancer avec de belles données.
Le plus riche : Kaggle
Aujourd’hui tout le monde connaît Kaggle pour ses compétitions. Mais il s’agit aussi d’une source de données quasiment inépuisable.
https://www.kaggle.com/datasets
En vous connectant, vous accéderez à des quantités extrêmement larges de données et des exemples de traitements.
Le plus ancien : UCI Machine Learning Repository
Ce site peut paraître ancien et passé de mode (sa création date de 1987), il possède néanmoins de nombreux jeux de données intéressants (488).
https://archive.ics.uci.edu/ml/
Vous trouverez surtout des données adaptés au machine learning.
L’outil de recherche de jeux de données par Google
Google a frappé un grand coup dans la recherche de données avec son Google Dataset Search :
https://toolbox.google.com/datasetsearch
Il permet tout simplement de faire une recherche et d’obtenir tous les datasets indexés par Google.
L’outil de recherche de jeux de données par Microsoft
Microsoft a créé son dépôt d’open data, il est stocké ici :
A la différence de Google, il s’agit de jeux de données Microsoft et non d’un outil de recherche global. On y trouve des données intéressants.
Les données d’Amazon
Amazon n’est pas en reste avec 120 jeux de données disponibles ici :
https://registry.opendata.aws/
Il s’agit encore de données « maison ».
Reddit pour des jeux de données avec discussion
Le site Reddit a une partie réservée aux datasets qui vous permettra de trouver la pépite dont vous avez besoin :
https://www.reddit.com/r/datasets/
Les données d’open data
L’open data est une source sans cesse renouvelée de données. Vous en trouverez quelques-uns dans notre article dédié au sujet.
Awesome public dataset, si vous cherchez des donnez sur un sujet
Si vous cherchez des données disponibles sur un domaine spécifique ce dépôt GitHub rassemble tout ce dont vous avez besoin :
https://github.com/awesomedata/awesome-public-datasets
Pour la vision par ordinateur
Pour les problématiques de vision par ordinateur, il faut des jeux de données spécifiques, visualdata.io rassemble de nombreux liens vers des données :
D’autres jeux de données en vrac
Les données airbnb (avec Paris) : http://insideairbnb.com/
Les données du million de chanson pour de la données sonore : http://millionsongdataset.com/
Les données vocales de la fondation Mozilla (30Gb en anglais et 5Gb en français) : https://voice.mozilla.org/en/datasets
Les données d’images de vêtements de Zalando, aussi appelé fashion-mnist : https://github.com/zalandoresearch/fashion-mnist
N’hésitez pas à en soumettre d’autres en commentaire de cet article.
Vous voulez utilisez ces données avec nos experts? Inscrivez-vous à nos formations
Partager cet article
Comments 3
je veux les dataset pour tester mes code en python je viens de commence avec les bibliothèque numpy pandas en python
Bonjour,
Il vous suffit de suivre les liens.
Bien cordialement,
Emmanuel
Bonjour je veux un jeu de données contenant les fichiers avec leurs caractéristiques comme (nom, extension, taille, signature , pays d’origine, etc…)