10 sites données

10 sites pour trouver des jeux de données pour vos modèles

Emmanuel Jakobowicz Mis à jour le : 16 décembre 2019 actualités 3 Comments

Lorsque vous essayez de tester des modèles, il est complexe de trouver des jeux de données intéressants. Dans cet article, nous faisons un petit tour de quelques sites vous permettant de vous lancer avec de belles données.

Le plus riche : Kaggle

Aujourd’hui tout le monde connaît Kaggle pour ses compétitions. Mais il s’agit aussi d’une source de données quasiment inépuisable.

https://www.kaggle.com/datasets

En vous connectant, vous accéderez à des quantités extrêmement larges de données et des exemples de traitements.

Le plus ancien : UCI Machine Learning Repository

Ce site peut paraître ancien et passé de mode (sa création date de 1987), il possède néanmoins de nombreux jeux de données intéressants (488).

https://archive.ics.uci.edu/ml/

Vous trouverez surtout des données adaptés au machine learning.

L’outil de recherche de jeux de données par Google

Google a frappé un grand coup dans la recherche de données avec son Google Dataset Search :

https://toolbox.google.com/datasetsearch

Il permet tout simplement de faire une recherche et d’obtenir tous les datasets indexés par Google.

L’outil de recherche de jeux de données par Microsoft

Microsoft a créé son dépôt d’open data, il est stocké ici :

https://msropendata.com/

A la différence de Google, il s’agit de jeux de données Microsoft et non d’un outil de recherche global. On y trouve des données intéressants.

Les données d’Amazon

Amazon n’est pas en reste avec 120 jeux de données disponibles ici :

https://registry.opendata.aws/

Il s’agit encore de données « maison ».

Reddit pour des jeux de données avec discussion

Le site Reddit a une partie réservée aux datasets qui vous permettra de trouver la pépite dont vous avez besoin :

https://www.reddit.com/r/datasets/

Les données d’open data

L’open data est une source sans cesse renouvelée de données. Vous en trouverez quelques-uns dans notre article dédié au sujet.

Awesome public dataset, si vous cherchez des donnez sur un sujet

Si vous cherchez des données disponibles sur un domaine spécifique ce dépôt GitHub rassemble tout ce dont vous avez besoin :

https://github.com/awesomedata/awesome-public-datasets

Pour la vision par ordinateur

Pour les problématiques de vision par ordinateur, il faut des jeux de données spécifiques, visualdata.io rassemble de nombreux liens vers des données :

https://www.visualdata.io/

D’autres jeux de données en vrac

Les données airbnb (avec Paris) : http://insideairbnb.com/

Les données du million de chanson pour de la données sonore : http://millionsongdataset.com/

Les données vocales de la fondation Mozilla (30Gb en anglais et 5Gb en français) : https://voice.mozilla.org/en/datasets

Les données d’images de vêtements de Zalando, aussi appelé fashion-mnist : https://github.com/zalandoresearch/fashion-mnist

N’hésitez pas à en soumettre d’autres en commentaire de cet article.

Vous voulez utilisez ces données avec nos experts? Inscrivez-vous à nos formations

Partager cet article

Comments 3

  1. Bonjour je veux un jeu de données contenant les fichiers avec leurs caractéristiques comme (nom, extension, taille, signature , pays d’origine, etc…)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.