Skip to content

Latest commit

 

History

History
234 lines (138 loc) · 8.29 KB

README.md

File metadata and controls

234 lines (138 loc) · 8.29 KB

Haut de la page



Vous trouverez des Datasets dans diverses catégories. Toutes les catégories sont accessibles via le menu en dessous de cette introduction. Les Datasets sont tous open sources et gratuits, et ne nécessitent aucune autorisation. Pour l'ouverture des datasets avec python voici un petit tuto qui montre comment les ouvrir en fonction des types de fichiers.


Moteurs de recherches de Datasets


Categories



Ouvrir un Dataset avec python

Fichier nc/nc4

import xarray as xr

ds = xr.open_dataset('your/path/dataset.nc4')
df = ds.to_dataframe()

Fichier csv

import pandas as pd

df = pd.read_csv('your/path/dataset.csv') # delim_whitespace=True si colonnes séparés par des espaces

Fichier excel

import pandas as pd

df = pd.read_excel('your/path/dataset.xls(x)') # delim_whitespace=True si colonnes séparés par des espaces

Fichier tsv

import pandas as pd

df = pd.read_csv('your/path/dataset.tsv', delimiter="\t")

Fichier txt

import pandas as pd

df = pd.read_csv('your/path/dataset.txt', delimiter="\t", header = None)

Fichier dat

import numpy as np
# Il faut spécifier le nom des colonnes et choisir le bon séparateur
df = pd.read_table('your/path/dataset.dat', names=['x1','x2','x3'], sep=',' ,encoding='utf-8')

Machine Learning

1. Visages labelisés

Aperçu du dataset (173 Mb) :

Capture d’écran 2021-05-24 à 10 09 41

Il est composée de 5749 dossiers, qui contiennent chacun une ou plusieurs images d'une même personne. Par exemple ci-dessus le dossier Matt_Damon.

Download

2. IMDb Datasets

Aperçu du dataset title.ratings.tsv :

Capture d’écran 2021-05-22 à 12 36 37

Il y a 7 datasets tsv disponibles, les données sont mises à jour tous les jours.

Download

3. Classification de bananes

Aperçu du dataset complet :

Capture d’écran 2021-05-22 à 18 24 12

Le dataset est détaillé dans le fichier header, dat1 et dat2 correspondent aux coordonnées des points x, y et class à la classe. Exemple de plot des bananes par classe :

Capture d’écran 2021-05-24 à 17 41 24

Download

4. Classification de voitures

Aperçu :

Capture d’écran 2021-05-22 à 18 08 23

Download

5. Regression - tremblements de terre

Aperçu :

Capture d’écran 2021-05-22 à 18 30 15

Le dataset renseigne sur la profondeur, les coordonnées géographiques et l'intensité sur l'échelle de Richter.
Exemple de plot en coloriant suivant l'intensité:

Capture d’écran 2021-05-22 à 23 16 19

Download



Traitement du langage naturel

1. Messages SMS spam

Aperçu du dataset depuis le "Link1" du tableau :

Capture d’écran 2021-05-22 à 12 20 54

C'est un fichier texte qu'on manipule avec pandas comme ceci :

df = pd.read_csv('your/path/SMSSpamCollection.txt', header = None, delimiter='\t')

df.columns =['type', 'sms']
df['type']=df['type'].astype(str)
df['sms']=df['sms'].astype(str)

Download

Time series

1. Disques durs anomalies

Aperçu des 5 premières colonnes sur 85 :

Capture d’écran 2021-05-24 à 14 11 43

Il a un dataset par année, pour accéder aux datasets il faut aller tout en bas de la page. Puis dans chaque dossier de chaque année il y a un fichier csv par jour.

Download

Big data

Agriculture

1. Food data - U.S. DEPARTMENT OF AGRICULTURE

Aperçu du dataset food_calorie_conversion_factor.csv du fichier "April 2021 (CSV – 216M)" :

Capture d’écran 2021-05-22 à 12 20 54

Le fichier contient 35 Datasets csv qui sont tous détaillés dans le pdf joint avec.

Download


2. Données hyperspectrales d'un échantillon de sol en campagne

Aperçu :

Capture d’écran 2021-05-21 à 16 54 37

Download



Haut de la page