Chapitre 14 Jeux de données utilisés

Ce chapitre présente les différents jeux de données utilisés dans ce livre.

14.1 Iris 🌺

Le jeu de données présente les caractéristiques de 3 espèces de fleurs. Il est intégré au package datasets déjà chargé à chaque ouverture de session dans RStudio.

Voici la présentation du jeu de données :

  • Sepal.Length : longueur du sépale
  • Sepal.Width : largeur du sépale
  • Petal.Length : longueur du pétale
  • Petal.Width : largeur du pétale
  • Species : l’espèce de la fleur
dim(iris)
## [1] 150   5

Voici un extrait du dataset :

Sepal.Length Sepal.Width Petal.Length Petal.Width Species
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
5.4 3.9 1.7 0.4 setosa
4.6 3.4 1.4 0.3 setosa
5.0 3.4 1.5 0.2 setosa
4.4 2.9 1.4 0.2 setosa
4.9 3.1 1.5 0.1 setosa
5.4 3.7 1.5 0.2 setosa
4.8 3.4 1.6 0.2 setosa
4.8 3.0 1.4 0.1 setosa
4.3 3.0 1.1 0.1 setosa
5.8 4.0 1.2 0.2 setosa
5.7 4.4 1.5 0.4 setosa
5.4 3.9 1.3 0.4 setosa
5.1 3.5 1.4 0.3 setosa
5.7 3.8 1.7 0.3 setosa
5.1 3.8 1.5 0.3 setosa

14.2 Histoire de vie (hdv2003) 🗨

Le jeu de données est un extrait de l’enquête Histoire de vie réalisée par l’INSEE en 2003. Il contient 2000 individus et 20 variables.

Pour pouvoir utiliser ces données, il faut d’abord charger l’extension questionr (après l’avoir installée, bien entendu) :

library(questionr)

Nous devons ensuite indiquer à R que nous souhaitons accéder au jeu de données à l’aide de la commande data :

data(hdv2003)

Cette commande ne renvoie aucun résultat particulier (sauf en cas d’erreur), mais vous devriez voir apparaître dans l’onglet Environment de RStudio un nouvel objet nommé hdv2003 :

On utilise la fonction dim pour connaître la taille du dataset

dim(hdv2003)
## [1] 2000   20

Voici un extrait du dataset :

id age sexe nivetud poids occup qualif freres.soeurs clso relig trav.imp trav.satisf hard.rock lecture.bd peche.chasse cuisine bricol cinema sport heures.tv
1 28 Femme Enseignement superieur y compris technique superieur 2634.3982 Exerce une profession Employe 8 Oui Ni croyance ni appartenance Peu important Insatisfaction Non Non Non Oui Non Non Non 0.0
2 23 Femme NA 9738.3958 Etudiant, eleve NA 2 Oui Ni croyance ni appartenance NA NA Non Non Non Non Non Oui Oui 1.0
3 59 Homme Derniere annee d’etudes primaires 3994.1025 Exerce une profession Technicien 2 Non Ni croyance ni appartenance Aussi important que le reste Equilibre Non Non Non Non Non Non Oui 0.0
4 34 Homme Enseignement superieur y compris technique superieur 5731.6615 Exerce une profession Technicien 1 Non Appartenance sans pratique Moins important que le reste Satisfaction Non Non Non Oui Oui Oui Oui 2.0
5 71 Femme Derniere annee d’etudes primaires 4329.0940 Retraite Employe 0 Oui Pratiquant regulier NA NA Non Non Non Non Non Non Non 3.0
6 35 Femme Enseignement technique ou professionnel court 8674.6994 Exerce une profession Employe 5 Non Ni croyance ni appartenance Le plus important Equilibre Non Non Non Non Non Oui Oui 2.0
7 60 Femme Derniere annee d’etudes primaires 6165.8035 Au foyer Ouvrier qualifie 1 Oui Appartenance sans pratique NA NA Non Non Oui Oui Non Non Non 2.9
8 47 Homme Enseignement technique ou professionnel court 12891.6408 Exerce une profession Ouvrier qualifie 5 Non Ni croyance ni appartenance Peu important Insatisfaction Non Non Oui Oui Oui Non Non 1.0
9 20 Femme NA 7808.8721 Etudiant, eleve NA 4 Oui Appartenance sans pratique NA NA Non Non Non Non Non Oui Non 2.0
10 28 Homme Enseignement technique ou professionnel long 2277.1605 Exerce une profession Autre 2 Non Pratiquant occasionnel Moins important que le reste Satisfaction Non Non Non Non Non Oui Oui 2.0
11 65 Femme Enseignement superieur y compris technique superieur 704.3227 Retraite Employe 3 Oui Appartenance sans pratique NA NA Non Non Non Oui Oui Oui Non 1.0
12 47 Homme 2eme cycle 6697.8682 Exerce une profession Ouvrier qualifie 4 Oui Appartenance sans pratique Moins important que le reste Satisfaction Non Non Non Non Oui Non Oui 0.0
13 63 Femme Derniere annee d’etudes primaires 7118.4659 Retraite Employe 1 Oui Appartenance sans pratique NA NA Non Non Non Oui Non Non Non 4.0
14 67 Femme Enseignement technique ou professionnel court 586.7714 Exerce une profession NA 5 Oui Pratiquant occasionnel Moins important que le reste Satisfaction Non Non Non Oui Oui Non Non 1.0
15 76 Femme A arrete ses etudes, avant la derniere annee d’etudes primaires 11042.0774 Retraite NA 2 Oui Appartenance sans pratique NA NA Non Non Non Oui Non Oui Non 3.0
16 49 Femme Enseignement technique ou professionnel court 9958.2287 Exerce une profession Employe 3 Non Pratiquant occasionnel Moins important que le reste Equilibre Non Non Non Non Non Oui Non 0.0
17 62 Homme Enseignement superieur y compris technique superieur 4836.1393 Retraite Cadre 4 Non Pratiquant regulier NA NA Non Non Non Oui Oui Oui Oui 1.0
18 20 Femme NA 1551.4846 Etudiant, eleve NA 0 Non Appartenance sans pratique NA NA Non Non Non Oui Oui Oui Oui 3.0
19 70 Homme Derniere annee d’etudes primaires 3141.1572 Retraite Ouvrier specialise 2 Non Appartenance sans pratique NA NA Non Non Non Non Non Non Non 1.0
20 39 Femme Enseignement technique ou professionnel court 27195.8378 Exerce une profession Ouvrier qualifie 5 Non Appartenance sans pratique Moins important que le reste Satisfaction Non Non Non Non Non Oui Oui 2.7

14.3 NYC Flights 2013 ✈

Le package nycflights13 propose plusieurs data.frame. Ceux-ci correspondent aux données de tous les vols au départ d’un des trois aéroports de New-York en 2013.

library(nycflights13)
ls("package:nycflights13")
## [1] "airlines" "airports" "flights"  "planes"   "weather"

14.3.1 Flights

Cette table présente les informations qui caractérisent un vol, Voici la présentation du jeu de données :

  • year, month, day : date du vol.
  • dep_time, arr_time : Heures de départ et d’arrivée réelles (format HHMM ou HMM).
  • sched_dep_time,sched_arr_time : Heures de départ et d’arrivée prévues (format HHMM ou HMM).
  • dep_delay, arr_delay : Retards de départ et d’arrivée, en minutes. Les temps négatifs représentent des départs / arrivées précoces.
  • carrier : Abréviation à deux lettres des compagnies aériennes.
  • flights : Numéro de vol
  • tailnum : Immatriculation de l’avion
  • origine, dest : Aéroport de départ et destination.
  • air_time : Durée du vol en minutes.
  • distance : Distance entre les aéroports, en miles.
  • hour , minute : Heure de départ prévue divisée en heures et minutes.
  • time_hour : Date et heure prévues du vol
dim(flights)
## [1] 336776     19

Voici un extrait du dataset :

year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time arr_delay carrier flight tailnum origin dest air_time distance hour minute time_hour
2013 1 1 517 515 2 830 819 11 UA 1545 N14228 EWR IAH 227 1400 5 15 2013-01-01T10:00:00Z
2013 1 1 533 529 4 850 830 20 UA 1714 N24211 LGA IAH 227 1416 5 29 2013-01-01T10:00:00Z
2013 1 1 542 540 2 923 850 33 AA 1141 N619AA JFK MIA 160 1089 5 40 2013-01-01T10:00:00Z
2013 1 1 544 545 -1 1004 1022 -18 B6 725 N804JB JFK BQN 183 1576 5 45 2013-01-01T10:00:00Z
2013 1 1 554 600 -6 812 837 -25 DL 461 N668DN LGA ATL 116 762 6 0 2013-01-01T11:00:00Z
2013 1 1 554 558 -4 740 728 12 UA 1696 N39463 EWR ORD 150 719 5 58 2013-01-01T10:00:00Z
2013 1 1 555 600 -5 913 854 19 B6 507 N516JB EWR FLL 158 1065 6 0 2013-01-01T11:00:00Z
2013 1 1 557 600 -3 709 723 -14 EV 5708 N829AS LGA IAD 53 229 6 0 2013-01-01T11:00:00Z
2013 1 1 557 600 -3 838 846 -8 B6 79 N593JB JFK MCO 140 944 6 0 2013-01-01T11:00:00Z
2013 1 1 558 600 -2 753 745 8 AA 301 N3ALAA LGA ORD 138 733 6 0 2013-01-01T11:00:00Z
2013 1 1 558 600 -2 849 851 -2 B6 49 N793JB JFK PBI 149 1028 6 0 2013-01-01T11:00:00Z
2013 1 1 558 600 -2 853 856 -3 B6 71 N657JB JFK TPA 158 1005 6 0 2013-01-01T11:00:00Z
2013 1 1 558 600 -2 924 917 7 UA 194 N29129 JFK LAX 345 2475 6 0 2013-01-01T11:00:00Z
2013 1 1 558 600 -2 923 937 -14 UA 1124 N53441 EWR SFO 361 2565 6 0 2013-01-01T11:00:00Z
2013 1 1 559 600 -1 941 910 31 AA 707 N3DUAA LGA DFW 257 1389 6 0 2013-01-01T11:00:00Z
2013 1 1 559 559 0 702 706 -4 B6 1806 N708JB JFK BOS 44 187 5 59 2013-01-01T10:00:00Z
2013 1 1 559 600 -1 854 902 -8 UA 1187 N76515 EWR LAS 337 2227 6 0 2013-01-01T11:00:00Z
2013 1 1 600 600 0 851 858 -7 B6 371 N595JB LGA FLL 152 1076 6 0 2013-01-01T11:00:00Z
2013 1 1 600 600 0 837 825 12 MQ 4650 N542MQ LGA ATL 134 762 6 0 2013-01-01T11:00:00Z
2013 1 1 601 600 1 844 850 -6 B6 343 N644JB EWR PBI 147 1023 6 0 2013-01-01T11:00:00Z

14.3.2 Airlines

La table airlines contient des données sur les compagnies aériennes

dim(airlines)
## [1] 16  2

Voici un extrait du dataset :

carrier name
9E Endeavor Air Inc. 
AA American Airlines Inc. 
AS Alaska Airlines Inc. 
B6 JetBlue Airways
DL Delta Air Lines Inc. 
EV ExpressJet Airlines Inc. 
F9 Frontier Airlines Inc. 
FL AirTran Airways Corporation
HA Hawaiian Airlines Inc. 
MQ Envoy Air
OO SkyWest Airlines Inc. 
UA United Air Lines Inc. 
US US Airways Inc. 
VX Virgin America
WN Southwest Airlines Co. 
YV Mesa Airlines Inc. 

14.3.3 Airports

La table airports contient des informations sur les aéroports

dim(airports)
## [1] 1458    8

Voici un extrait du dataset :

faa name lat lon alt tz dst tzone
04G Lansdowne Airport 41.13047 -80.61958 1044 -5 A America/New_York
06A Moton Field Municipal Airport 32.46057 -85.68003 264 -6 A America/Chicago
06C Schaumburg Regional 41.98934 -88.10124 801 -6 A America/Chicago
06N Randall Airport 41.43191 -74.39156 523 -5 A America/New_York
09J Jekyll Island Airport 31.07447 -81.42778 11 -5 A America/New_York
0A9 Elizabethton Municipal Airport 36.37122 -82.17342 1593 -5 A America/New_York
0G6 Williams County Airport 41.46731 -84.50678 730 -5 A America/New_York
0G7 Finger Lakes Regional Airport 42.88356 -76.78123 492 -5 A America/New_York
0P2 Shoestring Aviation Airfield 39.79482 -76.64719 1000 -5 U America/New_York
0S9 Jefferson County Intl 48.05381 -122.81064 108 -8 A America/Los_Angeles
0W3 Harford County Airport 39.56684 -76.20240 409 -5 A America/New_York
10C Galt Field Airport 42.40289 -88.37511 875 -6 U America/Chicago
17G Port Bucyrus-Crawford County Airport 40.78156 -82.97481 1003 -5 A America/New_York
19A Jackson County Airport 34.17586 -83.56160 951 -5 U America/New_York
1A3 Martin Campbell Field Airport 35.01581 -84.34683 1789 -5 A America/New_York
1B9 Mansfield Municipal 42.00013 -71.19677 122 -5 A America/New_York
1C9 Frazier Lake Airpark 54.01333 -124.76833 152 -8 A America/Vancouver
1CS Clow International Airport 41.69597 -88.12923 670 -6 U America/Chicago
1G3 Kent State Airport 41.15139 -81.41511 1134 -5 A America/New_York
1G4 Grand Canyon West Airport 35.89990 -113.81567 4813 -7 A America/Phoenix

14.3.4 Weather

La table weather contient des informations sur les conditions météorologiques

dim(weather)
## [1] 26115    15

Voici un extrait du dataset :

origin year month day hour temp dewp humid wind_dir wind_speed wind_gust precip pressure visib time_hour
EWR 2013 1 1 1 39.02 26.06 59.37 270 10.35702 NA 0 1012.0 10 2013-01-01 01:00:00
EWR 2013 1 1 2 39.02 26.96 61.63 250 8.05546 NA 0 1012.3 10 2013-01-01 02:00:00
EWR 2013 1 1 3 39.02 28.04 64.43 240 11.50780 NA 0 1012.5 10 2013-01-01 03:00:00
EWR 2013 1 1 4 39.92 28.04 62.21 250 12.65858 NA 0 1012.2 10 2013-01-01 04:00:00
EWR 2013 1 1 5 39.02 28.04 64.43 260 12.65858 NA 0 1011.9 10 2013-01-01 05:00:00
EWR 2013 1 1 6 37.94 28.04 67.21 240 11.50780 NA 0 1012.4 10 2013-01-01 06:00:00
EWR 2013 1 1 7 39.02 28.04 64.43 240 14.96014 NA 0 1012.2 10 2013-01-01 07:00:00
EWR 2013 1 1 8 39.92 28.04 62.21 250 10.35702 NA 0 1012.2 10 2013-01-01 08:00:00
EWR 2013 1 1 9 39.92 28.04 62.21 260 14.96014 NA 0 1012.7 10 2013-01-01 09:00:00
EWR 2013 1 1 10 41.00 28.04 59.65 260 13.80936 NA 0 1012.4 10 2013-01-01 10:00:00
EWR 2013 1 1 11 41.00 26.96 57.06 260 14.96014 NA 0 1011.4 10 2013-01-01 11:00:00
EWR 2013 1 1 13 39.20 28.40 69.67 330 16.11092 NA 0 NA 10 2013-01-01 13:00:00
EWR 2013 1 1 14 39.02 24.08 54.68 280 13.80936 NA 0 1010.8 10 2013-01-01 14:00:00
EWR 2013 1 1 15 37.94 24.08 57.04 290 9.20624 NA 0 1011.9 10 2013-01-01 15:00:00
EWR 2013 1 1 16 37.04 19.94 49.62 300 13.80936 20.71404 0 1012.1 10 2013-01-01 16:00:00
EWR 2013 1 1 17 35.96 19.04 49.83 330 11.50780 NA 0 1013.2 10 2013-01-01 17:00:00
EWR 2013 1 1 18 33.98 15.08 45.43 310 12.65858 25.31716 0 1014.1 10 2013-01-01 18:00:00
EWR 2013 1 1 19 33.08 12.92 42.84 320 10.35702 NA 0 1014.4 10 2013-01-01 19:00:00
EWR 2013 1 1 20 32.00 15.08 49.19 310 14.96014 NA 0 1015.2 10 2013-01-01 20:00:00
EWR 2013 1 1 21 30.02 12.92 48.48 320 18.41248 26.46794 0 1016.0 10 2013-01-01 21:00:00

14.3.5 Planes

La table planes contient des informations sur les appareil

dim(planes)
## [1] 3322    9

Voici un extrait du dataset :

tailnum year type manufacturer model engines seats speed engine
N10156 2004 Fixed wing multi engine EMBRAER EMB-145XR 2 55 NA Turbo-fan
N102UW 1998 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N103US 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N104UW 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N10575 2002 Fixed wing multi engine EMBRAER EMB-145LR 2 55 NA Turbo-fan
N105UW 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N107US 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N108UW 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N109UW 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N110UW 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N11106 2002 Fixed wing multi engine EMBRAER EMB-145XR 2 55 NA Turbo-fan
N11107 2002 Fixed wing multi engine EMBRAER EMB-145XR 2 55 NA Turbo-fan
N11109 2002 Fixed wing multi engine EMBRAER EMB-145XR 2 55 NA Turbo-fan
N11113 2002 Fixed wing multi engine EMBRAER EMB-145XR 2 55 NA Turbo-fan
N11119 2002 Fixed wing multi engine EMBRAER EMB-145XR 2 55 NA Turbo-fan
N11121 2003 Fixed wing multi engine EMBRAER EMB-145XR 2 55 NA Turbo-fan
N11127 2003 Fixed wing multi engine EMBRAER EMB-145XR 2 55 NA Turbo-fan
N11137 2003 Fixed wing multi engine EMBRAER EMB-145XR 2 55 NA Turbo-fan
N11140 2003 Fixed wing multi engine EMBRAER EMB-145XR 2 55 NA Turbo-fan
N11150 2003 Fixed wing multi engine EMBRAER EMB-145XR 2 55 NA Turbo-fan

14.4 Google 📱

Le dataset google.csv décrit des applications du store google. Le fichier est issu du site Kaggle. Il a été adapté dans ce livre.

Voici la présentation du jeu de données :

  • App : Nom de l’application
  • Category : Catégorie de l’application
  • Rating : Note moyenne des utilisateurs
  • Reviews : Nombre d’avis d’utilisateurs
  • Installs : Nombre d’installation
  • Type : Application gratuite / payante
  • Price : Prix de l’application
  • Content.Rating : Public concerné
  • Last.Updated : Date de la dernière version
  • Size_recode : Taille de l’application (en Mo)
google <- read.csv(file = "./dataset/google.csv", sep = '\t')
dim(google)
## [1] 8196   10

Voici un extrait du dataset :

App Category Rating Reviews Installs Type Price Content.Rating Last.Updated Size_recode
Photo Editor & Candy Camera & Grid & ScrapBook ART_AND_DESIGN 4.1 159 1e+04 Free 0 Everyone 2018-01-07T00:00:00Z 19.0
Coloring book moana ART_AND_DESIGN 3.9 967 5e+05 Free 0 Everyone 2018-01-15T00:00:00Z 14.0
U Launcher Lite – FREE Live Cool Themes, Hide Apps ART_AND_DESIGN 4.7 87510 5e+06 Free 0 Everyone 2018-08-01T00:00:00Z 8.7
Sketch - Draw & Paint ART_AND_DESIGN 4.5 215644 5e+07 Free 0 Teen 2018-06-08T00:00:00Z 25.0
Pixel Draw - Number Art Coloring Book ART_AND_DESIGN 4.3 967 1e+05 Free 0 Everyone 2018-06-20T00:00:00Z 2.8
Paper flowers instructions ART_AND_DESIGN 4.4 167 5e+04 Free 0 Everyone 2017-03-26T00:00:00Z 5.6
Smoke Effect Photo Maker - Smoke Editor ART_AND_DESIGN 3.8 178 5e+04 Free 0 Everyone 2018-04-26T00:00:00Z 19.0
Infinite Painter ART_AND_DESIGN 4.1 36815 1e+06 Free 0 Everyone 2018-06-14T00:00:00Z 29.0
Garden Coloring Book ART_AND_DESIGN 4.4 13791 1e+06 Free 0 Everyone 2017-09-20T00:00:00Z 33.0
Kids Paint Free - Drawing Fun ART_AND_DESIGN 4.7 121 1e+04 Free 0 Everyone 2018-07-03T00:00:00Z 3.1
Text on Photo - Fonteee ART_AND_DESIGN 4.4 13880 1e+06 Free 0 Everyone 2017-10-27T00:00:00Z 28.0
Name Art Photo Editor - Focus n Filters ART_AND_DESIGN 4.4 8788 1e+06 Free 0 Everyone 2018-07-31T00:00:00Z 12.0
Tattoo Name On My Photo Editor ART_AND_DESIGN 4.2 44829 1e+07 Free 0 Teen 2018-04-02T00:00:00Z 20.0
Mandala Coloring Book ART_AND_DESIGN 4.6 4326 1e+05 Free 0 Everyone 2018-06-26T00:00:00Z 21.0
3D Color Pixel by Number - Sandbox Art Coloring ART_AND_DESIGN 4.4 1518 1e+05 Free 0 Everyone 2018-08-03T00:00:00Z 37.0
Learn To Draw Kawaii Characters ART_AND_DESIGN 3.2 55 5e+03 Free 0 Everyone 2018-06-06T00:00:00Z 2.7
Photo Designer - Write your name with shapes ART_AND_DESIGN 4.7 3632 5e+05 Free 0 Everyone 2018-07-31T00:00:00Z 5.5
350 Diy Room Decor Ideas ART_AND_DESIGN 4.5 27 1e+04 Free 0 Everyone 2017-11-07T00:00:00Z 17.0
FlipaClip - Cartoon animation ART_AND_DESIGN 4.3 194216 5e+06 Free 0 Everyone 2018-08-03T00:00:00Z 39.0
ibis Paint X ART_AND_DESIGN 4.6 224399 1e+07 Free 0 Everyone 2018-07-30T00:00:00Z 31.0

14.5 Pokemon 🐾

Le dataset pokemon.xlsx décrit les statistiques des pokemon des deux premières générations. Le fichier est issu du site Kaggle. Il a été adapté dans ce livre

Voici la présentation du jeu de données :

  • pokedex_number : numéro du pokemon
  • nom : nom du pokemon
  • generation : le numéro de génération dont est issu le pokemon
  • is_legendary : Oui / Non si le pokemon est légendaire
  • type : le type du pokemon
  • weight_kg : le poids du pokemon en kg
  • height_m : la taille du pokemon en mètre
  • attack : la puissance d’attaque du pokemon
  • defense : la puissance de défense du pokemon
  • speed : la vitesse du pokemon
library(readxl)
pokemon <- read_excel(path = "./dataset/pokemon.xlsx", sheet = "pokemon")
dim(pokemon)
## [1] 251  10
pokedex_number nom generation is_legendary type weight_kg height_m attack defense speed
1 Bulbizarre 1 Non grass 6.9 0.7 49 49 45
2 Herbizarre 1 Non grass 13.0 1.0 62 63 60
3 Florizarre 1 Non grass 100.0 2.0 100 123 80
4 Salameche 1 Non fire 8.5 0.6 52 43 65
5 Reptincel 1 Non fire 19.0 1.1 64 58 80
6 Dracaufeu 1 Non fire 90.5 1.7 104 78 100
7 Carapuce 1 Non water 9.0 0.5 48 65 43
8 Carabaffe 1 Non water 22.5 1.0 63 80 58
9 Tortank 1 Non water 85.5 1.6 103 120 78
10 Chenipan 1 Non bug 2.9 0.3 30 35 45
11 Chrysacier 1 Non bug 9.9 0.7 20 55 30
12 Papilusion 1 Non bug 32.0 1.1 45 50 70
13 Aspicot 1 Non bug 3.2 0.3 35 30 50
14 Coconfort 1 Non bug 10.0 0.6 25 50 35
15 Dardargnan 1 Non bug 29.5 1.0 150 40 145
16 Roucool 1 Non normal 1.8 0.3 45 40 56
17 Roucoups 1 Non normal 30.0 1.1 60 55 71
18 Roucarnage 1 Non normal 39.5 1.5 80 80 121
19 Rattata 1 Non normal NA NA 56 35 72
20 Rattatac 1 Non normal NA NA 71 70 77

14.6 Star Wars 🎬

Le dataset starwars.csv décrit les caractéristiques des personnages principaux de la saga.

starWars <- read.csv("./dataset/starwars.csv", sep = "\t")
dim(starWars)
## [1] 87 10

Voici un extrait du dataset :

name height mass hair_color skin_color eye_color birth_year gender homeworld species
Luke Skywalker 172 77 blond fair blue 19.0 male Tatooine Human
C-3PO 167 75 NA gold yellow 112.0 NA Tatooine Droid
R2-D2 96 32 NA white, blue red 33.0 NA Naboo Droid
Darth Vader 202 136 none white yellow 41.9 male Tatooine Human
Leia Organa 150 49 brown light brown 19.0 female Alderaan Human
Owen Lars 178 120 brown, grey light blue 52.0 male Tatooine Human
Beru Whitesun lars 165 75 brown light blue 47.0 female Tatooine Human
R5-D4 97 32 NA white, red red NA NA Tatooine Droid
Biggs Darklighter 183 84 black light brown 24.0 male Tatooine Human
Obi-Wan Kenobi 182 77 auburn, white fair blue-gray 57.0 male Stewjon Human
Anakin Skywalker 188 84 blond fair blue 41.9 male Tatooine Human
Wilhuff Tarkin 180 NA auburn, grey fair blue 64.0 male Eriadu Human
Chewbacca 228 112 brown unknown blue 200.0 male Kashyyyk Wookiee
Han Solo 180 80 brown fair brown 29.0 male Corellia Human
Greedo 173 74 NA green black 44.0 male Rodia Rodian
Jabba Desilijic Tiure 175 1358 NA green-tan, brown orange 600.0 hermaphrodite Nal Hutta Hutt
Wedge Antilles 170 77 brown fair hazel 21.0 male Corellia Human
Jek Tono Porkins 180 110 brown fair blue NA male Bestine IV Human
Yoda 66 17 white green brown 896.0 male NA Yoda’s species
Palpatine 170 75 grey pale yellow 82.0 male Naboo Human

14.7 AmongUs 🔦

On utilise le fichier compressé AmongUs.7z où l’ensemble des fichiers décrivent les statistiques des parties jouées sur le jeu Among Us. Il y a un fichier par joueur nommé UserX.csv. Les données sont issues du site Kaggle. Vous pouvez les télécharger facilement en cliquant ici. Les fichiers csv ont tous la même structure avec :

  • Game.Completed.Date : Date de la partie
  • Team : l’équipe attribuée
  • Outcome : résultat de la partie
  • Task.Completed : le nombre de tâches effectuées
  • All.Tasks.Completed : si toutes les tâches ont été effectuées
  • Murdered : si le joueur a été tué
  • Imposter.Kills : le nombre de joueurs tués par l’imposteur
  • Game.Length : durée de la partie
  • Ejected : si le joueur a été éliminé par les autres au cours de la partie
  • Sabotages.Fixed : nombre de sabotages réparés
  • Time.to.complete.all.tasks : temps pour compléter les toutes les tâches
  • Rank.Change : Non renseigné
  • Region.Game.Code : la région du serveur de jeu
AmongUs <-read.csv("./dataset/AmongUs.csv")
dim(AmongUs)
## [1] 100  13

Voici un extrait du dataset :

Game.Completed.Date Team Outcome Task.Completed All.Tasks.Completed Murdered Imposter.Kills Game.Length Ejected Sabotages.Fixed Time.to.complete.all.tasks Rank.Change Region.Game.Code
12/13/2020 at 1:26:56 am EST Crewmate Win 3 No Yes
07m 04s No 2
++ NA / WYMSBF
12/13/2020 at 1:17:42 am EST Crewmate Loss 7 Yes No
16m 21s No 1 09m 48s NA / WYMSBF
12/13/2020 at 12:57:47 am EST Crewmate Win 3 No No
11m 33s No 0
++ NA / WYMSBF
12/13/2020 at 12:41:55 am EST Imposter Win
2 08m 05s No N/A
+++ Europe / QIRTNF
12/13/2020 at 12:30:37 am EST Crewmate Loss 4 No No
05m 10s No 0
Europe / QIRTNF
12/13/2020 at 12:24:20 am EST Crewmate Loss 7 Yes Yes
16m 22s No 0 12m 16s Europe / QIRTNF
12/13/2020 at 12:00:39 am EST Crewmate Loss 8 Yes Yes
21m 41s No 1 18m 38s Europe / MTKPVF
12/11/2020 at 4:15:08 pm EST Crewmate Win 8 Yes No
18m 43s Yes 0 07m 48s ++ Europe / BFRJCF
12/11/2020 at 3:49:33 pm EST Crewmate Win 7 Yes Yes
13m 15s No 0 13m 15s ++ Europe / BFRJCF
12/11/2020 at 3:30:36 pm EST Crewmate Loss 7 Yes Yes
12m 43s No 0 12m 43s Europe / BFRJCF
12/11/2020 at 3:10:58 pm EST Crewmate Win 4 No Yes
11m 00s No 0
++ Europe / BFRJCF
12/11/2020 at 2:53:28 pm EST Crewmate Win 7 Yes No
17m 43s No 0 11m 59s ++ Europe / BFRJCF
12/11/2020 at 2:20:38 pm EST Crewmate Loss 6 No Yes
13m 46s No 0
Europe / ONSJWQ
12/11/2020 at 2:04:26 pm EST Imposter Loss
3 15m 52s Yes N/A
Europe / ONSJWQ
12/11/2020 at 1:46:30 pm EST Crewmate Win 7 Yes Yes
18m 54s No 1 11m 09s ++ Europe / ONSJWQ
12/11/2020 at 2:09:32 am EST Crewmate Loss 7 Yes Yes
08m 00s No 0 01m 41s NA / EYNONF
12/11/2020 at 2:00:26 am EST Crewmate Win 7 Yes Yes
18m 06s No 0 09m 34s ++ NA / EYNONF
12/11/2020 at 1:26:11 am EST Crewmate Win 7 Yes Yes
12m 58s No 1 09m 03s ++ NA / EYNONF
12/11/2020 at 1:03:05 am EST Crewmate Win 7 Yes Yes
14m 57s No 0 14m 50s ++ NA / EYNONF
12/11/2020 at 12:45:34 am EST Crewmate Loss 7 Yes Yes
11m 03s No 0 10m 34s NA / EYNONF

14.8 NBA 🏀

Ce jeu de donnéesNBA.csv décrit les tirs effectués au cours de la saison 2014-2015 de NBA. Le fichier est issu du site Kaggle. Il a été adapté et modifié pour ce cours. Les données sont accessibles en cliquant ici.

Voici la présentation du jeu de données :

  • GAME_ID : ID du match
  • LOCATION : Lieu du match (Home / Away)
  • GAME_RESULT : Résultat du match (Won / Lost)
  • PERIOD : Numéro de quart-temps et prolongations éventuelles
  • SHOT_CLOCK : Durée de la possession de l’équipe au moment du tir
  • DRIBBLES : Nombre de dribbles avant le tir
  • TOUCH_TIME : Durée de la possession du joueur avant le tir
  • SHOT_DIST : Distance de tir en foot (1 foot = 0,30 mètre)
  • PTS_TYPE : Tentative à 2 ou 3 points (les lancers francs à 1 point ne sont pas répertoriés)
  • SHOT_RESULT : Résultat du tir (made / missed)
  • CLOSE_DEF_DIST : Distance entre le tireur et le défenseur le plus proche en foot (1 foot = 0,30 mètre)
  • SHOOTER : Nom du tireur
NBA <- read.csv("./dataset/NBA.csv")
dim(NBA)
## [1] 128069     12
GAME_ID LOCATION GAME_RESULT PERIOD SHOT_CLOCK DRIBBLES TOUCH_TIME SHOT_DIST PTS_TYPE SHOT_RESULT CLOSE_DEF_DIST SHOOTER
21400899 A W 1 10.8 2 1.9 7.7 2 made 1.3 brian roberts
21400899 A W 1 3.4 0 0.8 28.2 3 missed 6.1 brian roberts
21400899 A W 1 NA 3 2.7 10.1 2 missed 0.9 brian roberts
21400899 A W 2 10.3 2 1.9 17.2 2 missed 3.4 brian roberts
21400899 A W 2 10.9 2 2.7 3.7 2 missed 1.1 brian roberts
21400899 A W 2 9.1 2 4.4 18.4 2 missed 2.6 brian roberts
21400899 A W 4 14.5 11 9.0 20.7 2 missed 6.1 brian roberts
21400899 A W 4 3.4 3 2.5 3.5 2 made 2.1 brian roberts
21400899 A W 4 12.4 0 0.8 24.6 3 missed 7.3 brian roberts
21400890 H W 2 17.4 0 1.1 22.4 3 missed 19.8 brian roberts
21400890 H W 2 16.0 8 7.5 24.5 3 missed 4.7 brian roberts
21400890 H W 4 12.1 14 11.9 14.6 2 made 1.8 brian roberts
21400890 H W 4 4.3 2 2.9 5.9 2 made 5.4 brian roberts
21400882 A W 4 4.4 0 0.8 26.4 3 missed 4.4 brian roberts
21400859 A L 1 6.8 0 0.5 22.8 3 missed 5.3 brian roberts
21400859 A L 2 6.4 3 2.7 24.7 3 made 5.6 brian roberts
21400859 A L 2 17.6 6 5.1 25.0 3 missed 5.4 brian roberts
21400859 A L 4 8.7 1 0.9 25.6 3 missed 5.1 brian roberts
21400859 A L 4 20.8 0 1.2 24.2 3 made 11.1 brian roberts
21400845 A W 1 17.5 2 2.2 25.4 3 missed 3.5 brian roberts

14.9 Students 🎓

Le dataset students_results.csv décrit les notes d’étudiants sur différentes épreuves.

Voici la présentation du jeu de données :

  • ID_etudiant : Le matricule des étudiants
  • Genre : Le genre des étudiants
  • Groupe.TP : Le groupe de travaux pratiques
  • Groupe.TD : Le groupe de travaux dirigés
  • QUIZ# : Le score du quiz numéro #
  • TP# : La note au TP numéro #
df <- read.csv(file = "dataset/students_results.csv",
                               sep = ";", dec = ",")
dim(df)
## [1] 54  9
ID_etudiant Genre Groupe.TP Groupe.TD QUIZ1 QUIZ2 TP1 TP2 TP4
42247 F 1 1 39774 25587 0.8095238 0.6470588 14.00
84675 F 1 1 27029 16083 0.9523810 0.6470588 14.50
93817 F 1 1 24839 20601 0.9523810 NA 13.00
22886 H 1 1 33835 22853 0.7619048 0.7794118 13.50
49060 H 1 1 31817 21322 0.8095238 0.8823529 16.00
66756 H 1 1 NA NA NA NA NA
48147 H 1 1 30572 18889 0.9523810 0.6470588 15.00
86478 H 1 1 26072 16057 0.8095238 NA 7.25
9082 H 1 1 32028 25880 0.8095238 0.6470588 13.00
2851 H 1 1 32945 25293 0.8095238 NA 11.00
94187 H 1 1 NA NA NA NA NA
2060 H 1 1 31588 17365 0.7619048 0.7794118 12.50
79464 H 1 1 34180 32996 0.8809524 NA 7.00
42086 H 1 1 36817 21302 0.9523810 1.0000000 19.00
4921 F 2 1 27838 20305 0.9523810 1.0000000 13.50
23653 H 2 1 33856 18854 0.9047619 0.9117647 16.50
26956 H 2 1 33375 18970 1.0000000 1.0000000 19.00
10702 H 2 1 34778 15677 1.0000000 1.0000000 13.50
22 H 2 1 36265 22377 1.0000000 1.0000000 17.50
3179 H 2 1 32809 23123 0.9047619 0.9117647 18.50

14.10 TV Shows 📺

Le dataset tv_shows.csv qui décrit les notes d’évaluation des films et séries disponibles sur diverses plateformes de diffusion en continu. Le fichier est issu du site Kaggle.

Voici la présentation du jeu de données :

  • Title : titre de la série ou du film
  • Year : Année de sortie ou première diffusion
  • Age : Type de public conseillé
  • IMDb : Notes des utilisateurs enregistrés sur le site L’Internet Movie Database
  • Rotten.Tomatoes : Notes basées sur les opinions de centaines de critiques de cinéma et de télévision du site du même nom
  • Netflix : si le film ou la série est disponible sur cette plateforme
  • Hulu : si le film ou la série est disponible sur cette plateforme
  • Prime.Video : si le film ou la série est disponible sur cette plateforme
  • Disney. : si le film ou la série est disponible sur cette plateforme
df <- read.csv(file = "dataset/tv_shows.csv",
                               sep = ",", dec = ",")
dim(df)
## [1] 5611    9
Title Year Age IMDb Rotten.Tomatoes Netflix Hulu Prime.Video Disney.
Breaking Bad 2008 18+ 9.5 0.96 1 0 0 0
Stranger Things 2016 16+ 8.8 0.93 1 0 0 0
Money Heist 2017 18+ 8.4 0.91 1 0 0 0
Sherlock 2010 16+ 9.1 0.78 1 0 0 0
Better Call Saul 2015 18+ 8.7 0.97 1 0 0 0
The Office 2005 16+ 8.9 0.81 1 0 0 0
Black Mirror 2011 18+ 8.8 0.83 1 0 0 0
Supernatural 2005 16+ 8.4 0.93 1 0 0 0
Peaky Blinders 2013 18+ 8.8 0.92 1 0 0 0
Avatar: The Last Airbender 2005 7+ 9.2 1 1 0 0 0
The Walking Dead 2010 18+ 8.2 0.81 1 0 0 0
Dark 2017 16+ 8.7 0.94 1 0 0 0
Ozark 2017 18+ 8.4 0.81 1 0 0 0
Attack on Titan 2013 16+ 8.8 0.94 1 1 0 0
Narcos 2015 18+ 8.8 0.89 1 0 0 0
Fullmetal Alchemist: Brotherhood 2009 18+ 9.1 1 1 1 0 0
Community 2009 7+ 8.5 0.88 1 1 0 0
Mindhunter 2017 18+ 8.6 0.96 1 0 0 0
Parks and Recreation 2009 16+ 8.6 0.93 1 1 1 0
Dexter 2006 18+ 8.6 0.72 1 0 0 0