Evaluation Python / Machine Learning année 2017 - énoncé

Le répertoire _data/2017 contient deux fichiers csv simulés aléatoirement dont il faudra se servir pour répondre aux 10 questions qui suivent. Chaque question vaut deux points. Le travail est à rendre pour le lundi 20 février sous la forme d’un notebook envoyé en pièce jointe d’un mail.

1

Deux fichiers sont extraits de la base de données d’un médecin. Un fichier contient des informations sur des personnes, un autre sur les rendez-vous pris par ces personnes. Quels sont-ils ?

[1]:

2

On souhaite étudier la relation entre le prix moyen payé par une personne, son âge et son genre. Calculer le prix moyen payé par une personne ?

[2]:

3

Faire la jointure entre les deux tables.

[3]:

4

Tracer deux nuages de points (age, prix moyen) et (genre, prix moyen) ?

[4]:

5

Calculer les coefficients de la régression prix\_moyen \sim age + genre.

[5]:

6

On souhaite étudier le prix d’une consultation en fonction du jour de la semaine. Ajouter une colonne dans la table de votre choix avec le jour de la semaine.

[6]:

7

Créer un graphe moustache qui permet de vérifier cette hypothèse.

[7]:

8

Ajouter une colonne dans la table de votre choix qui contient 365 si c’est le premier rendez-vous, le nombre de jour écoulés depuis le précédent rendez-vous. On appelle cette colonne delay. On ajoute également la colonne 1/delay.

[8]:

9

Calculer les coefficients de la régression prix \sim age + genre + delay + 1/delay + jour\_semaine.

[9]:

10

Comment comparer ce modèle avec le précédent ? Implémentez le calcul qui vous permet de répondre à cette question.

[10]:


Notebook on github