*======================================================*
				METHODES QUALITATIVES 
	Séance d'exercices n°2 : La régression logistique
*=======================================================;


/* ----------------------------------------------------------------------------------------------------------------
   Etape 0 : Sélectionner les variables que l'on va étudier grâce aux modèles de régression logistique (chap1)
   On repart du dernier dataset créé lors de la séance n°1 : "datalabel" stocké dans la librairie "out"
   - Commencez par assigner les librairies 
		- OUT : chemin vers sous-dossier DATA
   		- LIBRARY : chemin vers sous-dossier FORMATS
   - Créer un nouveau dataset appelé "reglog" stocké dans la librairie out à partir du dataset "datalabel"
   - Conservez uniquement les variables suivantes : 
		- EVALDEMO2 (la variable réponse doit être binaire pour appliquer les modèles du chapitre 1) 
		- hincfel2, polintr2 et blgetmg (variables explicatives à 2 niveaux)
		- reg3, educ3, plinsoc3 (variables explicatives 3 niveaux) 
		- agea (variable explicative continue) 
   -------------------------------------------------------------------------------------------------------------*/ 


*Vérifiez que le dataset a bien été créé via le log : 
	NOTE :  The data set OUT.REGLOG has 1869 observations and 8 variables; 


/* ----------------------------------------------------------------------------------------------------------------------------------------
   Modèle 1 : La régression logistique avec une explicative catégorielle 
   - Variable réponse : EVALDEMO2; Variable explicative : educ3
   - Réaliser un rapport (reglog_1expcat à stocker dans le sous-dossier RESULTS) en format pdf ayant pour titre général :
     'La régression logistique avec une explicative catégorielle'
   - Ce rapport doit être composé de deux parties : 
		- La première aura pour titre "Analyse descriptive préalable : Table de contingence"
		  Vous y présenterez la table de contingence d'evaldemo2 (colonne) en fonction d'educ3 (ligne) (fréq et % en ligne uniquement) 
		  L'examen de cette table vous permettra de dégager les premières hypothèses à tester (à écrire dans le code en commentaire)
		- La deuxième partie aura pour titre : "Modèle : Evaluation de la démocratie en fonction du niveau d'éducation"
		  Vous y présenterez la régression logistique telle que : 
			- Succès pour la variable réponse = évaluation négative de la démocratie 
			- Catégorie de référence pour l'explicative = niveau d'éducation moyen 
			- Contrastes à définir : 'Middle Vs High'; 'Low Vs Middle' et 'Low Vs High'
	- Interprétez les sorties et répondez aux questions suivantes : 
	1. La variable explicative testée a-t-elle un effet significatif sur la réponse? 
	2. Si oui, quels sont les contrastes significatifs? 
	3. Quelles sont les valeurs plausibles pour les rapports de cotes des groupes significativement différents?
   ----------------------------------------------------------------------------------------------------------------------------------------*/ 


/* ----------------------------------------------------------------------------------------------------------------------------------------------
   Modèle 2 : La régression logistique avec deux explicatives catégorielles
    -   Réaliser un rapport (reglog_2expcat) en format pdf ayant pour titre général : 
		'La régression logistique avec deux explicatives catégorielles'
	-   Ce rapport doit être composé de deux parties : 
		- La première aura pour titre "Evaluation de la démocratie en fonction du niveau d'éducation et du niveau d'aisance"
		  Vous y présenterez la table de contingence d'evaldemo2 (colonne) en fonction d'hincfel2 et educ3 (freq abs et % en ligne) 
		  puis le ou les modèles de régression logistique (partez du modèle complet et supprimez le(s) terme(s) non significatif(s) si nécessaire).
		  Donnez des sous-titres appropriés à chacune des sorties. 
		  INTERPRETER LES SORTIES!!! 
		  NB : on modèlise toujours le succès "EVALDEMO2  = Low" - catégorie de référence pour educ3 = "Middle", pour hincfel2 = "Confortable"
		- La deuxième partie aura pour titre "Evaluation de la démocratie en fonction du niveau d'aisance et de la place dans la société"
		  Répétez l'opération (table de contingence, sélection du modèle, interprétation des sorties).
		  NB : on garde la même référence pour hincfel2 et on prend "Middle" pour plinsoc3. 
   ----------------------------------------------------------------------------------------------------------------------------------------------*/ 


/* -------------------------------------------------------------------------------------------------------------
   Modèle 3 : La régression logistique avec une explicative continue
   -------------------------------------------------------------------------------------------------------------*/ 

/*Analyse descriptive préalable :
Le code ci-dessous vise à calculer les log(cotes) pour chaque valeur de l'explicative continue (justifié car effectif suffisant) 
et à en faire le graphe.  Sur base de celui-ci, déterminer si l'hypothèse de linéarité du modèle semble raisonnable ou non*/

 
*Table des fréquences de la variable réponse en fonction de l'âge;
proc freq data=out.reglog;
	tables agea*evaldemo2/ nopercent nocol norow out=myds;
	where agea is not missing and evaldemo2 is not missing; 
	
run;

*On constate que seules 4 valeurs de l'âge (86,90,91 et 92) présentent des fréquences = 0 
 On ne pourra pas calculer les log(cote) pour ces âges (interprétation du graphe valable pour les valeurs <=85ans); 

data low ;
	set myds;
	low = count;
	if evaldemo2 ne "Low" then delete; 
	output;
run;

data high;
	set myds;
	high = count;
	if evaldemo2 ne "High" then delete; 
	output;
run;

data myds2;
	merge low high;
	by agea;
	drop evaldemo2 count percent;
	odds = low/high;
	logodds = log(odds);
run;

* Odds et logodds en fonction de l'âge"; 
proc print data=myds2; 
run;

* Graph of logodds by age; 
proc gplot data=myds2;
	plot logodds*agea;
run;

*Conclusion de l'analyse descriptive : 
- Le graphe ne met pas vraiment en évidence la présence d'une relation de type non linéaire 
	--> pas de contre-indication à mettre en oeuvre le modèle
- Néanmoins, le graphe semble suggérer que si une relation existe entre les deux variables, celle-ci doit être faible 
(points dispersés, pas de tendance croissante ou décroissante clairement identifiable); 



/*Modèle : 
- Présentez les résultats du modèle dans un rapport pdf ayant pour titre : "La régression logistique avec une explicative continue"
et pour sous-titre "Evaluation de la démocratie en fonction de l'âge". 
- La variable agea a-t-elle un effet significatif sur la réponse EVALDEMO2? 
- Comment interpréter les estimations pour "intercept" et "agea" dans les sorties? 
*/


/* -------------------------------------------------------------------------------------------------------------
   Modèle 4 : La régression logistique avec explicatives mixtes (agea et polintr2)
   Réaliser un dernier rapport pdf (reglog_mixtes) stocké dans le sous-dossier RESULTS ayant pour titre général
   "La régression logistique avec explicative continue" et comme sous-titre "Evaluation de la démocratie 
   en fonction de l'âge et de l'intérêt pour la politique".  
   Procéder à la sélection du modèle et examiner les estimations et IC pour le modèle retenu. 
   NB : catégorie de référence pour polintr2 "Interested"
   -------------------------------------------------------------------------------------------------------------*/