*======================================================*
				METHODES QUALITATIVES 
	Séance d'exercices n°3 : La régression log-linéaire
*=======================================================;


/* -----------------------------------------------------------------------------------------------------------------------------
   Etape 0 : Sélectionner les variables que l'on va étudier grâce aux modèles de régression log-linéaire (chapitre 2).
   On repart du dernier dataset créé lors de la séance n°1 : "datalabel" stocké dans la librairie "out"
   - Commencez par assigner les librairies 
		- OUT : chemin vers sous-dossier DATA
   		- LIBRARY : chemin vers sous-dossier FORMATS
   - Créer un nouveau dataset appelé "loglin" stocké dans la librairie out à partir du dataset "datalabel"
   - Conservez uniquement les variables suivantes : 
		- EVALDEMO2 EVALDEMO4(la variable d'intérêt peut être aussi bien binaire que polytomiale dans le modèle log-linéaire) 
		- polintr2 et blgetmg (variables explicatives à 2 niveaux)
		- reg3 (variable explicative à 3 niveaux)  
   ----------------------------------------------------------------------------------------------------------------------------- */ 

*Vérifiez que le dataset a bien été créé via le log : 
	NOTE :  The data set OUT.LOGLIN has 1869 observations and 5 variables; 


/* --------------------------------------------------------------------------------------------------------------------------------
   Modèle 1 : TABLE 2x2 
   - Variables : X = EVALDEMO2, Y =  blgetmg 
   - Réaliser un rapport (loglin_2x2 à stocker dans le sous-dossier RESULTS) en format pdf ayant pour titre général :
     'Modèle log-linéaire : Table 2x2 : Y = EVALDEMO2, X = blgetmg'
   - Ce rapport doit être composé de trois parties : 
		- La première aura pour titre "Table de contingence"
		  Vous y présenterez la table des fréquences de la variable evaldemo2 croisée avec blgetmg. 
		  Utilisez l'option "out = " afin de stocker le résultat de la proc freq dans un dataset temporaire "ex1" qui 
		  vous servira à construire le modèle log-linéaire.  
		  A partir de cette table, calculez les fréquences attendues en cas d'indépendance (avec une calculatrice). 
		  Sont-elles fortement éloignées des fréquences observées? 
		- La deuxième partie aura pour titre : "Modèle d'indépendance"
		- La troisième aura pour titre : "Modèle saturé"
	  	  Présentez-y les sorties de la proc genmod (adaptez les paramètres au type de modèle construit)
		  NB : Catégories de référence pour evaldemo2 : "High" pour blgetmg : "No" 
	- Interprétez les sorties et répondez aux questions suivantes : 
	1. L'hypothèse d'indépendance est-elle plausible? Si oui, quelles sont les valeurs plausibles pour les 3 paramètres du modèle?
	2. Si non, quelles sont les valeurs plausibles pour le rapport de cotes d'intérêt (qui quantifie le lien entre X et Y)?
	3. Pourquoi les valeurs de la statistique de Khi-2 sont-elles différentes entre les sorties de type 1 et de type 3? 
	- Exercice : utilisez les estimations du modèle d'indépendance pour retrouver les fréquences attendues que vous avez calculées 
	  supra à partir de la table de contingence.  Utilisez celles du modèle saturé pour retrouver les fréquences observées. 
/* --------------------------------------------------------------------------------------------------------------------------------*/


/* --------------------------------------------------------------------------------------------------------------------------------
   Modèle 2 : TABLE 2x3
   - Variables : Y = EVALDEMO2, X = reg3 
   - Réaliser un rapport (loglin_2x3 à stocker dans le sous-dossier RESULTS) en format pdf ayant pour titre général :
     'Modèle log-linéaire : Table 2x3 : Y = EVALDEMO2, X = reg3'
   - Ce rapport doit être composé de trois parties : 
		1. Table de contingence
		2. Modèle d'indépendance
		3. Troisième partie : "Modèle saturé
	Catégories de référence pour evaldemo2 : "High"
							pour reg3 : faites tourner une première fois le modèle avec "Wal" comme référence puis une 
										deuxième fois avec "Fl" afin d'estimer les paramètres pour tous les contrastes. 
	- Interprétez les sorties et répondez aux questions suivantes : 
	1. L'hypothèse d'indépendance est-elle plausible? Si oui, quelles sont les valeurs plausibles pour les 3 paramètres du modèle?
	2. Si non, quelles sont les régions qui diffèrent significativement?
	3. Quelles sont les valeurs plausibles pour les 3 rapports des cotes d'évaluation (Bxl Vs Wal, Wal Vs Fl, Bxl Vs Fl). 
	Peut-on en conclure que la probabilité d'évaluer positivement la démocratie en Belgique est plus élevée à Bruxelles 
	qu'en Flandre et en Wallonie? 
/* --------------------------------------------------------------------------------------------------------------------------------*/


/* --------------------------------------------------------------------------------------------------------------------------------
	Modèle 3a : TABLE 2x2x3
   - Variables : X = EVALDEMO2, Y = blgetmg, Z = reg3 
   - Réaliser un rapport (loglin_2x2x3a à stocker dans le sous-dossier RESULTS) en format pdf ayant pour titre général :
     'Modèle log-linéaire : Table 2x2x3 : X = EVALDEMO2, Y = blgetmg, Z = reg3'
   - Présentez-y : 
		- la table de contingence
        - les différentes étapes de sélection du modèle 
		- les estimations des paramètres pour le modèle final. 
	 NB : Catégories de référence pour evaldemo2 : "High", pour blgetmg : "No", pour reg3 : "Wal" 
		  Prenez ensuite comme référence "Fl" (modèle final uniquement) afin d'estimer les paramètres pour tous les contrastes. 
	- Interprétez les sorties : 
	  - Quelle est la structure de dépendance entre les variables qui se dégage du modèle final?
	  - Procédez à l'examen des coefficients relatifs aux RC significatifs pour comprendre la nature de ces liens.  
	  - Quelles informations supplémentaires/différentes apparaissent dans ce modèle 3a (blgetmg et reg3 inclues simultanément) 
        par rapport aux modèles 1 et 2 qui envisageaient les relations entre evaldemo2 et ces deux variables séparément?
   --------------------------------------------------------------------------------------------------------------------------------*/


/* --------------------------------------------------------------------------------------------------------------------------------
	Modèle 3b : TABLE 2x2x3
   - Variables : X = EVALDEMO2, Y = polintr2, Z = reg3 
   - Réaliser un rapport (loglin_2x2x3b à stocker dans le sous-dossier RESULTS) en format pdf ayant pour titre général :
     'Modèle log-linéaire : Table 2x2x3 : X = EVALDEMO2, Y = polintr2, Z = reg3'
   - Présentez-y : 
		- la table de contingence
        - les différentes étapes de sélection du modèle 
		- les estimations des paramètres pour le modèle final. 
	 NB : Catégories de référence pour evaldemo2 : "High", pour polintr2 : "Interested", pour reg3 : "Wal" 
		  Prenez ensuite comme référence "Fl" (modèle final uniquement) afin d'estimer les paramètres pour tous les contrastes. 
	- Interprétez les sorties : 
	  - Quelle est la structure de dépendance entre les variables qui se dégage du modèle final?
	  - Procédez à l'examen des coefficients relatifs aux RC significatifs pour comprendre la nature de ces liens.  
  --------------------------------------------------------------------------------------------------------------------------------*/


/* --------------------------------------------------------------------------------------------------------------------------------
   Modèle 4 : Réponse polytomiale : TABLE 4x2x3
   - Variables : X = EVALDEMO4, Y = polintr2, Z = reg3 
   - Réaliser un rapport (loglin_4x2x3 à stocker dans le sous-dossier RESULTS) en format pdf ayant pour titre général :
     'Modèle log-linéaire : Table 4x2x3 : X = EVALDEMO4, Y = polintr2, Z = reg3'
   - Présentez-y : 
		- la table de contingence
        - les différentes étapes de sélection du modèle 
		- les estimations des paramètres pour le modèle final. 
	 NB : Modifiez les catégories de références pour X et Z jusqu'à obtenir les estimations de tous les contrastes possibles. 
   - Interprétez les sorties : 
	  - Quelle est la structure de dépendance entre les variables qui se dégage du modèle final?  
		Est-elle similaire à celle du modèle précédent (avec réponse binaire)? 
	  - Procédez à l'examen des coefficients relatifs aux RC significatifs pour comprendre la nature de ces liens.  
	  - Présentez l'information pertinente de la manière la plus résumée possible. Tirez-en des conclusions claires et concises.
	  - Quels sont les avantages/désavantages de ce modèle à réponse polytomiale par rapport au précédent (3b - réponse binaire)? 
/* --------------------------------------------------------------------------------------------------------------------------------*/