Voici la figure et le modèle du questionnaire 2 (déjà examinés). On avait vu que la précision entre les participants qui parlent d’autres langues et ceux qui ne les parlent pas semble être différente dans la figure. Autrement dit, les erreurs standard ne sont pas superposées.
Code
# On utilise ici le script déjà créé pour# nettoyer les données :source("Scripts/script_11_nettoyage.R")ggplot(data = long, aes(x = langues, y = correct)) +stat_summary(geom ="bar", fill =0.2, width =0.5, color ="black") +stat_summary() +theme_classic(base_size =13) +labs(y ="Correct",x ="Parlez-vous d'autres langues?")
Notre modèle, par contre, n’est pas capable de rejeter l’hypothèse nulle par rapport à la variable langues (\(p = 0,082\)). Par conséquent, on ne peut pas conclure que le fait de parler une autre langue améliore les notes des participants dans le questionnaire en question.
Code
mod2 =glm(correct ~ langues, data = long, family ="binomial")library(sjPlot)#> Learn more about sjPlot with 'browseVignettes("sjPlot")'.tab_model(mod2, transform =NULL,string.pred ="Variables", string.ci ="IC 95 %",string.est ="Coefficients",string.p ="Valeur p")
correct
Variables
Coefficients
IC 95 %
Valeur p
(Intercept)
-1.01
-2.29 – 0.06
0.083
langues [Oui]
1.10
-0.08 – 2.46
0.082
Observations
84
R2 Tjur
0.038
N’oubliez pas que :
la fonction glm() doit contenir l’argument family = "binomial";
les coefficients sont toujours exprimés en log-odds (logs de cotes) quand on visualise le modèle avec summary();
on peut utiliser exp() pour extraire les cotes des log-odds;
on évite l’utilisation des probabilités pour les effets d’un coefficient individuel, car la courbe de probabilité n’est pas constante;
la fonction predict() est extrêmement utile pour prévoir des réponses à partir des nouvelles données en utilisant un modèle (soit la régression linéaire ou logistique).
Tableau de conversion
Voici un tableau adapté à partir de Garcia (2021) (p. 146) pour faciliter la conversion entre les unités discutées en classe. L’hypothèse nulle = \(\hat\beta = 0\), ce qui équivaut intuitivement à une probabilité de 50 %.
P
Odds
ln(odds) = \(\hat\beta\)
0.10
0.11
–2.20
0.20
0.25
–1.39
0.30
0.43
–0.85
0.40
0.67
–0.41
0.50
1.00
0.00
0.60
1.50
0.41
0.70
2.33
0.85
0.80
4.00
1.39
0.90
9.00
2.20
Pratique
Question 1.Le temps de réaction. Chargez rClauseData.csv (propositions relatives en anglais) et répondez aux questions suivantes :
Enlevez les éléments de remplissage (fillers) et changez les classes des variables selon le besoin.
Examinez les temps de réaction entre les deux groupes linguistiques (figure)
Explorez et rapportez deux modèles : une régression linéaire et une régression logistique
Question 2.Le rôle de la pause. Maintenant, on va examiner le rôle de la prosodie (la présence d’une pause #) dans l’interprétation des pronoms rélatifs :
Mary saw the daughter of the nurse who likes to dance (NoBreak)
Mary saw the daughter # of the nurse who likes to dance (High)
Mary saw the daughter of the nurse #who likes to dance (Low)
Lisez les trois phrases ci-dessus et considérez qui est la personne représentée par who. La proposition relative se réfère à quelle phrase nominale (PN) :
the daughter (high attachment)
the nurse (low attachment)
L’interprétation dépend de quelle langue on examine. En anglais, low attachment est typiquement l’option préférée (donc, the nurse ici). En espagnol, par contre, l’option typique est high attachment (donc, the daughter ici). La question à examiner ici est si la présence d’une pause peut changer la préférence défaut d’un participant dont la langue maternelle est l’anglais ou l’espagnol.
Examinez les réponses des deux groupes en fonction des conditions considérées dans les données. Créez un graphique.
Rapportez les résultats d’une régression logistique
Question 3 (difficile).La rétroaction. Maintenant, on va (ré)examiner le fichier feedbackData.csv :
Chargez le fichier feedbackData.csv
Est-ce qu’on peut prévoir la rétroaction à partir de la note dans la tâche A? Si oui, quelle est la probabilité qu’un participant soit dans le groupe Recast si sa note est de 90?
Garcia, Guilherme Duarte. 2021. Data visualization and analysis in second language research. New York, NY: Routledge.