一、描述统计分析
**import**`` numpy ``**as**`` np ``**import**`` pandas ``**as**`` pd ``**import**`` matplotlib.pyplot ``**as**`` plt
path``**=**``'data.csv' data``**=**``pd``**.**``read_csv(path,encoding``**=**``'GBK') data``**.**``head()

data``**.**``describe()

`dataC**=**data[‘Congruent’]
dataI**=**data[‘Incongruent’]
*#第一组数据:字体内容和颜色一致的情况下,实验者的反应时间*con1_mean**=**dataC**.**mean()
con1_std**=**dataC**.**std()
*#第二组数据:字体内容和颜色不一致的情况下,实验者的反应时间*con2_mean**=**dataI**.**mean()
con2_std**=**dataI**.**std()`
用柱状图比较两个样本数据
fg``**=**``plt``**.**``figure(figsize``**=**``(20,10)) ax``**=**``fg``**.**``add_subplot(1,1,1) data``**.**``plot(kind``**=**``'bar',ax``**=**``ax) plt``**.**``show()

**print**``('描述统计分析结果:') ``**print**``('第一组数据:字体内容和字体颜色一致情况下,实验者的平均反应时间是:',con1_mean,'秒,标准差是',con1_std,'秒') ``**print**``('第二组数据:字体内容和字体颜色不一致情况下,实验者的平均反应时间是:',con2_mean,'秒,标准差是',con2_std,'秒') ``**print**``('“不一致”情况所用时间均大于“一致”情况,也就是当字体内容和字体验证不一致时,实验者的平均反应时间变长')
描述统计分析结果: 第一组数据:字体内容和字体颜色一致情况下,实验者的平均反应时间是: 14.08716 秒,标准差是 3.557136613907315 秒 第二组数据:字体内容和字体颜色不一致情况下,实验者的平均反应时间是: 22.90684 秒,标准差是 5.638018754255198 秒 “不一致”情况所用时间均大于“一致”情况,也就是当字体内容和字体验证不一致时,实验者的平均反应时间变长
二、推论统计分析
1.问题是什么?
零假设和备选假设
假设第一组“一致”的均值为 u1 ,第二组“不一致”的均值为 u2
零假设H0:人们的反应时间不会因为字体内容和字体颜色是否相同(u1 = u2 ,或者 u1-u2=0 )
备选假设H1:斯特鲁普效应确实存在。根据斯特鲁普效应的定义,颜色和文字不同的情况下,人们的完场测试的时间会变长( u1 < u2 )
检验类型
*#差值数据集*``data['Difference']``**=**``dataC``**-**``dataI data``**.**``head()

抽样分布类型
dataD``**=**``data['Difference'] ``**import**`` seaborn ``**as**`` sns sns``**.**``distplot(dataD) plt``**.**``show()

通过观察上面差值数据集分布图,数据集近似正态分布,所以满足t分布的使用条件,我们可以使用相关样本t检验。
检验方向
因为备选假设是:斯特鲁普效应确实存在,根据Stroop Effect的定义,颜色和文字不同的情况下,人们的完场测试的时间会变长( u1 < u2 )。
所以我们使用单尾检验中的左尾检验,显著水平为5%,t检验的自由度df=n-1=25-1=24
2.证据是什么?
**from**`` scipy ``**import**`` stats t,p_twoTail``**=**``stats``**.**``ttest_rel(dataC,dataI) ``**print**``('t值=',t,'双尾检验p值=',p_twoTail)
t值= -8.20832083183437 双尾检验p值= 1.996274058712791e-08
*#单尾检验的p值*``p_oneTail``**=**``p_twoTail``**/**``2 ``**print**``('单尾检验的p值=',p_oneTail)
单尾检验的p值= 9.981370293563955e-09
3. 判断标准是什么?
*## 3.判断标准是什么*``*#显著水平=5%*``alpha``**=**``0.05
4. 做出结论
*#单尾检验的p值*``p_oneTail``**=**``p_twoTail``**/**``2 ``*#显著水平*``a``**=**``0.05 ``*#决策*``**if**``(t``**<**``0 ``**and**`` p_oneTail``**<**``a): ``**print**``('拒绝零假设,有统计显著,也就是接受备选假设:斯特鲁普效应存在') ``**else**``: ``**print**``('接受备选假设,没有统计显著,也就是斯特鲁普效应不存在')
拒绝零假设,有统计显著,也就是接受备选假设:斯特鲁普效应存在
假设检验报告:
相关配对检验t(24)=-8.35,p=7.32e-09 (α=5%),左尾检验
统计上存在显著差异,拒绝零假设,从而验证斯斯特鲁普效应存在。
5.置信区间
*#95%置信区间对应的t值是2.064*``t_ci``**=**``2.064 sample_mean``**=**``dataD``**.**``mean() se``**=**``stats``**.**``sem(dataD) ``*#置信区间上限*``a``**=**``sample_mean``**-**``t_ci``*****``se ``*#置信区间下限*``b``**=**``sample_mean``**+**``t_ci``*****``se ``**print**``('两个平均值差值的置信区间,95置信水平 CI=[%f,%f]' ``**%**`` (a,b))
两个平均值差值的置信区间,95置信水平 CI=[-11.037408,-6.601952]
6.效应量
*# 差值数据集对应的总体平均值是0*``pop_mean``**=**``0 ``*#差值数据集的标准差*``sample_std``**=**``dataD``**.**``std() d``**=**``(sample_mean``**-**``pop_mean)``**/**``sample_std ``**print**``('d=',d)
d= -1.641664166366874
三、数据分析报告总结
1、描述统计分析
第一组数据:字体内容和字体颜色一致情况下,实验者的平均反应时间是: 14.09 秒,标准差是 3.56 秒
第二组数据:字体内容和字体颜色不一致情况下,实验者的平均反应时间是: 22.91 秒,标准差是 5.64 秒
“不一致”情况下所用时间均大于“一致”情况,也就是当字体内容和字体验证不一致时,实验者的平均反应时间变长
2、推论统计分析
1)假设检验
相关配对检验t(24)= -8.21,p= 9.98e-09 (α=5%),左尾检验
统计上存在显著差异,拒绝零假设,从而验证斯特鲁普效应存在。
2)置信区间
两个平均值差值的置信区间,95%置信水平 CI=[-11.04,-6.60]
3)效应量
d= - 1.67