数据清洗与数据整理(1):回归系数不显著?很可能是你没有剔除极端值
可乐kaye:
up主求问
如果样本量足够大,极端值是可以忽略的;如果为了得到好的结果指标而删除极端值,有人说这已经算是“轻度的数据造假”
【回复】是的,哎呀好开心有人能在这里跟我讲这个深坑,确实在大样本情况下少数异常值基本不会有影响,不过在实际处理中大家很难平衡好“大样本”跟“少数异常值”之间的比例,因为涉及到模型复杂度、数据分布等等,所以我还是更愿意使用保守的做法吧。
另外Leys(2019)有一篇文献写得挺好的,他认为处理极端值可以在检测完极端值之后再进行,只有先找出来了,你才能确定它是好的、还是坏的、还是带来新信息的,我也建议大家在找出来异常值之后人工审视一下这些个案的特点,毕竟我们总是希望精准地完成这份工作,哪怕只是推进千分之一。
从另外一个角度上讲,剔除被试其实跟抽取被试一样,我们都在按照某个标准进行信息的整合,甚至可以将异常值检测理解为抽样的一部分,所以,抽样的时候我们大步向前,剔除的时候也不必小心谨慎,只要逻辑自洽,我觉得都是可行的。
【回复】回复 @林林林林林园长 :超级感谢[大哭][大哭][大哭]
【回复】回复 @林林林林林园长 :太感动了[大哭]不仅是回复这么长这么认真,而且更是很在理的帮我解决了这个问题[大哭]
高压氧治疗ad:
园长讲得很专业,喜欢💕
我想请教一下SPSS的process怎么操作,以及怎么描述分析的结果?(作图OR文字)我有点不理解,也没有耐力去挖掘,(可能还没到判刑期吧[酸了])
还有SPSS回归模型怎么设计?(就是别人论文里面一层一层阶梯状的那个东西[捂脸])
喵[无语]
【回复】我平时用Mplus比较多耶,process只能处理显变量,存在测量误差,Mplus好一点。或者我抽个时间做个视频教一下大家process吧哈哈
手写牧歌:
极端值会让当代大学生毕不了业,就这么简单[微笑]
去做线下调研,结果我们那个小城市的孩子们可能都怕老师不敢诚实填问卷
做线上的,家长直接替孩子把问卷填完。
废卷率高达百分之二十五...[笑哭]
社会刘大富:
林园长求问
我检测极端值res <- outliers_mcd(data, h = 0.75, alpha = 0.01, na.rm = T)
出现这种情况:
Error in MASS::cov.rob(data, cor = FALSE, quantile.used = nrow(data) * :
at least one column has IQR 0
求解[跪了]
vynch:
园长,请问中介1单独是显著的,但放在链式里就不显著了,怎么办
【回复】按照理论模型来吧,不显著也可以发表的,就是比较难写而已
我是果冻大人:
园长,如果是潜变量,那么是先把测量变量取平均值,然后再计算吗
温柔如雪乱:
必须要用R语言吗?其他方法,比如SPSS,Mplus可以剔除极端值吗?
bili_90790307897:
up主 我想问一下您,如果变量是两个以上,怎么剔除极端值呐?
【回复】我想我这个视频就是在说两个变量以上的异常值筛选[tv_腼腆]
是_lulu呀:
up主求问,如果是多元回归模型,有多个自变量,也可以用r语言踢除极端值吗?
【回复】回复 @林林林林林园长 :同问多元回归模型应该怎么做[微笑] 会不会教程(2)就是教多元回归模型剔除极端值的嘞[鼓掌]
【回复】回复 @林林林林林园长 :多元回归模型应该怎么做呢
飞猪酱上天:
请问图里标出来的1和10是指在原数据中的第一个数据和第十个数据异常吗
Crystalcicy:
up主如果是多元回归的异常值应该如何检验呢,你这个就用两个变量的相关性来识别异常值
【回复】一样的,它使用的是协方差矩阵,多个变量也可以
想念生煎和小笼:
想问问园长学了mplus还有必要学R吗,课题组都是学mplus,但是感觉R也好重要哇
【回复】回复 @林林林林林园长 :已经开始学习了!祝我早日掌握哈哈哈
【回复】人在江湖走,技多不压身
qeertytyffy:
@林林林林林园长 园长,这个Routliers包具体是哪一个呢,还有tidyverse的数据分析包又是哪个呢,可以分享一下嘛,急需处理数据
【回复】就是,你需要install.packages()加载这些分析包,会自动从CRAN上面下载下来的
【回复】回复 @林林林林林园长 :谢谢园长回复!还想请教园长一个问题,我做的是问卷调查,共55个题项,包括7个变量,一个自变量四个因变量一个调节一个中介,就是process8的模型,经过process和Amos检验,区分效度基本达标但不算很好,有调节的中介不显著但又接近显著,因为数据主要还是线上收的所以想做完数据清洗再是否能符合我的假设,那我用tidyverse做数据清洗的data是7个变量的均值[思考][思考][思考]