“你的这组数据里,重复值是怎么处理的?”
程风推了推眼镜,偷偷抬头看了看方豫,讷讷的问道。
这是体育生吧?这是体育生吧?这是体育生吧?
体育生都开始建模了吗?
方豫一进门,接近一米九的身高和壮硕的身材就带给程风很大的视觉压力。
等方豫坐下后,程风更是感觉到方豫身上有种若有若无的威圧感,让他有一种在面对导师时的感觉。
方豫只当程风是个书呆子学长,没太在意他的异常。
方豫不知道的是,生命本质的连续提升,让普通人面对方豫时,会产生一些低位生物面对高位生物的畏惧。
现在方豫还只是一个二级法师,等到了更高等级时,这种状况会更加明显。
很多不想放弃人类正常社交生活的奥术法师,就会选择使用类似“温和之力”手环的道具或奥术封印压制住自己的上位者气息。
听到程风的问题,方豫露出思考的表情:“用pandas的duplicated方法返回一个布尔型series,可以识别重复值,然后用drop函数或keep函数删除就好了。”
“如果是特征重复的,就要用corr方法计算特征相似度,用method参数指定肯德尔或斯皮尔曼相关系数。”
听到方豫的回答,程风不由得一愣,这完全出乎他的意料。
虽然程风问的只是一些基础的内容,但能获得如此清晰的回答,也是完全出乎程风自己的意料。
程风仍旧不太敢看方豫,盯着屏幕:“那离群值你又是怎么识别的?我看到你用winsorizing方法调整了离群值,为什么用winsorizing而不是用众数替代或删除?”
方豫又思考了一下:“对于数值型数据,用箱线图和直方图进行识别,当然也可以用describe函数生成的描述信息识别,分类数据,用条形图识别,还有一部分正态分布数据用3σ准则进行识别。”
“至于说处理,因为删除离群值会让样本数显著减少,我又不了解后续算法对离群值是否敏感,用众数替代如果掩盖了数据的变异性可能会对结果产生影响,所以采用winsorizing方法调整了离群值。”
程风看了看方豫,半天没说话。
至少在大二的时候,他肯定是没这个水平的。
别说方豫只是金融学专业,就算是数学专业的,大二时也不过刚刚开始接触一些初级的数据结构和基础编程。最多也就是刚刚开始接触数据清洗和数据操纵的相关内容。
很多人直到大四,甚至到了研究生进组,还没搞明白到底如何评估离群值,说不准估着估着,把正常值都当成离群值清洗了。
而方豫刚刚对这两个基础问题的回答,虽然简练,但很明显已经熟练掌握了清洗数据的相关技能。
更重要的是,他不仅能够区分处理重复值和离群值的不同方法,还能够讨论不同统计方法的适用场景,并提供具体的代码实现。
这可就不是一般学生能掌握的了,除非他早就深度参与过一些数据建模的项目。
你特么玩我呢吧?你这种学金融学的少爷,把应用数学学这么好干吗?有必要吗?
你们不是应该毕业拼资源去吗?干嘛抢我们这些小镇做题家的饭碗?
而且,你一个金融专业的,是怎么把数学学这么好的?平时不上专业课的吗?
经济学和金融数学是数学和物理专业的自留地你不知道吗?
你也不看看,校内的这些教授,哪个本科不是读的数学和物理?
你一个经济学院的,跟着凑什么经济学的热闹啊。
难道这就是真天才和小镇做题家的差别吗?
不,你们最大的差别是方豫有挂。
“学长?”方豫疑惑的叫了声程风。
刚刚的回答中,技术层面的答案大多数都是柚子通过埃瑟朗之核传递过来的,不过方豫还是往里面补充了一些观点性的东西。
“方豫学弟,我没有……”程风刚说了一半,就听到实验室门口传来一个声音。
“假如后续采用线性回归模型,你准备如何处理这组数据中的离群值和特征相似度?”方豫一回头,就看到童永山正从门口走进来。
而在童永山身后,还有一名身穿旗袍的二十六七岁年轻女子。
女人不算太漂亮,方豫打分的话,长相最多也就能给她打70分。
身材倒是还不错,能有80分。
但这风情,可是90分的水平。
“老师!师姐。”
“院长好。”
程风赶紧从椅子上站起来,向导师问好。
而方豫,也站起身,礼貌的对自家院长打了个招呼,随后又向那名被程风称呼为师姐的年轻女子点了点头。
旗袍女抿着嘴温婉一笑,秋波流转,眼神艳潋,也没和方豫做自我介绍,袅袅婷婷扭动着腰肢,走到茶水间,开始做咖啡。
“不用客气,回答问题就好。”童永山自己搬了把椅子也坐在方豫对面,手中翻着程风打印出来的一叠资料。
方豫不卑不亢的也坐了下来,稍稍考虑了一下:“在线性回归分析中,离群值可能极大地影响回归系数和预测的准确性。所以,首先就是要准确的识别离群点。”
“我可能会通过诊断图,如残差图或影响图,来识别这些离群点。一旦确定了离群值,我更倾向采用稳健的回归技术来减少这些点的影响。”
“例如使d回归或进行变换,如对数转换,以稳定数据的方差并改善模型的整体表现。”
“至于您刚刚提到的特征相似度问题,因为高度相关的解释变量可能导致多重共线性问题对于线性回归模型非常重要,因此,如何准确评估特征间的相似度是最重要的问题。”
“在这个问题上,我倾向于使用vif来评估变量间的相互影响。”
“我觉得,探索性因子分析或主成分分析可以在不损失太多信息的前提下,减少数据中的维度,方法得当的话,可能有效地揭示隐藏在数据背后的结构性联系,从而优化模型的预测能力和解释力。”
“最后,在特征相似度方面,从未来趋势来看,我个人认为不仅要关注传统的相关系数,还应该考虑时间序列数据的共整合性质或变量间的因果关系。”
“因此,使用机器学习技术如人工神经网络来揭示变量间复杂的非线性关系,可能是未来最重要的发展方向。”
“院长,我回答完了。”方豫双目直视童永山,面色平静。
听到方豫的回答,程风不由得倒吸一口凉气。
如果说之前方豫回答他问题的时候只展现出了技能熟练度和项目经验,那现在方豫回答童永山的这个问题,则是彻底超越了一般研究生的学力水平。
一般的硕士研究生,更多的还停留在学习和应用的阶段,只要能够熟练使用数据处理工具,就已经是一名合格的科研狗。
而刚刚方豫的回答,已经完全超出了这个阶段。不止展示出对复杂数据分析理论的深入理解,更展现出相当的原创性研究的能力,以及将技术应用于更宽泛问题解决的能力。
难道这个大二学弟的真实实力,已经是一名博士强者?
真是恐怖如斯!
童永山也忍不住露出明显的赞赏之情,甚至鼓了两下掌。
他倒不是被方豫的专业能力吓到了,在迈国多年,无论是哥大还是宾大抑或mit,都汇聚了这个世界上最顶尖的数理天才,16岁的小孩专业能力吊打博导的也不是一个两个。
真正让他惊讶的是方豫居然敢对学术的专业发展方向做出一个方向明确的预估!
如果不是因为童永山从未将自己尚未提交的研究提案透露给任何人,他甚至会怀疑方豫已经偷看了他的研究计划!
程风这种研究生可能还听不出什么,但童永山可不同,刚刚方豫说的最后一段话,简直让他头皮发麻。
是的,刚刚方豫在其中所说的相当一部分内容,正是他已经准备了近三个月的下一个研究方向!
有如伯牙遇子期,作为一名纯粹的学者,没有什么比遇到知音更让人激动的了。
“方豫,大二金融学二班,真没想到我们学院里还有这样的学生。好!好!好!”童永山看了一下方豫的资料,击节赞叹。
童永山自小就不善言辞,能对一个学生一连说出三个好字,还是10年前他在宾大时招收林方东当弟子的时候。
林方东现在已经是经济学界炙手可热的超新星,已经进入了高发期,去年一年连发三篇顶五(五大顶刊),眼看就是学术圈的另一山头。
“老师,咖啡。”刚刚那名90分风情70分相貌的师姐端给童永山一杯冒着热气的咖啡,眼神不着声色的在方豫身上转了一圈。
“南蓁,来,见见你们小师弟方豫,以后你们就在一起共事了。”童永山哈哈大笑,转头对方豫道,“你们的大师姐江南蓁,也是我回国立后新招的博士,你们以后可以多交流。”
“老师,人家方豫学弟还没同意进组呢。”被叫做南蓁的女子轻笑一声,笑起来眼角微微上翘。
童永山一拍脑门,不过也没在意太多。
在他看来,别说一个大二的学生,就算校内的博士,哪怕已经进了其他组,面对这种机会,都不可能拒绝。
方豫迟疑了一下:“院长,我能问一下咱们组里有考勤要求吗?”
童永山一怔,没想到方豫提了这么一个问题。
江南蓁目光一闪,浅笑道:“方豫学弟,老师的组里面,时间还是挺自由的,不过组会还是要按时参加的,如果平时有事情,可以请假,但事情还是要做好。其实组里工作量很大,哪怕没有考勤要求,可能休息的时间都不会太多。”
方豫松了一口气,如果说只是参加组会,没有具体的考勤要求,那就好办了。
至于工作量大?
那不是有柚子吗。
正好给这个球找点活干。
也不知道为什么,现在看到它闲着就不舒服。
“那没问题,谢谢院长,我随时都可以进组。”
方豫拍了拍胸脯,撞得胸肌乓乓响。