数据科学竞赛:你从未见过的究极进化秘笈!
第一,让你100%清楚哪些算法在实际应用中更有效。 解释一下,这里的 “ 有效”包括算法的性能和效率。现在很多人往往是看过了周志华的西瓜书,就觉得自己懂机器学习了,这是很可笑的。最典型的例子就是很多人觉得SVM是最好用的分类器。包括很多发过会议论文的同学,其实也是停留在理论的乌托邦,而且论文的results部分有多real也很难判断。做比赛你可以拿到工业界的数据,而且这些数据都是头部互联网大厂的实际业务数据,所以在实战的过程中,我们可以逐渐井底之蛙蜕变为翱翔在天空的雄鹰,很清楚地知道哪些算法好用,哪些方法靠谱,哪些人在吹逼和忽悠。
第四,实习机会 & 高薪工作。 像我之前就拿到过多家大厂的直通终面机会。统计了一下跟我做过比赛的学弟学妹的工作情况,目前大部分就职于知名国企和互联网企业,比如阿里、腾讯、京东、滴滴、美团、中国农业银行、中国交通建设股份有限公司、中国人寿资产管理有限公司、一汽大众等等。
3.1 武器库
机器学习理论 :周志华《机器学习》、李航《统计机器学习》、Ian Goodfellow和Youshua Bengo《Deep Learning》、Bishop的PRML
我认为我看过的最好的讲传统机器学习理论的书籍是K. P. Murphy的《Machine learning: A Probabilistic Perspective》,其次是Bishop的PRML,
数据处理包:Numpy Scipy 用技术分析的许多现有的工具和创造他们的算法 Matplotlib Pandas等
机器学习包:Sklearn XGBoost LightGBM Keras TensorFlow Pytorch等
关于以上这些知识技术储备,我建议大家不要一直看书,计算机科学和机器学习的相关应用都是实践性很强的项目。任何一门有关编程语言的教材,看一周的时间足够了。关键在于动手实践,做项目做比赛,也就是任务驱动型学习。关于编程我还想说一个原则,就是“ 天下文章一大抄,看你会抄不会抄 ”。在做一个任务时,你的代码能复制粘贴就不要自己敲。这些年我见过很多喜欢耍小聪明的同学,试图通过自主实现一些算法来证明自己的智商。这其实是一种十分幼稚的心理,编程本质上是一个结果导向十分明显的活动,解决问题远比证明你自己有多幺优秀更重要。
除了以上这些武器之外,你还需要知道做比赛的流程。参与一个数据科学竞赛,大致需要这幺几个步骤:赛题分析,数据探索,数据预处理,特征构造,特征选择,模型选择,模型优化,模型融合,预测提交。其中数据预处理、特征构造、特征选择合起来可以称之为 特征工程 。然后,还需要一个有效的迭代策略来管理你的idea和代码。做比赛之前一定要将此流程牢记于心并一步一步地进行,下面就让我为大家介绍图中的每一步具体是如何操作的。
3.2 赛题分析
关于 赛题背景。 你需要仔细阅读官方给出的赛题背景,然后查阅相关资料,对问题场景做深入的理解。因为对于我们这些学生来讲,我们可能对机器学习和数据挖掘的理论知识掌握的很好,但缺乏对具体的问题场景理解。这就好比你只会做算术题却不会做应用题。希望大家记住一句话,解决问题的第一步是认识问题。你只有把问题背景认识清楚,看清出题者的动机,才有可能在比赛中取得好成绩。
关于 重要时间。 一个数据科学竞赛一般要持续两到三个月甚至更长的时间,你在这幺长的时间内肯定还会有其他的事情要做,所以时间管理是很重要的。所以要根据赛方给出的重要时间节点(包括初赛开始时间、组队完成时间、复赛开始时间、复赛结束时间、线下答辩时间),规划好比赛与其他工作的时间安排。这里要插一句,其实并行工作是很难的,也是很扯淡的。如果你想取的好成绩,还是需要专注在一件事上。
关于 组队规则。 你一定要想清楚和什幺样的人组队。我真心想告诉大家的一句话是,不怕神一样的对手,就怕猪一样的队友。这句话什幺意思大家应该很清楚了。希望大家不拒绝猪队友,也不要当猪队友坑别人。还有一点就是,搞清楚这个比赛能不能利用小号。每多一个小号,意味着多一倍的评测机会。你的评测机会越多,你上分的可能性越大。因此,每场比赛都会有很多人拿不同的手机号去注册竞赛平台的账号以求增加自己的评测机会,排行榜上也存在大量的小号。有时候你虽然线上测评的分数在提高,但名次依然再下降,这时候不要灰心,说不定是前排大佬的小号把你踢了下来。
关于 评测机会。 用技术分析的许多现有的工具和创造他们的算法 搞清楚每天有几次评测机会、几点开始评测。较大的比赛受限于计算资源,每天只有一次评测机会,这种情况下还是得好好做线下的测试,珍惜每一次提交的机会。同时,基于评测次数,设计每天的模型迭代策略。另外要注意的是,评测次数多不一定是好事,因为次数多了之后对自己有利,但对手也有利。所以在同样的游戏规则下,如何充分利用各方面的条件提高自己的排名,的确是个需要你认真琢磨的事情。
关于 赛题数据 。你需要搞清楚,赛方提供了什幺数据?要解决的问题:分类问题 or 回归问题?用什幺软件工具:个人PC or 官方计算平台?提交什幺样的结果?也就是结果的数据格式要求。我在刚刚做比赛的时候经常出现因为提交数据文件格式不正确而浪费评测机会。
3.3 数据探索
所谓的整体认知就是,研究 训练集、测试集、表数、记录数、用户数、变量数、变量类型、变量属性值、标签 等内容,然后绘制 实体-关系图 。实体-关系图(E-R图)包括三个组成部分:实体、属性、关系。学过数据库的同学应该熟悉E-R图这个概念。
未来物联网价值将加速增长 | 市场研究
相对而言,自动驾驶汽车(包括部分驾驶自动化或二级自动驾驶等)构成了增长最快的物联网价值集群。在高端情景中,其预计 2020 年至 2030 年的复合年增长率为 37%(从 2020 年的 0.01 万亿美元增至 2030 年的 0.3 万亿美元)。虽然自动驾驶系统占据了头条新闻,但随着消费者要求更高的安全性和可靠性,整个车辆中传感器使用的稳步增长将继续下去。事实上,在未来十年的前五年,增加的安全功能预计将占物联网附加值的大部分。
据估计,到 2030 年,车辆环境中的安全用例集群将为物联网的潜在价值贡献约 1300 亿至 1400 亿美元。在2020 年底,全球 20% 的车辆可能已经配备了安全系统(例如,避免前向碰撞、盲点辅助和自适应巡航控制),可能会减少事故数量和个人汽车保险单的价值。
B2B 与 B2C
麦肯锡2015 年的研究估计,B2B 解决方案将占物联网总价值创造潜力的 70% 左右。五年后,B2B 解决方案仍然是物联网解决方案的主要经济价值。但是,由于家庭内物联网解决方案(例如家庭自动化)的采用速度快于预期,B2C 应用的价值也在加速增长。
虽然预计到 2030 年,发达国家将占估计物联网经济价值的 55% 左右,但从地理角度来看,真正的增长将发生在中国,已成为物联网的全球核心力量。到 用技术分析的许多现有的工具和创造他们的算法 2030 年,中国可能占全球物联网经济价值估计的 26% 左右,略高于其预测的全球经济 20% 的份额,并且高于所有新兴市场的物联网经济价值估计值——占总量的 19%(图3)。
物联网顺风和逆风
虽然物联网的潜在经济价值巨大且不断增长,但事实证明,捕捉这一价值具有挑战性。麦肯锡的最新研究表明,2020 年捕获的总价值(1.6 万亿美元)处于麦肯锡2015 年制定的情景范围的下限。麦肯锡通过调整当前条件更新了对 2025 年及以后的估计,麦肯锡有开发了考虑各种不确定性范围的情景。总体而言,低端和高端情景均低于 2015 年最初的估计:2025 年潜在的物联网经济价值约为 2.8 万亿至 6.3 万亿美元,而 2015 年的估计约为 3.用技术分析的许多现有的工具和创造他们的算法 9 万亿至 11.1 万亿美元。
这些修订反映了一个自 2015 年以来发生了重大变化的世界。物联网的采用轨迹和实现的物联网影响都发生了重大变化。此外,规模因素,如 GDP 增长和油价(对物联网而言是外生的)也发生了变化。麦肯锡还讨论了影响物联网市场整体未来增长的主要因素。
“数字孪生”的未来:它对移动网络意味着什么?
在1930年的《Science Wonder Stories》(科学奇妙故事)中,发明家Anton Des Roubles以“无限大脑”为重点,将他的整个大脑上传到20万个记忆细胞中,并在死后继续以机器形式生存,脱离了他的生物存在。这个故事很快出现了逆转,向坏的方面转化,所以我们暂时撇开Anton和他的命运不谈。大家都看到,如今我们以千兆字节和太字节为单位来计算内存,但把完整的人类大脑放到设备中仍然是非常科幻的。
在流行文化和科幻小说中有许多关于人工大脑和克隆的故事,但是在1992年出版的《Mirror Worlds: or the Day Software Puts the Universe in a Shoebox. How It Will Happen and What It Will Mean》一中可以找到当今数字孪生体的更多技术先驱。计算机科学教授David Gelernter勾画了一种未来的轮廓,在他描述的未来中,计算机系统在全球实现互联,并实时观察我们周围的物质世界。生成的图像和表示可以通过一块玻璃呈现给人类,精确反映现实世界。在他的视野中,我们还可以与所呈现的图像交互,通过这面镜子控制现实世界中的事物。