Skip to content

Latest commit

 

History

History
120 lines (66 loc) · 9.92 KB

kaggle-start.md

File metadata and controls

120 lines (66 loc) · 9.92 KB

kaggle 组队开始啦

1、前言

我们学习 ML 的知识已经有一段时间了。不知道大家的 ML 技能还有实际问题的处理能力是不是一天一天在增长,也不知道大家是否找到了一个适合自己突破的学习方式。正所谓,学如逆水行舟,不进则退。既然我们希望增长得更快,况且我们身边有这么多的资源(不利用岂不是可惜),这样一想,这不是正好让我们展示一下自己的技术(是时候表演真正的技术了)?

装逼的江湖里可能不会出现李淳罡,但是谁能保证你不是下一个徐凤年呢?

于你而言,阿里天池、京东金融大赛、DF、CCF、kaggle 比赛,这不就是一个个江湖吗?

难道你就不想一声 “剑来!” 令那数千飞剑遮天蔽日?难道你就不想为那一袭红衣剑开天门?难道你就不想 “天上剑仙三百万,遇我也须尽低眉” ?还有比这更装逼的事情?

2、正文

考虑到大家学习完成 ML 的基础知识之后,可能会苦于一身本事无处施展,更准确来说,是学完之后没有练手的机会。所以,ApacheCN 准备开始组织大家一起刷 kaggle 啦啦啦~~~

2.1、运筹帷幄

片刻 大佬已经在 github 中写了一个简单的小例子 ---> 数字识别,供大家来参考。

近期因为涉及到 ApacheCN 的组织架构的调整,还有 sklearn 0.19.X 项目的进行等外在因素,可能片刻大佬没有时间和大家一起,我们对这次活动进行了一个简单的小规划,请看下面~~~

  • 初期规划 1-3 个人一队,当然也可以调整,小队人数方面比较自由(为你们可以在群里尽情的搞基提供保障)
  • 建议先从简单的小比赛入手,比如 手写数字识别预测房价泰坦尼克
  • 初期规划每个小比赛 1-2 周每个小比赛之后有一次 ApacheCN 各参赛小队排名,根据 leaderboard 上面的最高成绩排名
  • 排名前 3 的小队给大家做一下直播,讲解一下获得好成绩的心路历程
  • 提交到 github 上,接受来自大家的膜拜~~~

2.2、初入江湖

在正式开始之前,你需要了解一下相关的背景知识

2.3、小有名气

了解完一些相关的小套路之后,为自己定一下位。

  • 如果你已经是大佬了,那就不需要从头开始了,直接找与你水平相近的人开始组队吧,直接上有难度的比赛;
  • 如果你和我一样是个萌新,那就找一些和你一样的或水平比你高而且愿意带你的人组队,开始征战之旅吧!

少侠,无论做啥最幸运的就是碰壁或遇到挫折,跌宕起伏才是人生,如果一帆风顺,这样的人生我宁愿不要!
最可怕的是不敢,连自己这一关都过不去,你还想成为大佬?别做梦了!大不了重新来过,因为......你还年轻。年少人做年少事,有担当之事等到而立之年再去做。

如果不知道从哪儿开始,那就从 手写数字识别 开始吧。

2.4、名动一方

组队,并不意味着你变得轻松了,相反,你可能会变得更累,事情更多。还有千万不要把自己想成一个可有可无的人,这样的想法真的很让人害怕。在一个小队里面,问题的解决就靠大家的相互交流,加倍信任,好成绩的获得,一定离不开超级棒的团队合作。

  • 组队之后,各小组可以私下里建个讨论组一起讨论问题,但是更建议大家直接在群里提问,群里解答,毕竟群里卧虎藏龙,我能说,咱们群里有好几个大佬吗?他们玩比赛拿奖都拿到手软,但是我不能透露他的名字~~~

  • 在群里,大家尽情头脑风暴,也正是因为这样的跳跃思维,才会出现更加好的问题解决方式,才会出现 leak 般的答案。

  • 当然,组队完成之后,在群里你可能会发现某个人,或者某几个人在做比赛的时候思维炒鸡活跃,得到的结果也相当 Nice ,那还等什么,这是大腿啊!!!还不赶紧抱紧了。

2.5、天下闻名

等到每个小比赛结束之后,大家把自己相应的代码提交到 github 中,以小队的名称命名文件夹,接收来自世界各地的膜拜吧。唔哈哈哈哈哈哈哈哈。。。当然如果小队人员不愿意将自己的核心代码开源出来,我们也会尊重你们小队的意见~~~

  • 排名前 3 的小队,选出负责人或者团队成员一起,对如何获得这样一个令(rang)人(ren)害(jiao)怕(ao)的成绩做一下总结,这才是我们想要的干货(就是这么傲娇)。当然最好的结果是让其他人能够从你们的经历中学到一些经验,比如:数据预处理需要注意的地方,建模完成后怎么进行验证等等。

  • 我们尽量是以 文档+代码+视频 的形式或其中之一的形式开源出来,不因为别的,只因为我们是 ApacheCN 。

  • 每个参加比赛的小队都有积分可以拿,但是积分多少需要看成绩来定啦,^_^,成绩越好,积分越高啊~~~

2.6、一代宗师

就这样驰骋在 kaggle 的沙场上,只要你没有被比赛压垮,你就能把比赛压垮。

咱们 ApacheCN 打算用 kaggle 上的中小型比赛让大家练手,但是手热了,我们该怎么办呢?咱们还有下面的几个选择:

  • 继续挑战 kaggle 上的高难度比赛,一天不拿到 kaggle 的 Grandmaster 称号,一天就不告老还乡。

  • 转战国内的比赛 ===> 天池/京东/CCF/challenger.ai ,沙场真的是应有尽有,就看你这千里马中意哪片草原了。

到时候,咱们 ApacheCN 内部会进行一次大讨论,定一下未来的走向。

2.7、超凡入圣

廉颇老矣,尚能饭否?

各大比赛你心里基本都有一点自己的认知了,自己也有了很大的成长了,自己的技术达到什么水平你心里也是门清儿,所以....你要停下来思考清楚自己接下来的路怎么走了!

举个栗子:

  • 喜欢各种算法/建模 ===> 算法工程师/数据科学家/自动驾驶工程师
  • 喜欢数据的处理:清洗/沉淀/分析等 ===> 数据开发工程师/大数据开发工程师
  • 不喜欢数据方面的流程,还是喜欢功能模块开发 ===> web工程师

无论怎么样,到这个阶段,你已经知道自己接下来的路该怎么走了,不是吗?

2.8、天外飞仙

大佬,以后的路就只能靠你们自己走咯,哈哈哈哈~

还请萌新在咨询你们如何入门的时候,为他们指明一条可以走下去的路...

3、最后的寄语

我的心中是一直有一个江湖的……那里的山,云雾缭绕;那里的水,波光粼粼;那里的将士,持三尺剑立不世功;那里的侠客,十步杀一人千里不留行;那里的姑娘,美得万人空巷。那里有快马厮杀的豪气,也有一剑斩六合的孤胆英雄,只因那里的名字叫江湖。

江湖很美,一人一马就能踏遍满山桃花,有不世武功便可仗剑天涯,侠士们都是剑眉星目,姑娘们都烨若桃花。

江湖卧虎藏龙,你走进一家客栈,匾额上书两字:月来!

乍一看,不得了啊,这客栈里都不是一般人哇,你看,那坐正中间的大汉,身长九尺,髯长二尺,不怒自威;你再看那边另一位兄台,豹头环眼,燕颔虎须,势如奔马。你可能会感叹,长相便如此磅礴,服气!大哥,干了这碗酒,都在酒里了。别着急喝呀,这些可都是小喽啰,厉害的人,可在后头呢!你看那窗边,默默沏茶的黑衣男子,是不是像一棵不倒的青松?你看那炉边轻若芙蕖的酒女,是否袖中偶尔有寒光闪过?你看那低头哈腰的店小二,为何行走时听不到丝毫脚步声?

江湖时而精彩,却又偶现残缺。那位公子远赴边城,姑娘十八里相送,为什么眼睛红了呢?平日里威风凛凛的刀客,为何神色寂寥地坐在窗边?是否在想错手杀死的那个姑娘?宫斗剧里风姿绰约的姑娘们,都在为了皇帝的青睐和后位的宝座勾心斗角,左右使绊子。青春剧里的男生女生,不知又包了几座鱼塘,看了几夜流星。美剧里的时而颓废时而振作的男主女主们,不知又拯救了多少次世界。

但是江湖,还是那样,侠客们大口吃肉大碗喝酒,饮尽了一夜的明月,散尽了一宿的恩仇。那里的姑娘,身骑白马走三关,眼睛始终清澈得像泸沽湖的水,神采飞扬像三月的桃花……那里没有利欲熏心,绝不会背信弃义。话不投机,我就不屑言语,遇到知己,就倾杯相交,他们始终保持着一身风骨,不负权威,不畏权贵,不贪权力。你若是诧异,他们就飒然一笑,说,小爷我可是江湖人!江湖人自有江湖人的风骨,江湖自有江湖的不凡,江湖包罗万象又精彩纷呈,任你贪癫痴怨又六根不净,这江湖,都欢迎你。罢了,看你如此向往,少侠我便陪你喝一杯,跟你讲讲这人生到底该怎么过才爽利!

干了这碗酒,你我都是江湖人!

最后附上我超级喜欢的一句话:

  • 李淳罡愿世间心诚剑士人人会两袖青蛇。
  • 李淳罡愿天下惊艳后辈人人可剑开天门。