文/程一祥
如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学领域的科学家、顶尖从业者们又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在年走访50位来自各行各业的数据科学领域的顶尖专家,希望能让你们了解这些神奇的人和他们神秘事儿,为你们一窥数据科学的未来与未知。
数据科学如今像一个科技圈的“万人迷”,它仿佛有着某种引力,吸引着各界人才、资本和新闻的头条。你是想当看客,还是也想入场?DT君专访猎聘网首席数据数据官单艺,带你了解数据科学的人才市场。
数据的风,吹起来了
年的美国硅谷,互联网行业正一片欣欣向荣的景象。
几年前,Mosaic网页浏览器(DT君注:Mosaic是最早的网页浏览器之一,支持多种互联网协议,是微软InternetExplorer浏览器的前身。)的出现正式掀起了美国互联网的热潮。建立一个公开的网站,迅速成为上市公司们的必选动作。突然间,大家开始意识到:互联网这种高效、双向、即时性的通讯模式正在变革原有的商业社会。
广告、销售、制造等各行各业的人们,开始涌入互联网这个新兴行业。一时间,各路科技公司遍地开花,股票市场上的科技股涨势凶猛,并在日后酝酿了一场“互联网泡沫”。
对于当时很多在学校读计算机科学的学生们来说,那是他们投身这场科技革命的原点——因为当时在硅谷,到处都是工作机会。
(图片说明:旧金山的硅谷路标。作为互联网科技的“革命圣地”,硅谷聚集了全球最优秀的科技公司和人才。虽然年的互联网经历了一波泡沫经济的破裂,但是包括互联网基建、互联网工具、还有门户网站等在内的科技行业却也因此而得益,最终发展了起来;图片来源:视觉中国)
如今,猎聘网的首席数据科学家单艺,就是在那个时候加入到了互联网的大潮。
当时单艺刚来到美国,正在亚利桑那大学攻读信息管理系统的博士学位。“比起科研,我感觉自己对解决业界的实际问题更感兴趣”,单艺说当时美国热烈的科技氛围,让他最终决定提前离开象牙塔。
告别了亚利桑那炙热的沙漠和学院派宁静的科研生活,他从学校转身进入硅谷,开始了自己的数据科学职业生涯。
今天,活跃在各行各业的数据专家们,大多都经历了那个时代,走在了数据腾飞的风口浪尖。
“当时还没有什么数据科学的概念。在我学习的信息系统专业时,课程会要求我们用信息去决策(数据决策)。所以在读书的时候,我就逐渐感受到了数据的重要性。”学生时代培养的数据直觉,潜移默化中影响着单艺的职业选择和判断。
“我在硅谷的第一份工作,是负责CRM(客户关系管理)领域的数据挖掘。”从数据界“出道”的时候,单艺最开始选择的是CRM数据分析师的职位。
当年的数据挖掘还没有Hadoop等分布式系统架构,也没有完善的工具和语言。单艺他们当时做数据分析,都是用的Excel,不够用的时候也会用Java自己写一些程序。那个时候数据挖掘的目的也非常实际,不是人工智能,也无关人类未来,“就是解决实际业务问题,那一单单的数据可都是钱呐。”快20年过去了,虽然如今数据科学行业与当时已经大不同,但单艺谈论起刚工作那会儿的事儿,依然兴趣盎然。
“‘数据科学家’这个称谓最早在硅谷出现”,单艺说,“曾经坊间传言称‘数据科学家’即是在硅谷工作的统计员”。在单艺看来,现在的数据科学与统计学密切相关。它以数理统计学为核心,结合了现代的概率论、机器学习、数据可视化、数据库、软件开发等多领域的理论和工具,目的是通过分析、挖掘数据,形成业务洞察和数据驱动的决策,并为此提供高效的工具。
“我当时每天思考的,都是如何根据业务从简单的统计做起,怎么建模,怎么打通数据,最终解决实际问题。”对单艺自己来说,当时的他并不希望留在学校成为一个传统的科学家,受到科技大环境影响的他,更希望进入到业界,把数据真正和业务结合起来。于是他放弃了继续留在学校读博,转身投入到了更接地气的工业界,开启了自己的数据科学之路。
从分析师到CDO,他把数据科学上的“坑”全都踩了一遍
虽然第一份工作做的是数据分析师,但是单艺骨子里还是一个程序员。
他一直喜欢自己写程序,在工作之余还保持着高昂的写代码热情。后来他甚至为公司开发了一个复杂的中间链系统(用于打通公司内部的数据传输),然后顺便,走上了系统开发的程序员道路。
从分析师到程序员的转型跨度,不亚于重新换了个职业。
“其实,到现在来看,这也是区分数据科学行业两种不同人才的重要标准。”单艺认为,分析师其实更偏咨询,它要求与人沟通的能力和解决实际业务的能力;而程序员,或者说数据工程师,则更偏研究,要求的是编程、算法等技术攻关能力。
“不过我自己转型的时候还是蛮顺利的,这可能跟我之前一直比较喜欢编程有关吧。”单艺腼腆地笑了笑。他现在仍然每天都在写代码,顺手写个小插件解决一些业务问题。对他来说,编程是日常生活的一部分。
随着技术和计算能力的不断发展,数据的应用开始迅速超越传统行业,向数据量更大、计算更复杂、应用价值更超前的互联网领域迈进。一时间传统的描述性统计和Excel已经越来越力不从心。于是,单艺接下来从程序员又转变角色,成为一名算法工程师,完成了从商业数据挖掘到数据科学业务的转型。
“当时离大数据最近的行业:一个是搜索,后来是广告。”如何实现搜索的个性化。怎么样根据上下文,把搜索变得更精准等等?基于海量的搜索数据,单艺有机会在最前线去探索数据科学的价值。
误判了移动搜索的业务前景,算是单艺在数据科学路上踩过最大的坑。随着智能手机的普及,他起初认为如日中天的互联网搜索业务将来也会成为移动端的一大特点。但是移动端的搜索入口最终被海量APP占领。单艺坦言,这是他当初没有想到的。
后来他的角色又陆续发生了变化,担任过几家公司的算法工程师,也勇敢地成为过创业者,一直到今天出任猎聘网的首席数据官,管理一个数十人的数据科学团队。这么多年来,可以说数据圈里的“坑”,单艺多多少少都踩过一遍了。
“数据是用来解决问题的。”这是他多次职业选择中始终坚持不变的原则。
“数据科学”是为了实践,不是搞场实验
一身Polo衫,穿着休闲短裤,如今的单艺还保留着当年程序员的那种质朴、实诚的感觉。
访谈中他一直强调自己是“做技术的”,是“要解决问题的”。DT君觉得,这可能是如今那些“十天掌握Python、零门槛机器学习实践、一个月速成全栈工程师”等满天飞的数据广告,所欠缺的一份态度。
单艺说,在公司,数据科学家的职责核心是:如何让数据在公司里产生最大价值。
“在实际中,我的工作内容是分阶段的。开始的时候,我要负责搭建一个数据团队;后来就根据问题、业务驱动来做项目;当团队比较大、项目较为成熟后,我就要负责战略方向,变现数据资源和人才的培养等。”
是骡子是马,拉出来溜溜。在今天的数据科学产品中,最核心的关键词一定是“智能化”。在猎聘,单艺一直致力于通过数据科学让招聘更加“智能”。
(图片说明:GoogleTrends显示的最近五年BigData与ArtificialIntelligence在中国区域内的搜索指数。从年底开始,大数据和人工智能开始逐渐受到人们