Categories
程式開發

一个数据挖掘者的自我修养:数据科学家头衔很光鲜,但全栈工程师才是本质


真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。

——《大数据时代》维克托·迈尔-舍恩伯格

二十年,是一个什么概念?

对于大数据领域来说,过去二十年经历了从新兴到炒作巅峰再到实质生产高峰期的过程,并开启了一次重大的时代转型。被业界广泛认可的“大数据”定义由著名咨询公司Gartner的高级分析师道格拉斯·兰尼 (Douglas Laney)在2001年提出;大数据经典框架Hadoop则诞生于2006年;如今,大数据技术已经从Hadoop推动的第一代向更智能、更实时、面向交互的技术方向转变。

而数据挖掘的历史比大数据要长得多,在数据量还远远没有今天如此庞大的时候,人们就已经想方设法从中挖掘价值。对索信达首席科学家张磊博士来说,过去二十年是见证数据挖掘和分析技术与应用高速发展的二十年。

一个数据挖掘者的自我修养:数据科学家头衔很光鲜,但全栈工程师才是本质 1

张磊从读研开始进入数据挖掘和分析领域,博士毕业后一直在提供企业级大数据解决方案的知名厂商工作,从Teradata到IBM、SAS,他参与了横跨运营商到金融行业的数十个项目,有着丰富的从业经历。今年年初,张磊选择加入专注金融数字化服务的索信达,担任首席科学家,希望推动国内金融大数据行业朝着“拥抱开源、自主可控、信息融合、智能化”的方向前行。经过大量项目实践的磨练,他对于To B大数据业务和技术方案有哪些经验和独到的思考?他怎样看待金融大数据的过去和未来?做企业级大数据面临哪些难点和挑战?大数据人才团队该如何搭建?带着这些问题,InfoQ对张磊博士进行了独家专访,一探这位20年资深数据人对To B大数据的思考。