“上面可没说耕耘科技不能赚钱,我得问问张教授,为什么不把技术商业化,难道我们公司要一直靠国家养着。”邓云吉当即前往研部,许贡连忙跟上。
张教授正在办公室里研究算法,无论是机器学习、模式识别、数据挖掘、统计学习、计算机视觉、语音识别、自然语言处理都涉及到算法。
大数据常用的算法有很多种,分别是分类决策树算法,聚类算法,关联规则算法,最大期望算法,迭代算法,分类算法,向量机算法等。
决策树是在已知各种情况生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。
由于这种决策分支画成图形很像一棵树的枝干,故称决策树。
举个例子,假设一个包含很多病人信息的数据集,我们知道每个病人的各种信息,比如年龄、脉搏、血压、最大摄氧量、家族病史等。
这些叫做数据属性。
现在给定这些属性,我们想预测下病人是否会患癌症。病人可能会进入下面两个分类:会患癌症或者不会患癌症。c4.5算法会告诉我们每个病人的分类。
做法是用一个病人的数据属性集和对应病人的反馈类型,c4.5构建了一个基于新病人属性预测他们类型的决策树。
那么什么是决策树呢?决策树学习是创建一种类似与流程图的东西对新数据进行分类。使用同样的病人例子,一个特定的流程图路径可以是:病人有癌症的病史,病人有和癌症病人高度相似的基因表达,病人有肿瘤,病人的肿瘤大小过了5cm。
基本原则是:流程图的每个环节都是一个关于属性值的问题,并根据这些数值,病人就被分类了。
算法是监督学习还是无监督学习呢?这是一个监督学习算法,因为训练数据是已经分好类的。使用分好类的病人数据,c4.5算法不需要自己学习病人是否会患癌症。
在大部分机器学习课程中,回归算法都是介绍的第一个算法。
原因有两个:一是回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中。二是回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习那些强大的算法。
回归算法有两个重要的子类:即线性回归和逻辑回归。
在大数据时代,数据挖掘是最关键的工作。
大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。
其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。
目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。
张教授正在做的,就是用这些算法来优化“云台”的基础技术。云台是他们在巴蛇系统的基础上,不断优化重新设计的大数据系统。
咚咚。
“进来。”听到敲门声,张教授头也不抬道。
“张教授,我找你有点事。”邓云吉二人走进办公室,自顾自地坐在椅子上。
“什么事?”张教授只瞥了他一眼。
“云台已经得到国家认可,马上就能应用到各行业当中,我们为什么不将其商业化。据我所知,江燕公司早就把这项技术投入到商业开当中,市场十分广阔。如果我们也这样做,就不需要向上面申请研资金,你们再也不用愁资金问题。”邓云吉说道。
“云台是给政府部门用的,想商业化,我们需要一个独立的数据中心。建一个数据中心可不便宜,你能申请到资金吗?”张教授说道。
他们研究大数据和云计算,目前用的是微博云。
“只要耕耘科技有这个能力,我相信上面会投资的。”邓云吉自信地道。
建设一个数据中心虽然昂贵,但是跟国家在大数据战略计划的投资比起来,简直九牛一毛,只要从指缝漏一点出来,就够他们用了。
邓云吉有背景,他相信上面的人也想赚点钱,会同意他的申请。
“数据中心的问题解决了,我们还需要商业应用。”张教授说道。
“怎么应用,你尽管说。”邓云吉说道。
“我是研究基础技术的,商业应用我也不是很懂。”张教授说道。
“您太谦虚了,难道您的技术水平还比不上江燕公司吗?”邓云吉说道。
“这不是技术水平的问题,而是软件设定,需要很了解互联网的商业思维。我建议你招聘一些有创意的年轻人,可以去江燕公司的软件园区,那里有很多擅长这个的。”张教授说道。
“去江燕公司就算了,我们自己招聘。”邓云吉说道。
“没那么简单的,你现在什么计划都没有,把人招进来也不知道做什么。而且这方面的人才很少,最好还是跟江燕公司合作,他们培养了很多这类人才。”张教授说道。
“是吗,我考虑一下。”邓云吉说道。
邓云吉不久前才给了杭雨脸色看,又岂会向他求助,于是决定自己做。
他