在盛宝银行专家课程本学期第四次课程中,伦敦政治经济学院的金融学教授Pedro Alves主要为我们讲授的是关于机器学习的内容。机器学习对于没有接触过相关内容的同学来说,学习内容相对抽象,一些专业名词难以理解,但Pedro Alves教授引入了非常丰富且生动有趣的案例来帮助我们更好地理解这些抽象的知识点。
01
什么是机器学习?
在现代,信息和数据量可谓呈指数级地爆炸增长,那么,这些大量的可获取的数据将如何帮助社会发展呢,Pedro Alves教授指出,机器学习就是利用了大规模的数据帮助我们快速决策,举例来说,在航空公司中,每天都有着大量的问题需要去处理和决策,有人说可以雇佣很多的人,亲自做每一个决定,但这种方法却难以管理、耗费人工费,难以保障质量,也有人说可以编写自动决策的计算机程序,但问题是需要编写很多规则,且难以维护。结果是人们利用了机器学习,它可以帮助航空公司做大量决策,它是基于数据创建最优的规则。
02
机器学习的历史
接下来Pedro Alves教授帮助我们了解了机器学习的发展历史:
03
机器学习的无监督学习和监督学习
机器学习根据它的目的分成了无监督学习和监督学习。
监督学习是机器学习中的一种训练方式/学习方式。监督并不是指人站在机器旁边看机器做的对不对,而是下面的流程:
1、选择一个适合目标任务的数学模型
2、先把一部分已知的“问题和答案”(Labelled Data)给机器去学习
3、机器总结出了自己的“方法论”
4、人类把”新的问题”(测试集)给机器,同样经过相同的训练步骤,让它去解答,得到数据输出
无监督学习是机器学习的一个分支,它从未经标记,分类或分类的测试数据中学习。无监督学习不是响应反馈,而是根据每个新数据中是否存在这种共性来识别数据中的共性并做出反应。
04
监督学习和无监督学习的算法
监督学习常用的算法模型有回归和分类。无监督学习常用的算法模型有聚类和降维。
回归(regression)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
分类(Classification)是一个有监督的学习过程,目标数据库中有哪些类别是已知的,分类过程需要做的就是把每一条记录归到对应的类别之中。由于必须事先知道各个类别的信息,并且所有待分类的数据条目都默认有对应的类别,因此分类算法也有其局限性,当上述条件无法满足时,我们就需要尝试聚类分析。
聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
降维(Dimensionality reduction),直白的说是把数据的维度降下来,用一个相对低维的向量来表示原始高维度的特征。从理解上讲降维要做的就是学习数据新的表示,这种数据新的表示在形式上更简洁,而且要求能够尽可能多地保存数据原有的信息。
05
机器学习的应用
机器学习的应用范围非常广泛,以下是应用场景举例:翻译、网站上的排名、网上搜索、Security - face id、图像识别、语音识别、光学字符识别、文本或文档分类,垃圾邮件检测、形态分析、词性标注、统计分析、语音识别,语音合成,说话人验证、图像识别、人脸识别、欺诈检测(信用卡,电话)、网络入侵、游戏、无人辅助的车辆控制(机器人、导航)、医疗诊断、推荐系统、信息提取系统等等。
06
机器学习的挑战
然而,机器学习也有自身的局限性,会不可避免的遇到一些问题和挑战,比如过度拟合、因果关系和偏差。
1、过度拟合
拟合函数有三种情况,欠拟合、正常拟合、过度拟合。
欠拟合是指假设函数对于样本集本身就拟合结果不佳,很容易直观看出来。
而过度拟合是指假设函数为了完美的拟合样本集,引入了过多的高次项,虽然对于样本的拟合十分良好,但是与实际情况完全偏离,与之对应的解决方案有,交叉验证、正则化和使用威力较小的模型。
2、偏差
偏差,会结果与预期不符,这需要更多的数据参与到计算中,以求结果更加准确。
例如,一张奥巴马的脸因为数据太少或者一些偏差会导致识别结果出错。
3、因果关系
因果关系,一般会与相关关系联系起来,但相关性并不代表因果性,相关性是对称的,而因果性并不对称,你可以说是炎热的太阳导致了冰淇淋融化和人体晒伤,但反之则不行,而冰淇淋的融化和人体晒伤具有相关性,是对称的。
两个因素的因果关系的确定往往比相关性的确定需要更多的数据,需要更多的证据支持。在机器学习中,为了解决这个问题,需要更多了解计量经济学、使用威力更小的模型或者使用A/B测试。
图文来源:金融创新与多资产智能交易实验室
美编:任祥吉