1、研究背景
随着科学技术的飞速发展和人们获取数据的多样化,人类拥有的数据急剧增加,在大数据时代,数据已成为新型战略资源,是驱动创新的重要因素,如何获取隐藏在数据背后潜在的规律倍受研究人员关注。
机器学习(machine learning)是继专家系统之后人工智能应用的又一重要研究领域,机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的技能。它是人工智能的核心,是使计算机具有智能的根本途径,在金融、工业、商业、互联网以及航天等各个领域均发挥着重要的作用。对机器学习研究的进展,必将促使人工智能和整个科学技术的进一步发展。
2、研究意义
机器学习方法主要有决策树学习、人工神经网络、遗传算法、聚类分析、判别分析、支持向量机等。近几年,人们将神经网络、混沌理论、遗传算法以及系统理论和当代应用数学研究的最新进展等诸多理论与方法应用于金融领域。金融数据挖掘在金融管理中的地位和重要性愈显突出,金融产品定价、风险管理、投资决策甚至金融监管都越来越重视金融数据分析,通过数据挖掘发现金融市场发展的内在规律与动态趋势。机器学习理论及其在金融领域的应用成为了一个比较热的研究领域。
同其他机器学习方法比较,支持向量机更具严密的理论基础,因而在模型表现上也略胜一筹,被广泛用于分类和非线性回归,取得了较为满意的使用效果。例如,金融时间序列预测、债券等级评估、个人信用评估、隐私保护、股市预测、保险索赔等模型。但是,从实践看,模型参数的选择过度依赖人们的实验方法和实践技能,从而在一定程度上降低了模型的推广能力和使用领域,训练时间过长、核参数的选择,在大训练样本情况下, SVM面临着维数灾难,甚至会由于内存的限制导致无法训练。
应用机器学习方法进行金融数据挖掘,是一种能够适合金融市场发展实际的途径,有利于发现金融市场发展中形成的实际规律,因而将此研究方法应用于金融问题具有实践指导意义。
3、研究思路
目前机器学习在金融数据挖掘方面存在局限性,国内外应用支持向量机研究金融数据挖掘和金融问题的成果虽然很多,但多集中在股票价格与股票市场走势预测方面,有关套期保值分析、公司财务危机预测、金融市场联接机制分析及其创新成果还不多见。同时,金融问题的研究多集中于计量经济学方法,这些方法和技术多使用了线性技术以及与金融市场不相吻合的理论假设,出现了资产预测价格、走势和风险评估结果与实际出入较大的情况,影响了金融管理的效率。
基于目前机器学习中存在的问题,本项目拟整合参数估计方法和非参数估计方法的优势,改进支持向量机和新的机器学习方法以使其适应金融数据挖掘领域,无疑将为金融市场提供科学、有力的实践指导,对于促进金融研究与管理具有十分重要意义。
二、项目执行与完成情况
1、预期目标
参加一系列学术会议,和本领域专家深度讨论,基于目前机器学习的特点,提出新的机器学习模型,整合参数估计方法和非参数估计方法的优势。将支持向量机进行推广,构建针对不同问题的新的支持向量机模型;针对构建的新模型,以最优化为主要工具,分析和研究不同算法在模型上的应用效果。通过理论分析和数值实验结果,设计出稳定的、有效的算法;结合金融数据特点,改进支持向量机以使其适应金融数据挖掘领域。
本项目期望将数据挖掘方法应用到金融问题中,理论联系实际,提高机器学习理论的应用价值,推动金融市场良好发展,有效降低银行等金融机构贷款风险。同时,作为一名高校教师,从科研者自身角度,提高教学和科研能力,公开发表相关学术论文和专著。
2、完成情况
按计划参加学术研讨会,并在本项目实施过程中,发表了学术论文和专著。成果如下:
1) 基于支持张量机的信用评估方法,《经济定量分析方法与实证研究》第1辑,2014年6月;
2) 大数据时代金融专业数学的发展趋势,《大学教育》,2014年8月;
3) A Tensor-based method for Credit Scoring,2014 International Conference on Computer Science and Software Engineering,2014年11月;
4) 连续型抽样方案在企业内部审计中的适用性,《技术经济与管理研究》,2014年第6期;
5) Image Deblurring via an Adaptive Dictionary Learning Strategy,TELKOMNIKA Telecommunication, Computing, Electronics and Control, 2014.年11月;
6) 专著:《基于支持张量机的信用评估模型研究》,知识产权出版社。
三、项目成果
1、教学方面
通过项目实施,初步确立了金融专业数学的发展趋势,对金融专业学生的学习方向和课程建设具有指导意义。数据挖掘是一门边缘应用学科,它的蓬勃发展是由于它在各个领域的广泛应用。大数据时代下金融专业的的学生数学应该重视以下方面应用:深度学习(Deep Learning)、机器学习和数据挖掘、分布式计算,如MR、Hadoop等,在大数据中预测最先取得突破的技术环节将会是分析中的大数据挖掘与关联分析、存储结构和系统、数据采集和数据化。
目前金融问题的研究方向和发展趋势,主要集中在计量经济方法,例如,格兰杰因果分析、向量自回归、条件异方差、随机波动分析等。这些计量经济方法和技术大部分使用了线性技术,以及与金融市场不太吻合的理论假设,基于这些方法的结果,例如,资产预测价格、发展动态以及风险评估结果和实际出入较大,从而影响了金融管理的效率。
因而,抓住分析大数据的方法,就等于抓住了大数据的咽喉!如何将已有分析数据算法整合,让学生抓住重点,挖掘到比较可靠的信息或知识,将成为金融专业数学的研究目标,和本人教学工作的努力方向!
2、科研方面
通过项目实施,初步在相关领域发表了多篇学术论文和一本专著。近年来,随着银行等金融机构信贷业务的发展,信用评估的重要性日益增强。信用评估就是授信者根据贷款申请人的可知信用信息,利用各种信用评估模型,对可能引起信用风险的因素进行定性和定量分析,以期得到贷款申请人的还款概率,据此决定是否授信及授信额度的过程。
信用评估本质上是一个非线性分类问题,为了提高信用评估的精确度,降低信用风险,近些年一系列统计方法和非统计方法被广泛应用到信用评估模型中来。
常用的统计方法有判别分析、Logistic回归等,这些常用的统计方法假定条件非常严格,在实际应用中很难达到理想效果。常用的非统计方法有分类树方法、K-近邻判别分析、神经网络、支持向量机等。基于这些常用非统计方法的信用评估模型,其预测能力较好,但不能量化解释指标的程度。例如,K-近邻判别分析,按照数据样本之间的距离或相关系数度量,常受到少数异常数据影响较大。
支持向量机是一种基于结构风险最小化的非线性判别方法,特别是在解决小样本、非线性模式识别中表现出许多优势,推广能力较强,得到了研究者的高度关注,但支持向量机在解决高维数据时,容易导致高维小样本问题,从而造成比较差的预测结果。
目前大部分机器学习方法都是基于向量空间的,即把向量作为它们的输入,例如分类、聚类、特征降维等问题,都是在向量空间中进行学习。但是在很多问题中,需要把张量作为它们的输入,例如,灰度图像可以用二阶张量(矩阵)来进行表示,灰度图形序列可以用三阶张量来进行表示。
为了克服支持向量机等机器学习方法的缺点,本项目提出了支持张量机这种新的机器学习方法,该方法可以有效地减少模型中变量的个数,进而避免高维小样本问题。作者运用德国信用数据集和澳大利亚数据集将支持张量机与支持向量机等其他机器学习方法进行实验分析,验证了支持张量机在解决信用评估问题上的有效性,进一步推动了信用评估的发展。
随着生产管理方式的不断发展,人们对质量的要求越来越高,审计抽样技术基本停留在标准型抽样阶段,且不能做到实时监控,导致许多企业管理上的漏洞不能及时发现,造成不同程度的损失。通过本项目实施,将连续型抽样方案的特点和实施的具体要求,与企业内部审计的特征、职能相对比,发现连续型抽样方案在企业内部审计中的应用是具备可行性的。结合审计案例,对其原有内部审计工作进行对比,发现运用连续型抽样,不仅可以对企业的运营实现实时监控,而且在一定程度上降低了企业工作人员犯错的几率。对企业内部审计抽样理论进行了大胆的创新,将连续型抽样引入企业内部审计,对扩大连续型抽样的应用范围,提高企业内部审计人员的工作效率都起到了积极的作用。
基础教学部 张瑞亭
2015年11月
嘉华学院北京市民办教育发展促进项目——青年英才计划成果分享系列之二
发表时间:2015-11-10嘉华学院北京市民办教育发展促进项目——青年英才计划成果分享系列之二
——基于机器学习的信用评估模型研究项目
一、项目概况