证券分析师考试复习知识点汇总【第四章】

2020-03-09 15:34:36        来源:网络

  第四章 数理方法

  第一部分 概率基础

  一、概率与随机变量的含义、计算和原理

  1、事件和概率

  随机试验:进行试验时,会出现什么结果,是不确定的。

//images.51zhishang.com/2019/1015/20191015095416690.gif2020证券从业资格考试备考通关秘籍 点击下载>>

//images.51zhishang.com/2019/1015/20191015095416171.jpg

部分资料预览 

//images.51zhishang.com/2019/1015/20191015095418142.png

  样本点:每一种可能的结果。

  样本空间:全体样本点集合。

  (扑克牌数字、花色)

  事件:样本空间(可测)子集。

  2、集合、事件与概率

  概率:对某个事件发生可能性的度量。

  最基础的事件运算:子事件、事件并(和)、事件交(积)、事件补(余事件)。

  (1)概率主观定义。依据各自的经验和自信,对于事件A发生的可能性有不同的看法,分别给出的估计概率。

  (2)概率的公理化定义。

  样本空间s上的概率测度P满足以下概率公理:

  ①对于任意的事件A 属于S,0≤P(A)≤1,表示一个事件的概率必定在0和1之间;

  ②P(S)=1,表示样本空间s包含所有可能的结果,事件s的概率应该为1;

  ③如果对于任意的i≠j,Ai∩Aj=Φ(空集)

  那么P(A1 ∪A2∪…)=P(A1)+ P(A2)+…,表示如果事件A和事件B不相交,那么它们并集的概率等于两个事件概率和。(和的概率等于概率之和)

  3、条件概率与事件独立。

  在给定事件B已经发生的条件下事件A发生的概率记为P(A / B)。

  如果说事件A和事件B是相互独立的,则

  P(A/B)=P(A),表示事件B的发生对事件A发生的机会不产生任何影响。

  如果P(A∩B)=P(A/B)P(B)=P(A)P(B),我们说事件A和事件B是相互独立的。否则,我们说事件A和事件B是相互依赖的。

  例题:考虑掷骰子的试验。样本空间S是六个样本点,出现点数为1的概率,记为集合A={1},则P(A)=1/6。但是,如果考虑奇数点出现的条件下点数1出现的概率,则在给定信息影响下,使得样本空间从S={1,2,3,4,5,6}缩小到B={1,3,5},此条件概率记为P(A丨B)=1/3。

  4、随机变量和概率分布

  随机变量:是从样本空间到实数集的一个函数,一般用大写字母表示,它的取值用小写字母表示。(取值随机会而定的变量)

  (1)离散随机变量及其概率分布函数。设随机变量X取值为有限个或者可数多个值,则:

  P(X=xi)=pi i=i,2,…,n

  称为随机变量X的(概率)分布。

  (2)连续随机变量与概率密度函数。

  概率分布函数:随机变量取值范围在一个区间或者整个实数轴。

  设X是随机变量,其值小于等于x的事件{X≤x}发生概率用F(x)表示,我们称F(x)=P(X≤x)为随机变量X的分布函数。某个连续的随机变量X的概率密度函数满足的三条性质:

  1)对于所有的x∈R,有f(x)≥0;

  5、常用分布。在金融模型中,常见的分布包括二项分布、正态分布、对数正态分布、t分布和F分布。

  (1)二项式分布。B(n,P)。其中n和P是两个参数, n是正整数,0≤p≤1。

  考虑一个仅有两个结果的试验,比如价格上涨或下跌,随机变量X的值为0或1。随机变量X服从贝努利分布的假设为 P(X=1)=p,P(X=0)=1-p,这里0≤p≤1

  如果X1,X2,...,Xn是相互独立,且服从贝努利分布,那么是一个取值为0,1,2,…,n的离散的随机变量。

  6、随机变量的数字特征(随机变量的矩)

  (1)数学期望。一般地,如果X是一个离散的随机变量,它的分布为

  P(X=xi)=pi,i=1,2,…n…,它的期望值为

  即是X的期望值是它的所有可能的取值的加权平均,其权数是它取该值的概率。

  (3)方差(二阶中心距)与标准差。

  如果r=2,E[(X-μ)2]被称为X的分布的方差或 x的方差。常常记它为σ2或var(X)。

  σ2的正平方根σ被称为x的标准差,反映了随机变量波动程度的量(衡量风险的大小)。关于方差,常用公式:

  (4)偏度与峰度。

  1)偏度。使用3阶中心矩度量X关于其均值的对称性衡量分布是否有偏(用来描述随机变量的对称程度)

  如果X的概率密度函数关于期望值是对称的,比如正态分布,μ3=E[X—E(X)]3=0是无偏的 ,对于u3>0,说明分布是正偏或者右偏,反之为负偏或者左偏。

  偏度系数:

  负的偏度系数,揭示了分布有很长的左尾(概率),反映了出现大负值的概率高。如果组合资产的收益率分布是负(左)偏的,则出现巨额损失的概率增加。

  2)峰度

  常使用4阶中心矩用于度量X的尾部特性,也衡量分布在均值附近的陡峭程度,如果x取值在概率上集中在均值附近,则u4 将倾向于小,否则就倾向于大。

  峰度系数为β2=u4/u22

  超额峰度 =β2-3

  正态分布的峰度=3

  正态随机变量的超额峰度=0。

  厚尾:分布有正的超额峰度(峰度>3),意味着来自于这样一个分布的随机样本会有更多的极端值,故称这样的分布为尖峰的。

  轻尾:具有负的超额峰度的分布(峰度<3),也称为低峰的。

  (5)契比雪夫定理(不等式)。

  随机变量和它的均值的差的绝对值超过它的标准差K倍的概率小于1/K2

  该定理给出了任一随机变量取值的界限。在判断程序化投机(趋势)交易或者价差(套利)交易中触发条件的发生概率较为有效。

  例题:下列关于正态分布的结论哪个是不正确的?

  A.峰度为3.

  B.偏度为1.

  C.整个分布特性可由均值和方差描述。

  D.正态分布的密度函数表示如下:

  答案:B

  二、多元分布函数及其数字特征

  (用于分析组合资产的收益率)

  1、 多元分布函数

  联合累计分布函数:

  X和Y是相互独立的,当且仅当:f(x,y)=g(x)h(y)

  2、多元分布函数的数字特征

  (1)协方差。(X,Y的二阶混合中心距)

  σXY,或COV(X,Y)

  σXY=E[(X-EX)(Y-EY)]=E[XY]-E[X]E[Y]

  是XY之间相关性的一个测度。如果X和Y是相互独立的,那么cov(X,Y)=0。

  (2)相关关系。

  PXY的取值一定在-1和1之间。如果X和Y是相互独立的,那么PXY=0。相关系数是在计量经济学中使用回归分析技术时必须使用的工具。

  (3)协方差矩阵。

  描述多元随机变量。一个随机向量的期望值等于它的各个分量的期望值组成的向量。

  随机向量X的协方差矩阵如下:

  例题:给定随机变量X、Y,常数a、b、c、d,下列哪个结论是错误的。

  A.若x和Y是相关的,则E(ax+by+c)=aE(x)+bE(y)+c

  B.若x和Y是相关的,则Var(ax+by+c)=Var(ax+by)+c

  C.若x和Y是相关的,则Cov(ax+by,cx+dy)=acVar(X)+bdVar(Y)+(ad+bc)Cov(x,Y)

  D.若x和Y是不相关的,则Var(x-y)=Var(x+y)

  =Var(x)+Var(y)

  答案:B Var(ax+by+c)=Var(ax十by)= 2a Var(x)+ 2b VAR(y)+ 2ab Cov(x,y)。

  解析:

  Var(x+y)=Var(x)+Var(y)+2Cov(x,y)

  Var(x-y)=Var(x)+Var(y)-2Cov(x,y)

  x和Y是不相关的,Cov(x,y)=0,所以两者相等。

  三、随机变量的函数

  1、随机变量的线性组合。

  对于以人民币计价的投资组合中现金为1 000万元,组合中美元资产为1 000万美元,美元汇率为X,其均值为0.01,标准差为0.001,这个组合可以被表示为Y=a+bX,其期望、方差和标准差分别为:

  E(a+bX)=a+bE(X),

  var(a+bX)=b2var(X),

  y的均值:E(Y)=E(1+1 000X)

  =1+1 000×0.01=11

  y的标准差=1 000×0.001=1

  随机变量线性组合的方差:

  2、随机变量的加权和

  如果a'=(a1, a2,..., an)是常数向量,那么有:

  如果a是资产组合的权重,μ是资产组合收益率,σ是资产组合波动率,上述结果就是资产组合收益率的期望和方差的计算公式,可用于计算组合风险价值。

  3、随机变量的积

  随机变量乘积Y=X1Y2,其期望为:

  E(X1X2)=E(X1)E(X2)+Cov(X1,X2)

  当这些变量相互独立时,乘积期望就是均值的积。

  4、随机变量变换(函数)的分布。

  假设X是一个连续随机变量,概率密度函数为f(x),g(x)是一个单调函数,那么Y=g(X)是一个新的随机变量。我们把x表述成y的函数为X=W(y),那么y的概率密度函数 h(y)为:

  四、对数正态分布等统计分布的特征和计算

  (用于进行高频金融数据的分析)

  1、对数正态分布与三大统计分布

  (1)对数正态分布。 (期权定价模型)

  如果一个随机变量x的对数形式Y=ln(X)是正态分布,则可以称这一变量服从对数正态分布。

  如果资产的对数收益率是独立同分布,且都正态分布,那么在此假定下,简单收益率是独立同分布的对数正态分布的随机变量,均值和方差分别为:

  反之,假设简单收益率Rt服从对数正态分布,均值为m1,方差为m2,则对应的对数收益率rt的均值和方差分别为:

  (2)卡方(χ2)分布。

  一个标准正态随机变量的平方服从自由度为1的χ2分布。即如果Z~N(0,1),那么Z2~ χ2(1)。如果Z1,Z2,…,Zn是相互独立的标准正态分布,那么

  F的概率密度函数可通过变量替换方法得到,它是非负的,且偏向右边凸起。

  例题:有着相同均值和标准差的正态分布和t分布,下列哪个结论正确?

  A.它们有着相同的峰度

  B.t分布有着更大的峰度

  C.随着自由度增加,t分布的峰度逐渐收敛到正态分布峰度

  D.当自由度相对较小的时候,对t分布而言,正态分布是一个较好的近似估计

  答案:C

  2、尾概率分布特点

  极值理论(EVT)——x超过某个阀值点U的极限分布服从以下分布族:

  F(y)=1-exp(-y),ξ=0

  当y=(x-u)/β时。简单而言就是通过刻度(Scale)参数β和形状(Shape)参数ξ确定,其中参数ξ决定了尾概率中尾巴趋于零(消失)的速度。

  正态分布对应于ξ=0,则尾巴概率以指数速度消失(趋于0)。但是,经典的金融数据,基本都有ξ>0,这就是著名的厚尾(肥尾或者重尾)现象。

  极值理论在风险管理(即VaR,Value at Risk 风险价值)中具有非常重要的影响。

  第二部分 统计基础

  统计推断问题:由总体抽取一个样本(样本大小为n)来推知总体的某一性质。

  a、可信度:有多大把握说明统计推断结论

  b、精度:在区间估计中可信度依赖区间的长度

  影响统计推断的基本因素包括:样本大小、总体的波动规律(分布)、我们希望的可靠程度(置信水平)。

  五、总体、样本和统计量的含义

  1.总体与样本

  总体(母体):研究对象的全体,称为 X

  个体:组成总体的每个成员

  总体分布函数:X的分布函数

  数理统计方法实质上是由局部来推断整体的方法,即通过一些个体的特征来推断总体的特征。

  2.统计量。

  (1)样本均值:

  用来估计总体的均值:μ

  (2)样本方差:

  用于估计总体方差 :σ2

  六、统计推断参数估计

  1、点估计

  使用样本数据以及一些非样本的先验信息为未知参数提供一个估计值。

  设(X1,X2,…,Xn。)是来自总体x的样本, θ是总体的未知参数,若用一个统计量

  点估计方法:矩估计和最大似然估计

  (1) 矩估计法。用样本的各阶原点矩去估计对应的各阶总体的原点矩。

  (2)最大似然估计

  最大似然估计的基本思想是:当从模型总体中随机抽取凡组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。

  (3)求置信区间的一般步骤:

  1)先求出θ的一个点估计(通常为最大似然估计)

  七、统计推断的假设检验

  1、假设检验问题与假设检验的处理思路。

  (1)假设检验问题提出。

  程序化交易的某个交易策略,选择过去连续100天模拟交易结果,按天统计胜率为56%,需要判断如下假设:胜率大于50%。如果不考虑盈亏比例,是否需要采用该策略进行真实交易?这就是一个假设检验的问题。

  基于样本判定一个关于总体分布的理论假设是否成立就是假设检验。其基本思想是当观察到的数据差异达到一定程度时,就会反映与总体理论假设的真实差异,从而拒绝理论假设。

  如果提出一种想法(Hypotheses),我们希望检验这种想法是否正确。这种想法或假设称为“原假设”(也称为零假设),记为H0(零表示所提想法没有改变或没有差别)。

  一般零假设是经过长期检验被认为是正确的,在现在的新情况希望检验它是否仍然正确,所以H0不应轻易被否定。

  (2)假设检验基本思路。

  检验统计量是统计检验的重要工具,其功能在用之于构造观察数据与期望数之间的差异程度。

  否定论证是假设检验的重要推理方法,其要旨在:先假定原假设成立,如果导致观察数据的表现与此假定矛盾,则否定原假设。通常使用的一个准则是小概率事件的实际推断原理。

  2、两类错误概率。

  第一类错误(概率)即原假设成立,而错误地加以拒绝(的弃真概率);

  第二类错误(概率)即原假设不成立,而错误地接受它(的取伪概率)。

  在使用模型的决策会产生两类错误,第一类错误是拒绝一个正确的模型,第二类错误是接受一个错误的模型。

  3、显著水平。

  理想的检验规则是使得弃真概率(a)和取伪概率(β)都很小,但是,如果样本容量给定,犯两类错误的概率不可能同时小,通常一个减小,另一个就会增加,只有增加样本容量,才能使他们同时减小。

  奈曼-皮尔森 (Neyman—Pearson)原则:在控制弃真概率(a)的条件下,使得取伪概率(β)尽量小,有时把原则简化为控制第一类错误的概率a。

  在收集数据之前假定一个准则,在原假设成立条件下,样本落入拒绝域的概率不超过事先设定的 ,则称该拒绝域所代表的检验为显著水平α的检验,而α称为显著水平。

  所谓显著水平检验就是控制第一类错误概率的检验。

  4、假设检验的数学概念。

  假设检验需要显著性水平(定义的小概率),依据这个小概率,确定否定H0的空间——拒绝域,利用样本计算的统计量落在了拒绝域,就说明小概率事件发生了,这时对于H0的否决就是显著的。

  5、假设检验的基本步骤

  (1)根据实际问题的要求,提出原假设H0,及备择假设H1;

  (2)给定显著性水平α以及样本容量n;

  (3)确定检验统计量以及拒绝域的形式;

  (4)按P值{当H0为真拒绝H0}≤α求出拒绝域;

  (5)取样,根据样本观察值作出决策,是接受H0,还是拒绝H0。

  例题:假设检验在5%显著性水平意味着(  )。

  A.P(接受H0丨H0为真)=0.05%

  B.P(接受H0丨H0为假)=0.05%

  C.P(拒绝H0丨H0为真)=0.05%

  D.P(拒绝H0丨H0为假)=0.05%

  答案:C

  例题:下面哪个关于假设检验的论述是不正确的?

  A.第二类错误指在原假设错误时,未能拒绝原假设的错误

  B.假设检验是依据来自某总体的样本计算的统计量,推断总体参数

  C.在其他条件相同的时候,降低犯第一类错误的代价是增加犯第二类错误的概率

  D.对于P值决策规则,就是说如果p值大于显著性水平,则拒绝原假设

  答案:D

  解析:当所观察到的p值低于(不高于)显著性水平时,我们可以拒绝原假设。

  第三部分 回归分析

  在经济和金融分析中,经常要对变量之间的相互关系进行分析,回归分析是分析变量之间关系的一种重要分析方法。

  只有一个解释变量的线性回归分析称一元线性回归分析,含有多个解释变量的线性回归分析称多元线性回归分析。

  回归分析作为有效方法应用在经济或者金融数据分析中,具体遵循以下步骤:

  第一步,模型设定;

  第二步,参数估计;

  第三步,模型检验;

  第四步,模型应用。

  八、一元回归模型的含义和特征

  1、相关关系分析

  变量和变量之间通常存在两种关系:确定性函数关系和相关关系。

  确定性函数关系表示变量之间存在一一对应的确定关系;

  相关关系表示一个变量的取值不能由另外一个变量唯一确定,即当变量X取某一个值时,变量Y对应的不是一个确定的值,而是对应着某一种分布,各个观测点对应在一条直线上。

  分析两个变量之间的相关关系,通常通过观察变量之间的散点图和求解相关系数的大小来度量变量之间线性关系的相关程度。

  补充知识:通过散点图看相关关系

  线性相关:变量之间的关系近似地表现为一条直线

  非线性相关或者曲线相关:变量之问的关系近似地表现为一条曲线

  完全相关:如果一个变量的取值完全依赖于另一个变量,各个观测点落在一条直线上

  无相关关系:两个变量的观测点很分散,无任何规律。

  相关系数的计算公式:

  相关系数r的取值范围为:-1≤r≤1。

  当 l r l 越接近于1时,表示两者之间的相关关系越强;

  当 l r l 越接近于0时,表示两者之间的相关关系越弱。

  当r>0时,表示两者之间存在正向的相关关系;

  当r<0时,表示两者之间存在负向的相关关系;

  当r=0时,并不表示两者之间没有关系,而是两者之间不存在线性关系。

  2、 一元线性回归模型的基本假定

  yi称为因变量或被解释变量,xi称为自变量或解释变量;ui是一个随机变量,称为随机(扰动)项;a和β是两个常数,称为回归参数;下标i表示变量的第i个观察值或与随机项。

  4、一元线性回归模型的检验

  (一)拟合优度

  反映回归直线与样本观察值拟合程度的量,这个量就是拟合优度,又称样本“可决系数”,常用R2表示。

  TSS为总离差平方和,ESS为回归平方和,RSS为残差平方和。显然,在总离差平方和一定时,回归平方和越大,拟合优度越大,映了线性回归效果越好,说明了回归直线和样本观察值拟合程度越好。

  反之,则越差。R2的取值范围为:0≤R2≤1,R2越接近1,拟合效果越好;R2越接近0。拟合效果越差。

  5、、一元线性回归分析的预测

  在预测期内自变量已知时,预测因变量的值,我们称之为无条件预测,如果在预测期内自变量未知,这时的因变量预测值就是有条件预测。

  (一)点预测

  设回归模型为:yi=α+βxi+μi(i=1,2,3,…,n)。

  假定抽样期之外的某预测期f的自变量xf已知,上述模型适用于该预测期,这时因变 yf= α+βxf+μf ,并且随机项满足基本假定。则 yf 的预测值存在两个,一个是期望值,另一个就是yf 的点预测值。

  2.y个别值的区间预测

  一元线性回归时y的真实值yf的置信度为1-α的置信区间为:

  6、案例分析

  (一)分析目的

  以2015年2月2日至2015年3月16日美元指数为解释变量(x),同期的黄金现货价格(y,美元)为被解释变量,样本容量为31,试对其建立简单的一元线性回归模型。

  (二)模型的设定

  1.画散点图

  首先将美元指数(x)和黄金现货价格(Y)导入到SPSS 20.0里,然后点击SPSS菜单栏中的“图形一旧对话框一散点/点状”,在弹出散点图”对话框中,选择“简单分布”,再点击“定义”按钮,在弹出的“简单散点图”对话框中,将变量Y导入到“Y轴框”中,变量x导入到“x轴框”中,最后点击“确定”按钮,弹出图4—1所示的散点图。

  从 散点图可以看出,被解释变量Y和解释变量x具有较为明显的负向相关关系。进一步,求出两者之间的相关系数。

  2.求相关系数

  单击菜单栏中的“分析一相关一双变量”,在弹出的“双变量相关”对话框中,将变量x、Y导人到“变量框”中,相关系数选用默认的“Pearson相关系数”,最后点击“确定”按钮,弹出表4-1所示的结果。

  从表4-1的输出结果可以看出,被解释变量Y和解释变量x之间的Pearson相关系数约为-0.843,且在1%的显著性水平下拒绝相关系数为零的原假设,表明两者的线性关系程度高。可以对其建立一元线性回归分析。

  将被解释变量Y和解释变量x建立如下的一元线性回归模型:

  其中,Yt和Xt分别表示被解释变量和解释变量,α、β表示待估计的参数。μt为随机扰动项,反映了除解释变量Xt和被解释变量Yt之间的线性关系之外的随机因素对被解释变量Yt的影响,是不能由xt和Yt之间的线性关系所解释的变异部分。

  3.参数估计

  点击“分析一回归一线性”,在弹出的“线性回归”对话框中,将x导入到“自变量”框中,将变量Y导入到“因变量”框中,最后点击 “确定”按钮,得到如下表4-2~表4-4所示的输出结果。

  根据上述输出结果,得出如下参数估计:

  4.模型的检验

  (1)拟合优度检验。

  由表4-2可以看出,可决系数R2约等于0.711,说明所建立的一元线性回归模型整体上对样本数据拟合效果较好,解释变量“美元指数”解释了被解释变量“黄金现货价格”变动的71.1%。

  (2)回归模型的预测。

  当2015年3月17日美元指数为99.66,根据上述模型估计结果,预测2015年3月17日黄金现货价格为多少美元?(把99.66带入前面得到的回归方程中即可。)

  九、多元线性回归模型的含义和特征

  1、多元线性回归模型的含义

  多元线性回归主要用于分析影响因变量的因素中,不仅涉及一个自变量,可能涉及多个自变量。

  例如,我们在分析一家公众公司价值时,需要研究其多个财务指标,比如负债比例,资产回报率等指标序列(每个月指标),这些指标构成公司价值(序列)的核心影响因素,我们定义公司价值(序列)为因变量时,这些财务指标(序列)就是自变量。

  多元线性回归模型分析一个因变量和几个自变量之间的关系。形式如下:

  yi=β0+ β1x1i+ β2x2i+…+ βkxki+ui

  其中,i=1,2,…,n;yi是x1i,x2i,…,xki 的线性部分加上随机扰动项 ui; β0, β1, β2,…, βk 是参数;随机扰动项 ui 指的是包含在Yi中但不能被k个自变量的线性关系所解释的变异性。

  3、多元线性回归模型的参数估计

  关于多元线性回归模型的参数估计,我们也是利用样本数据估计未知参数,从而获得回归模型去推断总体。

  同一元回归分析模型的原理一样,按照最小二乘准则,采用使残差平方和最小的原则去确定样本回归函数。

  4、多元线性回归模型的检验

  (一)拟合优度

  对于多元线性回归模型的拟合优度检验常采用多重可决系数,记为R2。它表示总离差平方和中线性回归解释的部分所占的比例,即

  显然,R2越接近于1,线性回归模型的解释力越强。

  当利用R2来度量不同多元线性回归模型的拟合优度时,存在一个严重的缺点,R2的值随着解释变量的增多而增大,即便引入一个无关紧要的解释变量,也会使得R2变大。

  (二)F检验

  多元线性回归模型的F检验,又称为回归方程的显著性检验或回归模型的整体性检验,反映的是多元线性回归模型中被解释变量与所有解释变量之间线性关系在总体上是否显著。

  第一步,提出假设。设原假设H0:β1= β2=…= βk=0,备择假设H1:βj(j=1,2,…,k)不全为零。

  第二步,构造F统计量。

  即F统计量服从分子自由度为k,分母自由度为n-k-1的F分布。

  第三步,给定的著水平α,查分子自由度为k,分母自由度为n-k-1的F分布表,得临界值Fa(k,n-k-1)。

  第四步,根据决策准则,如果F>Fa( k,n-k-1),则拒绝H0:β1= β2=…=βk=0的原假设,接受备择假设H1:βj(j=1,2,…,k)不全为零,表明回归方程线性关系显著;若F

  (三)t检验

  与一元线性回归分析中的t检验相同,t检验有如下4个步骤:

  第一步,提出假设。设原假设H0:βj=0(j=1,2,…,k),备择假设H1:βj≠0(j=1,2,…,k)。

  第二步,构造t统计量。

  即服从自由度为n-k-1的t分布。

  第三步,给定显著水平a,查自由度为n-k-1的t分布表,得临界值tα/2(n-k-1)。

  第四步,根据决策准则,如果|t|>ta/2(n-k-1),则拒绝H0:βj=0(j=1,2,…,k)的原假设,接受备择假设H1:βj≠0(j=1,2,…,k),表明在其他解释变量不变的情况下,解释变量xj对被解释变量y的影响显著;若|t|< ta/2(n-k-1),则不能拒绝

  H0:βj=0(j=1,2,…,k)的原假设,表明在其他解释变量不变的情况下,解释变量xj对被解释变量y的影响不显著。

  5、案例分析

  (一)分析目的

  为分析纽约原油价格(WTI)、黄金ETF持仓(吨)和美国标准普尔500指数,对黄金价格的影响,收集了2004年11月21日至2013年11月24日每周末的周度数据,样本容量为471,试对其进行多元线性回归分析。

  (二)模型设定

  取黄金期货价格为因变量,纽约原油价格(美元/桶)、黄金ETF持有量(吨)、美国标准普尔500指数为自变量。

  首先对变量取对数,建立多元线性回归模型为:

  其中,变量依次分别为黄金期货价格(GOLD)(美元/盎司)、纽约原油价格(WTT)、黄金ETF持有量(吨)和美国标准普尔500指数各自取对数;β0、β1、β2和β3为待估计的参数;µt为随机扰动项,包含在因变量中但不能被3个自变量的线性关系所解释的变异性。

  (三)模型的估计

  同一元线性回归分析中的SPSS操作步骤一样,首先将变量“Ln_GOLD、Ln_WTI、Ln_ETF、Ln_SP500”数据导入到SPSS中,采用普通最小二乘法,最终得到如下输出结果(见表4-5~表4-7)

  2.F检验

  针对H0:β1=β2=β3=0,根据表4-6中的F值所对应的Sig.值等于0.000<0.05,表明在5%的显著性水平下拒绝原假设。

  说明回归方程线性关系显著,表明“纽约原油价格”、“黄金ETF持有量”和“美国标准普尔500指数”联合起来对“黄金期货价格”产生显著的影响。

  3.t检验

  分别针对H0:βj=0(j=1,2,3),给定显著性水平α=0.05,从表4-7中可以看出βj样本的t统计量值所对应的Sig.值均为0.000<0.05,表明在5%的显著性水平下拒绝原假设,各回归系数均通过显著性检验,

  也就是说,当其他解释变量保持不变的情况下,解释变量“纽约原油价格”、“黄金ETF持有量”和“美国标准普尔500指数’,分别对被解释变量“黄金期货价格”均有显著的影响。

  (五)模型的应用

  1.回归系数的含义

  从模型估计结果可以得出,在假定其他条件保持不变的情况下,当纽约原油价格每提高1%时,黄金价格平均提高0.193%;当黄金ETF持有量每增加1%时,黄金价格平均提高0.555%;当美国标准普尔500指数每提高1%时,黄金价格平均提高0.329%。

  2.模型的预测

  利用以上回归模型对黄金价格做出预测。

  对于各自变量给出预测假设:原油价格为50美元桶,黄金ETF持有量为700吨,美国标准普尔500指数为1 800点,将其代入模型,得到纽约黄金价格的预测值约为990.832美元/盎司。

  十、非线性模型线性化的原理

  变量y与x之间可能不存在线性关系,有一部分可以通过变量的替换,转化为线性的回归模型处理。

  线性关系只是要求参数和随机扰动项是线性的,而并不要求变量之间是线性关系。

  例如:y=α+β / X+ε ,只要将z=1/x代入变换即可线性化。

  十一、回归模型常见问题和处理方法

  在经济和金融实务中,常常出现数据不能满足线性模型的系列假定,比如随机扰动项不能满足同方差的假定,或产生自相关现象等。为此,需要对模型遇到的该类问题做技术处理。

  1、多重共线性

  (1)多重共线性概念与产生原因

  在经典多元线性回归模型

  yi=β0+ β1x1i+ β2x2i+… βkxki+ui

  或用矩阵表示:Y= βX+U 中,其基本假设之一是解释变量之间不存在线性关系。

  如果解释变量之间存在严格或者近似的线性关系,这就产生了多重共线性问题。

  产生多重共线性的原因复杂,一般常见原因有:

  (1)经济变量之间有相同或者相反的变化趋势;

  (2)模型中包含有滞后变量;

  (3)从总体中取样受到限制等。

  (2)多重共线性后果

  1)多重共线性使得参数估计值不稳定,并对于样本非常敏感;

  2)使得参数估计值的方差增大;

  3)由于参数估计值的方差增大,会导致参数估计置信区间增大,从而降低预测精度;

  4)严重的多重共线性发生时,模型的检验容易做出错误的判断。例如,参数估计方差增大,导致对于参数进行显著性t检验时,会增大不拒绝原假设的可能性。

  (3)多重共线性检验

  1)简单相关系数检验法。

  通过求出解释变量之间的简单相关系数r作出判断,通常情况下,若l r l接近1,则可以认为多重共线性的程度越高。

  2)综合统计检验法。

  采用最小二乘原理进行参数估计时,当出现可决系数R2较大,模型参数的联合检验(F检验)显著性明显,但单个参数的t检验可能不显著,甚至可能得出估计的回归系数与实际的符号相反的结论时,可以认为模型存在多重共线性问题。

  (4)消除多重共线性影响的方法

  1)逐步回归法。

  以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化以及结合F检验和t检验的显著性决定是否保留新引入的变量。

  如果新引入了变量后使得F检验和t检验均显著,并且增加了拟合优度,则说明新引入的变量是一个独立解释变量,可考虑在模型中保留该变量;

  如果新引入的变量未能明显改进拟合优度值,或者F检验和t检验出现了不显著现象,则说明新引入的变量与其他变量之间存在共线性。

  使用逐步回归法找出引起多重共线性的解释变量,将其剔除。最后保留在模型中的解释变量对被解释变量具有较好的解释作用。

  需要注意的是,逐步回归法有可能会剔除掉重要的解释变量从而导致模型产生设定偏误。

  2)变换模型的形式。

  通过将原模型作适当的变换,可能会消除或减弱原模型中的解释变量之间的相关性,例如,可以将原模型:yi=β0+ β1x1i+ β2x2i+… +βkxki+ui

  变化为差分模型:

  △yi=β1△x1i+ β2△x2i+…+βk△xki+△ui

  这样可以有效地消除原模型中存在的多重共线性。

  3)增加样本容量。

  多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。

  增加样本容量,可使参数估计量的方差和标准误差减少,因此,尽可能增加样本容量,使样本容量远大于解释变量的个数,从而改进模型参数的估计。

  4)岭回归法。

  岭回归(ridge regression)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。

  散点图中显示了不同类型的异方差与同方差之间的差异。

  (2)异方差产生的原因

  (1)模型的设定问题。在模型的设定过程中,省略了重要解释变量,或者由于变量之间本为非线性关系而设定为线性关系从而导致异方差的产生。

  (2)测量误差。由于观测解释变量和被解释变量出现了偏误而产生了异方差。

  (3)横截面数据中各单位的差异。由于同一时点不同对象的差异通常会大于同一对象不同时间上的差异,因此横截面数据比时间序列数据更容易产生异方差。

  (3)异方差的后果

  计量经济学模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:(1)OLS估计量仍然具有无偏性,但OLS估计的方差不再是最小的。

  (2)显著性检验失去意义。

  (3)模型的预测失效。当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对被解释变量Y的预测误差变大,降低预测精度,预测功能失效。

  (4)异方差的检验方法

  1)图示判断法。

  异方差的检验方法很多,可以通过散点图做出直观判断,还可以利用X-e2残差图判断异方差性,看是否形成一斜率零的直线,作为判断基础。

  2)统计检验方法。

  检验异方差的方法很多,常用的方法有帕克(Park)检验与戈里瑟(Gleiser)检验、戈德菲尔德-匡特(Goldfeld-Quandt)检验(G-Q检验)、怀特(White)检验、ARCH检验等。

  (2)异方差问题的处理

  当模型检验出存在异方差性时,常用加权最小二乘法(WLS)进行估计。

  其基本思想为:加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用OLS估计其参数,现在常用的统计或者数学计算软件均支持该算法。

  除此之外,还可以对模型进行对数变换,即将解释变量和被解释变量分别取对数后,再做OLS估计,这样通常可以降低异方差性的影响。

  3、序列相关性问题

  (1)序列相关概念及后果

  对于回归模型Y=XB+U,基本假设之一是随机误差项互不相关,如果对于不同的样本点,随机误差项之间存在某种相关性,则出现序列相关性。其他条件不变时,序列相关性表示

  Cov(μi,uj)≠(i,j)。常见的自相关为一阶自相关,其表示形式为:ui=pui-1+vi,

  其中,ρ为自相关系数,通常-1

  若模型出现序列相关性,仍采用OLS估计模型参数,则会产生下列不良后果:

  (1)参数估计量的线性和无偏性虽不受影响,但是参数估计量失去有效性;

  (2)模型的显著性检验失去意义;

  (3)模型的预测失效。

  (2)序列相关的检验

  序列相关性检验方法有多种,但基本思路相同:首先采用OLS对模型做估计,获得随机误差项的估计量。再通过分析这些估计量之间的相关性,以判断随机误差项是否具有序列相关性。

  常用的序列相关性检验的方法有:图示检验法、回归检验法、杜宾 一瓦森(Durbin—Watson)检验法、拉格朗日乘数(Lagrange Muhiplier)检验等,

  图示法简单,回归检验法可以满足任何类型序列相关性检验,拉格朗日乘数检验适用于高阶序列相关以及模型中存在滞后被解释变量的情形。但是较多使用的是杜宾一瓦森检验(DW检验)。

  2)DW检验。

  该检验假设条件为解释变量x为非随机变量,随机扰动项满足下述一阶自回归形式:

  µi=ρµi-1+vi,并且回归模型中不应含有滞后因变量作为解释变量,且回归模型含有不为零的截距项。

  DW检验具体步骤如下:

  第一步,计算DW值;

  第二步,给定显著性水平α,由样本容量n和解释变量的个数k(不包含常数项)的值查DW分布表,得临界值下限dL和上限dU;

  第三步,判断是否存在自相关性。当DW值在2附近时,模型不存在阶自相关。当DW为其他数值时,需要查表比较。

  (3)消除自相关影响方法

  若模型经检验证明存在序列相关性,则常采用广义差分法、一阶差分法、科克伦一奥克特迭代法和德宾两步法等方法估计模型。

  第四部分 时间序列分析

  十二、时间序列的基本概念

  1、随机过程

  随机变量按照时间的先后顺序排列的集合叫随机过程。

  设Y为一个随机变量,若Y为连续型的随机变量,记为Y(t);若是离散型的随机变量,记为Yt。

  若一个随机过程的均值和方差不随时间的改变而改变,且在任何两期之间的协方差值仅依赖于两期的距离或滞后的长度,而不依赖于时间,这样的随机过程称为平稳性随机过程。反之,称为非平稳随机过程。

  3、平稳和非平稳时间序列

  时间序列的统计特征不会随着时间的变化而变化,即反映统计特征的均值、方差和协方差等均不随时间的改变而改变,称为平稳时间序列;反之,称为非平稳时间序列。

  4、单整

  如果非平稳序列{yt},通过d次差分成为一个平稳序列,而这个序列的d-1次差分序列是不平稳的,那么称序列{yt}为d阶单整序列,记为yt~I(d)。

  例如,当d=1时,yt~I(1)表示经过一次差分就可变成平稳序列。

  特别地,如果序列{yt}本身是平稳的,则称为零阶单整序列,记为yt~I(0)。

  5、非平稳序列转化为平稳序列

  (1)差分平稳过程。

  若一个时间序列满足1阶单整,即原序列非平稳,通过1阶差分即可变为平稳列;

  (2)趋势平稳过程。

  有些时间序列在其趋势线上是平稳的,因此,将该时间序列对时间做回归,回归后的残差项将是平稳的。

  十三、平稳时间序列

  1、移动平均(MA)过程

  (1)MA(q)的基本概念

  2、自回归(AR)过程

  (1)AR(P)的基本概念。

  P阶自回归过程可表示为:

  yt=C+ø1yt-1+ø2yt-2...+øpyt-p+εt

  我们把它记为AR(p)。

  3、ARMA模型。

  实际上AR模型和MA模型都是自回归移动平均过程的特例。阶数为(p,q)的自回归移动平均过程可表示为:

  利用滞后算子可以很容易证明ARMA(p,q)过程是平稳 的。ARMA模型的估计需要使用非线性估计方法,实务中常使用数学软件进行估计。

  十四、非平稳时间序列

  1、ARIMA模型

  作差分是把非平稳过程转换成平稳过程常用的方法。

  如果上述模型中xt是一个ARMA(P,q)过程,那么我们称上述模型的Yt是一个自回归融合移动平均过程

  (Autoregressive—Integrated Moving-Average process),记为ARIMA(p,1,q)。如果xt是Yt经过d阶差分后的一个ARMA(p,q)过程,那么yt是一个ARIMA(p,d,q)。

  2、非平稳序列的单位根检验

  检验时间序列的平稳性方法通常采用单位根检验,常用的单位根检验方法有DF检验(Dickey—Fuller Test)和ADF检验(Augment Dickey—Fuller Test)。

  DF检验的原假设为:H0:Ƴ=1,若拒绝原假设,则所检验序列不存在单位根,为平稳性时间序列;若不拒绝原假设,则所检验序列存在单位根,为非平稳时间序列。

  (2)ADF检验

  DF检验存在一个问题:当序列存在1阶滞后相关时才有效,但大多数时间序列存在高级滞后相关,直接使用DF检验法会出现偏误。

  在这种情况下,人们将原DF检验方法进行了拓展,拓展为增广的DF检验(Augmented Dickey—Fuller Test),简称为ADF检验,该方法可以用来检验含有高阶序列相关的序列是否平稳性问题。

  ADF检验的三种模型形式:

  其检验的原假设仍为H0:λ=0,即当拒绝原假设,表明序列不存在单位根,为平稳性时间序列;不拒绝原假设,表明序列存在单位根,为非平稳性时间序列。

  十五、协整分析和误差修正模型

  1、协整

  协整指的是多个非平稳性时间序列的某种线性组合是平稳的。

  某些时间序列是非平稳时间序列,但他们之间却往往存在长期的均衡关系,具体来讲,对于两个时间序列均{xt}和{yt}为一阶单整序列,即xt~I(1),yt~I(1),若存在一组非零常数 a0和a1,使得a1x1+a2y2~I(0)则称xt和Yt之间存在协整关系。

  2、误差修正模型

  传统的经济模型通常表述的是变量之间的一种“长期均衡”关系,而实际经济数据却是由“非均衡过程”生成的。

  因此,建模时需要用数据的动态非均衡过程来逼近经济理论的长期均衡过程,于是产生了误差修正模型(Error Correction Model)。

  误差修正模型基本思想是,若变量问存在协整关系,则表明这些变量问存在着长期均衡关系,而这种长期均衡关系是在短期波动过程中的不断调整下得以实现的。

  由于大多数金融时间序列的一阶差分是平稳序列,受长期均衡关系的支配,这些变量的某些线性组合也可能是平稳的。

  即所研究变量中的各长期分量相互抵消,产生了一个平稳的时间序列,这是由于一种调节机制——所谓的误差修正机制在起作用,它防止了长期均衡关系出现较大的偏差。因此,任何一组相互协整的时间序列变量都存在误差修正机制,通过短期调节行为,达到变量间长期均衡关系的存在。

  4、案例分析

  (1)分析目的

  根据某地区1950~1990年的人均食物年支出和人均年生活费收入月度数据,判断该两组时间序列的平稳性,检验食物支出和生活费收入之间的Grange因果关系,从长期看,判断两者是否存在协整关系?从短期看,判断是否存在误差修正机制?

  (2)操作步骤

  第一步,首先,将人均食品支出和人均年生活费收入消除物价变动的影响,得到实际人均年食品支出(Y),和实际人均年生活费收入(X),再对Y和X分别取对数,记Y=lnY,x=lnX。

  第二步,分别将变量x,y序列导入到Eviews 中,打开“series:x(或Series:Y)”对话框,点击“View—Unit Root Test”,弹出Unit Root Test”对话框,在“Test Type”下面选择采用

  默认的“Augmented Dickey—Fuller”;通过观察x、Y的序列图得出两者均呈现明显的上升趋势,所以在“Include in Test Equation”下面选择

  Trend and Intercept”;在“Test for Unit Root in”下面选择“Level”:在“Lagged Difference”下面将数值改为“2”,再点击OK键,最后弹出单位根检验结果。

  单位根检验回归方程设定(水平变量)

  表4-10和表4-11可以看出,x和Y序列的ADF检验统计量值均大于在1%、5%和10%显著性水平下的临界值,表明x和Y序列均为非平稳性时间序列。

  第三步,再分别对x和Y序列作1阶差分得△x和△y序列,对其进行平稳性检验。

  从表4-12和表4-13可以看出,x和△y序列的单位根检验统计量值分别约为-3.5586和-2.7080,均大于1%显著性水平下的l临界值-3.6171,小于10%显著性水平下的临界值-2.6092,表明1阶差分后的x和Y序列在10%的显著性水平均为平稳性时间序列,即x和Y序列均为1阶单整序列。

  第四步 Granger因果关系检验

  第五步 将取对数后的人均食品支出(y)作为被解释变量,对数化后的人均年生活费收入(x)作为解释变量,用普通最小二乘乘法估计回归模型。

  估计模型为:

  yt=-0.0768+0.9121xt+et

  第六步,在Eviews 命令窗口中,输入“Genr et = resid”,将上述OLS回归得到的残差序列命名为新序列et,然后双击et序列,对et进行单位根检验,其检验输出结果见表4-19。

  残差序列et的ADF检验统计量值约为-4.0345,均小于1%、5%和10%显著性水平下的临界值,拒绝存在单位根检验的原假设,表明残差序列是一个平稳性时间序列,说明对数化后的实际人均年食品支出Y和实际人均年生活费收入x之间存在协整关系。

  第七步,用△y作为被解释变量,△x和ecmt-1(为et序列的滞后项)作为解释变量,做OLS线性回归。

  该误差修正模型的估计结果为:

  上式估计结果表明,城镇居民月人均食物支出的变化不仅取决于人均年生活费收入的变化,还取决于上一期食物支出对均衡水平的偏离。

  误差系数ecmt-1的估计值为-0.6582,体现了对偏离的修正,上一期偏离越远,本期修正的量就越大,即系统存在误差修正机制。

  第五部分 常用统计软件及应用

  十六、 常用统计软件

  1、SAS

  SAS是目前国际上最为流行的一种大型统计分析系统,被誉为统计分析的标准软件。

  尽管价格不菲,SAS已被广泛应用于政府行政管理、科研、教育、生产和金融等不同领域,并且发挥着愈来愈重要的作用。

  2、SPSS

  SPSS作为仅次于SAS的统计软件工具包,在社会科学领域有着广泛的应用。

  SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生于20世纪60年代末研制。

  由于SPSS容易操作,输出漂亮,功能齐全,价格合理,所以很快地应用于自然科学、技术科学、社会科学的各个领域。

  3、Excel

  它严格说来并不是统计软件,但作为数据表格软件,必然有一定的统计计算功能。凡是有Microsoft Office的计算机,基本上都装有Excel。但要注意,有时在装0ffice时没有装数据分析的功能,那就必须装了才行。

  4、Minitab

  Minitab提供对存储在二维工作表中的数据进行分析的多种功能,包括:基本统计分析、回归分析、方差分析、多元分析、非参数分析、时间序列分析、试验设计、质量控制、模拟、绘制高质量三维图形等。

  从功能来看,Minitab除各种统计模型外,还具有许多统计软件不具备的功能——矩阵运算。

  5、 Eviews

  Eviews是专门从事数据分析、回归分析和预测的工具。使用Eviews可以迅速地从数据中寻找出统计关系,并用得到的关系去预测数据的未来值。

  应用范围包括:科学实验数据分析与评估、金融分析、宏观经济预测、仿真、销售预测和成本分析等。


2022年中级经济师3天特训营免费领!!

经济专业中级资格考试报名条件有哪些

职上网辅课程 更多>>
课程套餐 课程内容 价格 白条免息分期 购买
2021年证券从业考试-签约旗舰托管班 录播+直播+考前预测卷+模考卷+讲义+协议 ¥2580 首付258元 视听+购买
2021年证券从业考试-签约旗舰直达班 录播+直播+考前预测卷+模考卷+讲义+重读 ¥1980 首付198元 视听+购买
2021年证券从业考试-进阶直达班 录播+直播+模考卷+重读 ¥1680 首付168元 视听+购买
版权及免责声明
职上网辅导班
免费试听
  • 李雅
    金融培训专家

    金融学硕士,从事金融教学多年,专注“金融类资格考试”等培训,讲课条理分明,善于总结小口诀。
    免费试听
  • 胡芳
    金融培训专家

    吉林大学金融学博士,国家理财规划师、风险管理师长期致力于金融行业考试研究和培训工作,具有多年大学执教经验。
    免费试听
  • 刘畅
    金融培训专家

    高级经济师、金融风控高级主管,多次在《财经界》等国家级刊物发表文章,长期从事金融考试培训,授课清新明快。
    免费试听