首页 > 协同快讯 > 用Stata能做什么——王振楠同学冬季短学期学习成果展示

用Stata能做什么——王振楠同学冬季短学期学习成果展示

盛宝金融科技商学院 2024/2/8 19:11:05

在1月2日到1月4日,学院开展冬季短学期授课,外教Kate老师在这三天带领着我们初步学习了Stata软件,认识并了解了Stata的基础知识,同时以我国GDP和利率数据为例,详细讲解了数据描述及回归方程。


首先我们将数据导入Stata,而原始数据表达时间序列的变量均为字符串类型,为了之后代码运行方便,我们将其中一列转为long类型,代码如下:

f18be2d1b2d0636840078d976de3a79f.png

图 1更改类型

输入完成后在右侧变量窗口可以看见一列新的数据。

3cc7a753583fa2aea68e242a58fdbefa.png

图 2更改类型结果

数据编辑器中也会出现一列新的蓝色数据。

a6893795152412bde8ed9ce123b5cf0c.png

图 3更改类型结果2

将数据初步处理完成之后,我们要简单分析一下数据的结构和趋势,在这时,图表能帮助我们很好地完成这一任务。

散点图和折线图可以帮助我们了解数据大致的趋势。我们可以通过Stata功能栏里的图形制作二维图。

8ddf3069b275a640a5edb12900e3546c.png

图 4功能栏制作图表

选择散点图,将所要分析的Y变量和X变量分别选中即可得到所对应的散点图。

f280ac24f701c99957db7cb8770b95f8.png

图 5制作图表

我们学习Stata,代码是不可缺少的一部分,因此运用如下代码即可直接生成散点图。

9515b1a6133b2b6f91061ea7189009c5.png

图 6利率散点图代码

输出如下图像:

de61c9013d13d39dc3678e955c31eefb.png

图 7利率散点图

这是将利率作为Y变量,时间作为X变量所得出的结果,我们可以看到由于数据只从1998年开始,因此在1998年以前出现了一大片空白。而之后的数据,分布比较零散,并没有能从中获得更多有用的信息。

运行如下代码,得到新的散点图。

ce3d0f5e1238e8460d9420aef4eddfbc.png

图 8GDP散点图代码

生成结果如下:

c9639bad4a8644ff5ac85c24037e0795.png

图 9GDP散点图

这是将GDP作为Y变量,时间作为X变量所得出的结果,我们可以看到GDP呈现逐年递增的状态,可以反映出我国发展状况良好。

通过以下代码,可以绘出对应的正态分布图。

c7866244fa86a39be4f5cb7170683130.png

图 10利率正态分布代码

69cd2b6c3aff8957911a914ac17e4969.png

图 11利率正态分布图

a91dc2c8444c27d039322f3d78576036.png

图 12GDP正态分布图

按照同样的方法,我们可以绘出对应的箱线图。

283b9c78d6f3afaed1edb0f572a15fc5.png

图 13利率箱线图

可以看出利率大多在2.5%到4%之间,说明政策没有很明显的波动,除了1998,就是最后那个点。

78d40ecec19aeaa6c8e1bb2a5bc7025d.png

图 14GDP箱线图

这张图所采用的数据是1960年到2022年,前面GDP的散点图前后差距过大,这就导致所生成的这张图对于近期的GDP分析不能有很直观的展现。

接下来是描述性统计,代码如下:

1b2756cab066603552241063fc11c31a.png

图 15描述性统计代码

生成结果如下:

fbdedcdf87b495442a3c9c9910a20e07.png

图 16描述性统计1

表的下端的Obs为63,说明GDP统计了63个变量,但表的上端的利率Obs只有25,说明只有25个变量,为了后续数据能够更加精确,我们将GDP前面数据删除,仅留下后25个数据。

新的生成结果如下:

7bd26c27ace61b17fefd4c780ce697d9.png

图 17描述性统计2

由上图我们可以得出结论:利率最小值为1.58%,最大值为6.85%,平均值为3.44%,中位数为3.09%;GDP最小值为1909.622,最大值为11560.24,平均值为5990.1,中位数为5647.069。

在正式进行回归分析之前,我们要对该时间序列数据进行时间序列的平稳性检验,如果时间序列非平稳的,那么这个模型的可信度就有所下降并且要修正模型,代码如下:

492a460fb71c8b155e48764de3142df5.png

图 18利率时间序列平稳性检验代码

生成结果如下:

0ae22baffbaa4c2556ddb4551a5265bb.png

图 19利率时间序列平稳性检验

得出Z(t)=0.0007,因此我们可以拒绝原假设,说明利率是平稳时间序列

c5635f3bc0fa7b902ff14ca16f8b7ad7.png

图 20GDP时间序列平稳性检验代码

2695ef30593bdf237816e1899c4f832e.png

图 21GDP时间序列平稳性检验

然而,GDP的时间序列是非平稳的,因此我们需要采取其他措施来让它变平稳,生成一列ln函数结果来代替原GDP数据。

69c50612421f99529269393d727c4379.png

图 22生成GDP对数

8d951fe231112a4f7527826c6dba9c74.png

图 23ln_GDP时间序列平稳性检验

再次进行平稳性检验,得出Z(t)=0.0259,拒绝原假设,说明GDP的对数是平稳的时间序列。

之后通过同样的方法生成ln_i,代码如下:

f1c2c386e7b8831aae15ba4793f3d5b0.png

图 24生成ln_i

再对ln_GDP和ln_i进行回归分析,代码如下:

8845fe3484aac5a36283a1381cb5ddb4.png

图 25回归分析

生成结果如下:

e590e4b4872d5cb8c3ef5ce23491217f.png

图 26回归结果

根据上图,我们能得到一个回归方程式:。,意味着模型只能解释GDP增长的0.03,所以这次的回归可以说是失败的。将该回归结果绘出图形也可以看到点非常分散。

5d29bfa480b6acd67eed475952bb4955.png

图 27回归图代码

3e39e2088dd1d436a24c483a9686e86d.png

图 28回归图1

既然回归结果并不理想,那么我们可以预测预测变量的值,然后与真实变量进行比较,如果均值相等,那么也可以进行线性回归。代码如下:

f72882faef94d30e13d2c3af2e9d84ca.png

图 29预测变量

bac67796349eee03147bbc01deb2d14d.png

图 30真实变量与预测变量比较

7520aa7e51b5cba6b024ad699d744eda.png

图 31预测值的正态分布代码

5028f67792fb51804c5c0b51568d48f9.png

图 32预测值正态分布图

经过对比,两者的均值相等。修正后再进行回归,代码如下:

5ee35bc60dbbdbef4a75f4f133487f10.png

图 33修正后回归代码

生成结果如下:

b357294e8b97d2b5738e9aec41eaa484.png

图 34修正后回归结果

得出的回归公式为:,2021年人均GDP增长1%2022年增长97.7%。,比之前的更好。

6aff0c20b1e461188f6801695596fa62.png

图 35回归代码2

372903b93e16c995e2f4e1c7fc3c3760.png

图 36回归图2

以上,就是我在冬季短学期中学到的知识和技能,感受是,熟能生巧,最重的是,模型的解释力来源于研究者对经济事实的理解和领悟。


上一篇:师生探秘Stata高效能——金融科技专业冬季短学期侧记

下一篇:盘点2023 国贸专业师生共谋数字化、产教融合、国际化发展

盛宝金融科技商学院的这四年

四年来,盛宝金融科技商学院…

详情 >>

写给初见大学时

进入大学,是人生开启很重要…

详情 >>

海南省首家!中英文双语金融教育基地揭牌

近日,海南省中英文双语金融…

详情 >>