【计量经济学】固定效应、随机效应、相关随机效应

PD我是你的真爱粉 2023-04-03 原文

固定效应、随机效应、相关随机效应–潘登同学的计量经济学笔记

文章目录

固定效应模型

前面说到过，一阶差分可以消除非观测效应(或者固定效应)，但是他只是这些方法中的一个；在某些情况下，固定效应变换能起到更好的作用。

考虑以下简单模型
$y_{it} = \beta_1 x_{it} + a_i + u_{it}, t=1,2,\ldots,T$

对每个 $i$ 求方程在时间上的平均，得到
$\bar{y}_i = \beta_1 \bar{x}_i + a_i + \bar{u}_i$

上式减下式，得到
$y_{it} - \bar{y}_i = \beta_1 (x_{it}-\bar{x}_i) + (u_{it}-\bar{u}_i)$
简记为
$\ddot{y}_{it} = \beta_1 \ddot{x}_{it} + \ddot{u}_{it} \qquad (*)$

其中， $\ddot{y}_{it} = y_{it} - \bar{y}_i$ 表示 $y$ 除时间的均值数据；而固定效应变换又称为组内变换,通过 $(*)$ 得到的OLS估计量又称为固定效应估计量或组内估计量；

注意事项

在解释变量的严格外生性假定下，固定效应估计量是无偏的；
固定效应估计量与一阶差分估计量类似，允许 $a_i$ 与任何时期的解释变量相关；正因如此，凡是在时间上恒定的解释变量都必定随固定效应变换而消失；
对于一般的非观察效应模型(形如上面第一个方程)，有NT个观测值和k个自变量，由于对时间取平均，每个个体都损失了一个自由度，所以 $d f = N (T - 1) - k$

固定效应的假设

FE.1: 对于每个 $i$ ,模型是
$y_{it} = \beta_1 x_{it1} + \cdots + \beta_k x_{itk} + a_i + u_{it}$
这里的 $\beta_j$ 是待估参数， $a_i$ 是未观测到的效应
FE.2：我们从横截面中取一个随机样本
FE.3: 每个解释变量都在时间维度上变化，在就诶是变量中没有完全共线性关系
FE.4: 对于每个 $i$ ,给定所有时期下解释变量和非观测效应，个体误差项的期望值为0
$E(u_{it}|X_i,a_i) = 0$

在四个假设下，与一阶差分估计量的假设一致，固定效应模型估计量是无偏的；进一步的，当关键假定FE.4(严格外生性假定下)，当T固定而N趋向于无穷时，固定效应估计量是一致的；

工作培训与废弃率的例子

要注意的是，在解释系数的时候仍然用最开始的方程来解释，固定效应模型只是用来计算估计量而已…

其中的 $R^2$ 是从组内变换方程 $(*)$ 中计算得来的

虚拟变量回归

对于固定效应模型，传统的观点认为：非观测效应 $a_i$ 对于每个 $i$ 来说，都是一个有待估计的参数；对于每个 $i$ 估计一个截距的方法，就是连同解释变量一起，在每一个个体安排一个虚拟变量；无需做固定效应变换，直接估计非观测效应模型即可；

优缺点

这样一来，对于N个个体，T个时期，整个方程的自由度自然就是 $d f = N T - k - N$ ( $k$ 个解释变量， $N$ 个虚拟变量)，这就算是虚拟变量回归的一个优点(能直接看出自由度);
但是对于时期数T，如果只有一个时期的话，就会面临待估参数有 $N + k$ 而观测样本只有 $N$ 个的无关回归的处境；大多数情况下，面板数据集都是N大T小的情况，使用虚拟变量回归不是很现实；
通过虚拟变量回归计算出的 $R^2$ 通常都比较高，因为我们对每一个个体都包含了一个虚拟变量，以致能解释数据中变化的大部分;
对于虚拟变量估计出的 $a_i$ 是无偏的，但是在给定 $N\to \infty$ 的时候，也是不一致的，只有在 $T$ 越大的时候，估计的效果才能变得更好；

固定效应(FE)与一阶差分(FD)

当 $T = 2$ 的时候，FE与FD的估计量以及其全部检验统计量都完全一样。在FD中有一个包含第二个时期的截距，所以要使FE与FD完全一致，那么在FE的方程中加上第二个时期的虚拟变量就行；
当 $T\geq3$ 的时候，FE与FD估计量便不相同，但两者都是无偏且一致的(在固定 $T,N\to \infty$ ), 对于较大的 $N$ 和较小的 $T$ ,FE和FD之间的选择的关键在其估计量的相对效率，这将由特异性误差 $u_{it}$ 中序列的相关性来决定；
- 当 $u_{it}$ 无序列相关的时，固定效应法比一阶差分更有效；
- 当 $u_{it}$ 序列相关的时，特别是很强的正序列相关(如：随机游走) 一阶差分比固定效应法更有效；
- 其他情形，则不一定；
当T很大，而N比较小时(如N=20,T=30),使用一阶差分更有效，因为一阶差分具有将一个单整时间序列过程转化为一个弱相关过程的有点，在T大N小的时候，援引中心极限定理，特异性误差中的正态性就不再需要；而固定效应估计量则对特异性误差中的正态性、异方差性和序列相关更敏感；

与一阶差分类似，固定效应估计量对一个或多个解释变量的经典测量误差和敏感。另一方面，若 $x_{it}$ 都与 $u_{it}$ 无关，但违背了严格外生性假定(回归元中包含滞后因变量，或 $u_{it}$ 与解释变量未来结果之间有某种反馈)，则FE估计量可能明显比FD估计量偏误更小(除非T=2)。一个重要的理论是，FD估计量的偏误不取决与T，而FE的估计量中偏误则是以速度 $\frac{1}{T}$ 趋于零；

随机效应模型

还是从一个非观测效应开始
$y_{it} = \beta_0 + \beta_1 x_{it1} + \cdots + \beta_k x_{itk} + a_i + u_{it}$
其中我们明确引入一个截距项，使得我们能够假定非观测效应 $a_i$ 有零均值而又不失一般性；

我们假定 $a_i$ 与任何一个解释变量在任何时期都无关
$Cov(x_{itj},a_i) = 0, t=1,2,\ldots,T$
随机效应假定满足所有的固定效应假定，外加一条 $a_i$ 与任何一个解释变量在任何时期都无关；

我们可以用以下两种不同的思路来估计 $\beta_j$

加入时间虚拟变量做OLS回归(就与上面的虚拟变量回归一致)
采用类似固定效应模型除均值的做法(但是有所不同)

定义复合误差项为 $v_{it} = a_i + u_{it}$ ,则分观测效应模型改写为
$y_{it} = \beta_0 + \beta_1 x_{it1} + \cdots + \beta_k x_{itk} + v_{it}$
不同时期的 $v_{it}$ 存在序列相关
$Corr(v_{it},v_{is}) = \frac{\sigma_a^2}{\sigma_a^2 + \sigma_u^2},t\neq s$
所以如果使用普通的OLS估计就会导致不正确，应该使用GLS来进行估计，估计前先假设有足够大的N和相对小的T，拥有的是平衡面板数据; 先计算一个比例
$\theta = 1 - (\frac{\sigma_u^2}{\sigma_u^2 + T\sigma_a^2})^{\frac{1}{2}}$
这个值介于0到1之间；用这个比例乘上在时间上求出均值的方程,再做差：
$y_{it} - \theta \bar{y}_{it} = \beta_0(1-\theta) + \beta_1(x_{it1}-\theta \bar{x}_{it1}) + \ldots + \beta_k(x_{itk}-\theta \bar{x}_{itk}) + (v_{it} - \theta\bar{v}_{it}) \qquad (*)$
固定效应变换从相应变量中减去其时间平均值，而随机效应变换只减去其平均值的一个比例，这个比例取决于 $\sigma_u^2 , T, \sigma_a^2$ ; 虽然很难看出 $(*)$ 是序列无关的，但是事实就是如此；

注意： 参数 $\theta$ 是绝对未知但是可以估计的，有不同的估计方法，可以根据(对步骤1的式子)做混合OLS估计，得到 $\hat{\sigma}_v^2$ ,再通过公式 $\hat{\sigma}_a^2 = [\frac{NT(T-1)}{2} - (k+1)]^{-1}\sum_{i=1}^N\sum_{t=1}^{T-1}\sum_{s=t+1}^T \hat{v}_{it} \hat{v}_{is}$ 得到 $\hat{\sigma}_a^2$ ,最后根据 $\hat{\sigma}_u^2 = \hat{\sigma}_v^2 -\hat{\sigma}_a^2$ 估计 $\hat{\sigma}_u^2$

对于软件计算出来的某些形式的 $\hat{\theta}$ 来代替 $\theta$ 的可行GLS估计量被称为随机固定效应估计量；该估计量不是无偏的，但是是一致的，相对固定的T，随着N的增大而渐近正态；

$\theta$ 的取值范围

当 $\hat{\theta}=0$ 时便得到混合OLS，RE的估计值就会接近混合OLS的估计值；当非观测效应 $a_i$ 不重要的时候(因为想对于 $\sigma_u^2$ ，它的方差很小)，就会出现这种情形；
当 $\hat{\theta}=1$ 时便得到FE，更常见的情形是 $\sigma_a^2$ 相对地比 $\sigma_u^2$ 要大，这时候 $\theta$ 接近1,从而使得RE与FE两种估计非常类似；

改写 $(*)$ 中的准除均值误差：
$v_{it} - \theta\bar{v}_i = (1-\theta)a_i + u_{it} - \theta \bar{u}_i$
这样我们就能看到随机效应相对于固定效应的优点，随机效应变换方程中，无法观测因素 $a_i$ 的权数为 $(1-\theta)$ ，尽管 $a_i$ 与一个或多个 $x_{itj}$ 之间的相关导致随机效应估计中的不一致行，但我们看到，这种相关已经被因子 $(1-\theta)$ 削弱，随着 $\theta \to 1$ ,偏误项趋近于0；

工资方程的例子

随机效应(RE)与固定效应(FE)对比

总体来看，FE比RE要好，因为FE允许 $a_i$ 与 $x_{itj}$ 任意相关，而随机效应则不然；
如果关键解释变量不随时间而变化，我们就无法使用FE；只能选择RE或混合OLS(RE比混合OLS更有效)；
特别地，如果使用RE，则在解释变量中包含的不随时间而变化控制变量要尽可能多；
如果 $cov(x_{itj},a_i)=0$ ，那么可以使用RE而不是FE；

更常见的是同时使用RE与FE，然后规范的检验时变解释变量系数的统计显著差别；

对于选择RE还是FE，可以使用豪斯曼检验

其原价是就是 $cov(x_{itj},a_i)=0$
如果检验拒绝了原假设，那么就使用FE，否则使用RE

对截面数据使用上述方法

差分、固定效应模型、随机效应模型这些面板数据的方法还可以用于截面数据；

下面列出两个例子，一个是对卵生姐妹间做差分以消除家庭背景差异，一个是对同卵双胞胎做差分而消除能力差异的例子；

上面说道的是配对样本的例子，下面再举一个聚类样本的例子，要注意的是：聚类样本是事前聚类(从同一家公司中抽员工)而不是随机抽出来之后聚类

效应随机 span class style 人工智能 $概率论 $算法

有关【计量经济学】固定效应、随机效应、相关随机效应的更多相关文章

ruby-on-rails - 相关表上的范围为 "WHERE ... LIKE" - 2
我正在尝试从Postgresql表(table1)中获取数据，该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中，我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤，而不是严格相等。然而，这是行不通的:scope:my_scope,->(que
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
ruby - 在 Ruby 中将整数格式化为固定长度的字符串 - 2
有没有一种简单的方法可以将给定的整数格式化为具有固定长度和前导零的字符串？#convertnumberstostringsoffixedlength3[1,12,123,1234].map{|e|???}=>["001","012","123","234"]我找到了解决方案，但也许还有更聪明的方法。format('%03d',e)[-3..-1] 最佳答案如何使用%1000而不是进行字符串操作来获取最后三位数字？[1,12,123,1234].map{|e|format('%03d',e%1000)}更新:根据theTinMan的
ruby-on-rails - 在具有 ActiveRecord 条件的相关模型中按字段排序 - 2
我正在尝试按Rails相关模型中的字段进行排序。我研究的所有解决方案都没有解决如果相关模型被另一个参数过滤？元素模型classItem相关模型:classPriority我正在使用where子句检索项目:@items=Item.where('company_id=?andapproved=?',@company.id,true).all我需要按相关表格中的“位置”列进行排序。问题在于，在优先级模型中，一个项目可能会被多家公司列出。因此，这些职位取决于他们拥有的company_id。当我显示项目时，它是针对一个公司的，按公司内的职位排序。完成此任务的正确方法是什么？感谢您的帮助。PS-我
ruby - 如何在 Ruby 中生成一个非常大的随机整数？ - 2
我想在ruby中生成一个64位整数。我知道在Java中你有很多渴望，但我不确定你会如何在Ruby中做到这一点。另外，64位数字中有多少个字符？这是我正在谈论的示例......123456789999。@num=Random.rand(9000)+Random.rand(9000)+Random.rand(9000)但我认为这是非常低效的，必须有一种更简单、更简洁的方法来做到这一点。谢谢! 最佳答案 rand可以将范围作为参数:pa=rand(2**32..2**64-1)#=>11093913376345012184putsa.
ruby-on-rails - 多次选择一个随机数，但绝不会两次选择相同的随机数 - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:HowdoIgeneratealistofnuniquerandomnumbersinRuby?我想做的事:Random.rand(0..10).timesdoputsRandom.rand(0..10)end但如果随机数已经显示过，则无法再次显示。如何最轻松地做到这一点？
ruby - 以随机顺序将数组拆分为多个数组 - Ruby - 2
我试图在每次运行时以随机顺序将一个名称数组拆分为多个数组。我知道如何拆分它们:name_array=["bob","john","rob","nate","nelly","michael"]array=name_array.each_slice(2).to_a=>[["bob","john"],["rob","nate"],["nelly","michael"]]但是，如果我希望它每次都以随机顺序吐出它们怎么办？最佳答案在做同样的事情之前，打乱数组。(Array#shuffle)name_array.shuffle.each_s
ruby - 使用指向 ruby 可执行文件的符号链接(symbolic link)时查找相关库 - 2
假设您有一个可执行文件foo.rb，其库bar.rb的布局如下:/bin/foo.rb/lib/bar.rb在foo.rb的header中放置以下要求以在bar.rb中引入功能:requireFile.dirname(__FILE__)+"../lib/bar.rb"只要对foo.rb的所有调用都是直接的，这就可以正常工作。如果你把$HOME/project和符号链接(symboliclink)foo.rb放入$HOME/usr/bin,然后__FILE__解析为$HOME/usr/bin/foo.rb,因此无法找到bar.rb关于foo.rb的目录名.我意识到像rubygems这
HarmonyOS原子化服务开发相关术语 - 2
术语中文解释Ability原子化服务帮助用户完成任务的原子化服务，和用户的意图进行关联。Fulfillment服务履行通过图标，卡片，语音等形式呈现用户意图。开发者通过接口的方式，处理用户意图，返回内容。Intent意图用于表达用户想要达成的目标或完成的任务。HUAWEIAssistant智能助手“无微不智”的个人助手，通过不断的学习用户的使用习惯，不断的为用户提供贴心的精准的便捷的个性化服务。AISearch全局搜索用户可快速搜索关键词，与之匹配的原子化服务则会出现在搜索结果中。SmartService智慧服务用户订阅原子化服务，在到达特定触发条件（时间、地点、事件）后，卡片推送至用户智能助
H2数据库配置及相关使用方式一站式介绍（极为详细并整理官方文档） - 2
目录H2数据库入门以及实际开发时的使用1.H2数据库的初识1.1H2数据库介绍1.2为什么要使用嵌入式数据库？1.3嵌入式数据库对比1.3.1性能对比1.4技术选型思考2.H2数据库实战2.1H2数据库下载搭建以及部署2.1.1H2数据库的下载2.1.2数据库启动2.1.2.1windows系统可以在bin目录下执行h2.bat2.1.2.2同理可以通过cmd直接使用命令进行启动：2.1.2.3启动后控制台页面：2.1.3spring整合H2数据库2.1.3.1引入依赖文件2.1.4数据库通过file模式实际保存数据的位置2.2H2数据库操作2.2.1Mysql兼容模式2.2.2Mysql模式