当前位置: 首页 >> 数据资源 >> 特色数据 >> 正文

【特色数据库】中国工业企业、中国海关进出口匹配数据

中国工业企业、中国海关进出口匹配数据

开发者——许和连教授团队

 

    中国工业企业数据库中提供了比较详细的企业信息及特征,而中国海关进出口数据库来自于中国海关总署,详细记录了每一笔企业贸易的货物、价值和进出口国等信息,将两个数据库进行匹配极大地拓展了我国进出口贸易相关研究范围的可达性。
该套数据的处理过程大致包括:
1、对两套数据的原始版本(2000-2013年度分年份)中的变量名称、变量格式进行修改,确保各年份保持统一。随后将各年份的工业企业数据合并成,而海关数据库为交易记录层面的数据,各年份观测值均超过千万,文件过大,故未将其合并为面板。
2、借鉴Brandt等(2012)、Yu(2015)以及杨汝岱(2015)等文献的做法,对两套数据进行初步的清洗,例如剔除工业企业数据库中企业名称缺失、不符合会计原理的观测值以及海关数据库中企业名称缺失、出口目的国为中国的观测值等。
3、计算指标和生成变量,例如工业企业面板中通过多种方法测算的TFP、真实投资、真实净投资、物质资本存量以及地区层面变量,海关分年份数据中的企业当年一般/加工贸易额占比、与发达/发展中国家交易额占比、出口产品质量(通过筛选后的面板进行计算,再与各年度匹配得到)等。
4、将海关各年度数据collapse至企业层面,再合并成海关面板。
5、对两套数据中匹配需要用到的变量(企业名称、电话号码、邮编)进行处理,将英文字母、括号统一转换为英文半角形态,删除空格和“!”、“.”、“-”、“*”等不必要的符号。将两套数据库首先通过企业名称进行匹配,然后通过邮编加电话号码后7位进行识别,两种方法得到的结果取并集为成功匹配的企业样本。

八方聚焦
  • 第二期“EDRC数据处理培训讲...
  • 好消息:试用国泰安数据库!
  • 李克强总理的经济公开课
  • 湖南大学经济与贸易学院关于...