【数据简介】:
该数据库的目标任务是对《中国工业企业数据库》和《专利摘要数据库》的企业名称进行对接匹配。《中国工业企业数据库》有企业的财务和经营数据(如出口,资本结构,所有权等),极少的企业存在新产品销售数据,《专利摘要数据库》存在企业名称填写随意,不规范等严重问题。本数据库使用的技术方案是:(1)模糊匹配:模糊算法匹配程序开发存在较大风险。要继续进行的话,需要请专门计算机程序人员编程,风险高。初步尝试表明不精确且汉字匹配存在较大问题;(2)两个集在变量命名规则存在差异,完全匹配可以,需要人力进行数据清洗,对公司命名进行同一的规则制定,编程工作量较大。
对中国工业企业数据库2005—2010企业名录数据进行分年数据企业名录然后再汇总企业名录得到552338家公司名录。对于专利数据企业名录数据,通过进行手工转录专利著录数据为excel文件,编制宏对单个数据集进行汇总,提取专利权利人和地址数据,删除专利权人重复数据,形成名录基础数据集,选择中国境内的专利权利人,最后进行数据清洗后,在剔除重复,获得370870个企业。该数据库的地址成功匹配41152家企业,采用匹配成功的两个数据库的邮政编码校验,校验结果是1565行从41152家企业中被删除,地址和邮政编码前匹配公司总计为39587家公司。
本数据库提交的成果文档是:(1)购买的《中国专利摘要数据库》安装光盘(8张)移交给数据中心;(2)企业代码名称匹配文档matchzip.xls文件中变量“legcode”为中国工业企业数据库的法人代码,该代码为企业的唯一标示。没有给出代码,但是有applyname记录的观测则表明该企业在中国工业企业数据中只有企业名称,而法人代码缺失; applyname变量为第一专利持有人的名称,如变量中有分号分割,则表示该专利由多个持有人共同拥有专利权,所对应的legcode为第一持有人的法人代码。
|