4月21日,在首届清华-财新公共治理论坛暨2019 CIDEG学术年会上,数联铭品科技有限公司创始人曾途进行了题为《基于大数据的生态环保智能分析创新实践》的主题发言。
“清华CIDEG”特将发言原文整理如下,以飨读者。
近期将陆续推送年会嘉宾主题发言,请继续关注。
演讲实录
各位老师、各位同学大家好,非常感谢有机会在这里做一个分享。数联铭品简称BBD,是一家用大数据来解决监测预警的机构。大家都讲比较宏观,我讲一个比较具体的案例,就讲大数据是什么,大数据如何对生态环保,尤其污染做监测预警。
首先,现在污染防治是三大攻坚战,我们围绕这个痛点,也围绕着刚才刘世锦老师讲的绿色发展的主题,分析了我们如果用新技术去解决痛点问题相结合的思路。恰好在2017年12月8号总书记提出大数据战略,要加快数字中国建设,数字中国的建设本身也是绿色发展建设的一个新的方式。围绕着数字中国建设,我们和国家发改委、国家信息中心一起探讨了一种新的方式,就像刚才阿里的刘总也讲了,孪生出平行的城市治理,来形成一个服务体系。
大数据核心是通过对海量数据的挖掘,实现对传统的因果关系的扩展,实现了对相关性的计量、相关性的分析,和用实体对象的本体模型动态地计量未来一些规律性的科学方法、商业模式、或思考方式。大数据跟传统的统计或者数据挖掘比较起来,最重要的不同就是大数据是面向预测的,是用一种新的模式思考未来可以发生事件的概率,并且是可以评价的。有了这样一个大数据的思考基础,国家也非常重视大数据和现有的重点问题相结合这样一个痛点的政策环境和支持,我们看一下现在发生的一些改变。
从美国贸易战开始,我们发现国与国之间竞争原理上是产业生态体系的竞争,是核心产业链的竞争,也是核心企业和核心人才技术的竞争。对于新的竞争来说,我们要产生新的竞争优势。
可以看一下我们和财新共同发布的《万事达卡财新BBD新经济指数》这样一个趋势。2010年制造业的GDP贡献在51%,现在的贡献在30%。不同行业的GDP构成中,服务业有了更多增长,而服务业的驱动就代表着发展方式发生了变化,其中包括由于新经济产生的新兴行业对于传统制造业内生的变化。而这种改变和传统行业为什么不同?通过NEI和PMI的对比,我们发现描述制造业的PMI和NEI的走向是没有什么规律的,两者在描述经济要素投入上还是有很大的区别,内涵上是不一样的。
另外一个有现象的意思是NEI和工业增加总值往往都是同比关系,这是已经监测了近三年的结果,并且NEI的发布比工业增加值的发布要提前两周。在传统工业增长上,新经济对于制造业发生内生的改变和驱动。因此,要用新的方式去看待绿色发展、绿色金融、绿色经济,看待发生的改变,要意识到经济形态的改变和对环保的内在需求是非常重要的。
我今天不讲经济,因为这里有很多专家在经济领域是非常专业的。我讲讲技术方面的:大数据如何帮助未来中国经济内生出一种新的需求和新的供给?
这个热力图描述的是从京津冀、粤港澳、长三角、华中经济带到成渝经济带企业注册的情况,也是国内经济发展高峰的重要动力来源。
这些动力来源在发展过程当中必然存在生态环保的问题。过去环保不是不能监测,而是监测的成本太高。现在是不是能用一些新的、低成本的方法做比对,尤其是相关性的比对,来找到一些方法论?
我们总结出了DOB模式,就是业务驱动型的建模与数据治理相结合的模式,可以把各种数据和业务类型知识结合起来,专家模型和机器学习模型融合起来。专家模式可以解释,机器模型很难解释。就像陶老师讲的,周边城市指标对于北京环保的影响这种相关性指标有时很难找到一个科学的逻辑。但是把动态的分析和业务结合起来会发现其中是有规律的,这个规律叫动态本体论。
这个本体论的方法是利用关联的方法,找到事物对象与对象之间的关联、属性与属性之间的关系、属性与对象之间的关系,并且计量这种多维度的关联而形成知识图谱,来用于痛点问题的解决。
技术层面涉及到了数据源、数据解析、标准数据、方法论模型以及应对,这是一个系统工程。大数据不是一个简单的技术问题,大数据技术每天都会发生变化,算法每天都会变化,开源的方法技术每天都在更新,但是唯一不变的是这个方法论本身。
大数据必须满足三个条件:第一,没有数据的大数据是假大数据;第二,不动态的大数据是假大数据;第三,不解决痛点的大数据是假大数据。只有痛点、模型和数据的相结合,形成系统化的工程能力才能够解决问题,形成一个基本的方法论。
前面我简单介绍了大数据的思路和围绕当前重点分析的要义过后,接下来讲我们的实践。
生态环保问题的解决,我认为是一个成本问题。不是解决不了生态环保的问题,而是精细化管理难、污染源识别难、区域监管难、动态预警难。过去人才战术、人盯人的战术,是一个非常难以覆盖、有巨大社会成本的方法。有了大数据后,第一,要用更多的传感器去建设固定位移点的数据采集;第二,要用动态的方法无中生有地解决监管难以覆盖的问题。要构建一个结合污染源数据采集、经济影响分析、以及社会问题治理的统一体系,而这个体系要形成大的知识图谱。污染源、生态环保这些痛点,生态环保行为的特征,以及用算法预测管理要素,共同形成监管图谱。
构建这样的框架和体系,不一定现在完全实现,但这个框架即本体是没有变化的。第一,要有更多的采集设备,有更多的数据源。我们在美国2016年去交流的时候,每家公司都在谈新技术体系,不但谈大数据,他说我们的新技术体系包括Sensor、Cloud、大数据、AI等,形成了一个从传感器到物联网、到云计算、到大数据,再到人工智能的体系。这个体系代表着未来技术的基础。我们可以通过传统的数据采集报表,从传感器动态的数据,以及无人机、无人船等等方法采集更多的数据,把这些数据变成服务于环保监测的基础的数据库,从而针对不同的痛点产生不同的模型,用于不同的预警和监测,来实现对于不同场景下环保问题的监测预警和管理。
最终所有环保问题会落脚于企业,因为任何个人污染都是一个微观的主体。如果把一个企业污染与企业行为责任以及信用关联起来,就形成了一个从污染源处理到最后经济行为干预的完整闭环,就形成了包括数据获取、数据清洗、数据解析和数据服务的数据环保监测体系。
以河道治理为例,河道治理和公共信用信息评价连成一体。河道治理其实是比较难的问题,因为一条河上段不管中段,中段不管下段,不知道哪些地方会产生污染源,而在河道找污染源,如果传统用人工的方式成本特别高。大数据产生了新的方法:从数据管理到大数据库、到机器学习模型、到智能化,将数据转化为一种行为模式。
首先可以用无人机全维度数据采集。现在无人机成本降得非常低,尤其是工业级无人机,我们在四川成都进行试点,用电的无人机可以来回航行200公里,时速在180公里,在100公里半径的区域可以自由飞行,动态监测。用无人机对数据进行解析,解析之后把污染、企业、政府和外部可信用的数据形成一个平台。数据处理是基础,建立一个基础的环保河流数据库后,围绕着河流周边的森林、湖泊、植被、企业以及经济走势建立一个完整的数据平台。围绕着生态指数、政策法规,建立整体的生态变化服务框架,形成一个治理条件。
这是我们的无人机拍的一张图,我们会把这种真实的图形、真实的动态的河流的状况进行建模,按照平方公里的方式建立一个三维的模型。飞机会例行巡检,不用人巡检。找到每日图象做建模,再进行图形比对。如果只比对异常点,数据量就不会太大,也是比较经济的。对异常点信息进行分析和挖掘,形成一个平台综合保障,有车、有分析仪器,还有相关的GPU处理设备。有了这些数据采集后,将污染源或者影响生态环境的各项因素指标和企业经济行为关联起来,而经济行为的主体本身是法人企业,把法人企业的信用信息和污染源的行为信息进行关联,从而找到之间的对应关系,这种方法就叫图计算。计算一个实体对象的拓扑结构,找到时空之间以及要素之间的关联关系。
举个例子来说,以前重点领域需要人去看视频,人看视频是非常复杂的。现在通过学习大量的污染源,比如说森林、化工、河道的污染源,危化品污染源,去识别一些重点领域,会把一些典型的、统计高发的坏样本污染源用来学习。然后拍视频识别出危险源、风险点,风险点进行机器学习的自动排查之后就可以大范围作业。
这是真实案例,无人机拍到四川广安一个山坡出现了滑坡,画圈的地方正在排污,旁边就是一个化工厂。传统这些数据是无法关联或无法相互交替执法,没有办法进行联合惩戒。现在用围绕河道的方法就可以自动巡检,标识出问题,同时根据经纬度匹配与它相近的公司地址。公司地址一旦匹配出来,就可以关联到企业信用行为。
不仅适用于河道,也适用于烟囱。化工厂烟囱排烟,白天不排晚上排,尤其小化工厂是白天不生产晚上生产。在无人机上配热感装备,可以快速巡查。对秸秆焚烧点进行机器学习,可以看到有一块地出现违规的占河道的方式,都可以自动化地巡查。有了巡查之后找出相关企业,对信用信息进行评价,可以在政府内部进行信用信息全维度评价,可以知道风险状况、风险预警、风险指标以及所遇到的行政处罚和当地的舆情投诉进行系统化关联,生成一份风险报告。我们最后发现管理企业,对企业进行处罚不要管到特别细部,一个企业的日常管理是由企业主自己经营的,只要管住企业主就行了。
通过大数据,把互联网公开数据和政府公开数据,以及其他的舆情的数据相结合,找到实际控制人、行政违法记录、企业地址以及信用记录,就能要求企业实际控制人对环保进行承诺,再和整个风险进行关联,形成一个从事中企业经营、到事后发生结果的全维度、全息的报告,从而预警分析,在授权的情况下提出客观性的指标来研究行业风险。
有了这种风险后,我们会对违规风险、信用风险、关联方风险、经营风险以及环保风险进行深度的挖掘。在大数据条件下,从企业经营的角度去预测和干预、降低环保,因为任何事情是围绕经济发生的。大量地从事非法排污是严重的失信行为,通过社会信用体系建设和信用中国的建设来关联这些工作,形成行政干预,对企业的招投标、经营许可都会产生影响。用大数据的方法找到风险源,识别出企业的行为,干预企业的经济行为走向正常经营的轨道,降低风险。这是一种从数据到经营行为的全套闭环式管理。
综上所述,大数据的方式现在不一定适合于全领域,但是在河道和隐蔽性的空气污染源监测,比如用热感照相仪夜间巡查污染,提高了一种便利的、低成本的策略。同时可以预见性地发现比较微观经济行为,进行对法人主体的监测,实现绿色监管,形成对绿色金融和绿色发展的有效支撑。
以上就是我的汇报,谢谢大家。