本文在『气象学家』同步推送传送门;机器学习方法越来越多地用于日益增长的地理空间数据流中提取相应的模型特征和深入特点,但是目前的方法在系统行为受制于时空背景时还不能得到最优的方案。在这里,主要目的并不是改进经典的机器学习算法,我们主张这些背景线索应该成为深度学习一部分(一种可以自动提取时空特征的方法)来更深地获取地球科学领域难题的过程理解,提升季节预报或者多时间尺度长距空间相关模拟的可预报能力,譬如,下一步将建立混合模型方法,将物理过程模式与数据驱动型机器学习的通用性耦合起来。
Title:Deep learning and process understanding for data-driven Earth system science
**标题**:**"数据驱动型"地球系统科学领域的深度学习及其过程理解 **
**作者**:Markus reichstein**1,2***, Gustau camps-valls** 3**, Bjorn stevens**4**, Martin Jung**1**, Joachim Denzler**2,5**, Nuno carvalhais**1,6**, and Prabhat**7**
**1** Department of Biogeochemical Integration, Max Planck Institute for Biogeochemistry, Jena, Germany.2Michael-Stifel-Center Jena for Data-driven and Simulation Science, Jena, Germany.
3Image Processing Laboratory (IPL), University of València, Valencia, Spain.
4Max Planck Institute for Meteorology, Hamburg, Germany.
5Computer Vision Group, Computer Science, Friedrich Schiller University, Jena, Germany.
6CENSE, Departamento de Ciências e Engenharia do Ambiente, Faculdade de Ciências e Tecnologia, Universidade NOVA de Lisboa, Lisbon, Portugal.
7National Energy Research Supercomputing Center, Lawrence Berkeley National Laboratory, Berkeley, CA, USA.
E-mail: mreichstein@bgc-jena.mpg.de
**杂志**:Nature,volume 566, pages195–204 (2019)
**DOI**: [**https://doi.org/10.1038/s41586-019-0912-1**](https://doi.org/10.1038/s41586-019-0912-1)
Abstract
Machine learning approaches are increasingly used to extract patterns and insights from the ever-increasing stream of geospatial data, but current approaches may not be optimal when system behaviour is dominated by spatial or temporal context. Here, rather than amending classical machine learning, we argue that these contextual cues should be used as part of deep learning (an approach that is able to extract spatio-temporal features automatically) to gain further process understanding of Earth system science problems, improving the predictive ability of seasonal forecasting and modelling of long-range spatial connections across multiple timescales, for example. The next step will be a hybrid modelling approach, coupling physical process models with the versatility of data-driven machine learning.
原文摘要
机器学习方法越来越多地用于日益增长的地理空间数据流中提取相应的模型特征和深入特点,但是目前的方法在系统行为受制于时空背景时还不能得到最优的方案。在这里,主要目的并不是改进经典的机器学习算法,我们主张这些背景线索应该成为深度学习一部分(一种可以自动提取时空特征的方法)来更深地获取地球科学领域难题的过程理解,提升季节预报或者多时间尺度长距空间相关模拟的可预报能力,譬如,下一步将建立混合模型方法,将物理过程模式与数据驱动型机器学习的通用性耦合起来。
背景信息
人类总是致力于预测和理解这个世界,能够进行更好预测的能力在不同的领域都有很大的竞争优势(譬如,天气、疾病、金融市场)。人类从过去古希腊时代哲学推理到中世纪占卜的伪科学方法,到现代科学论述包括假设检验、理论发展和计算机建模,这些都是以统计和物理关系,即相关定律为基础的。天气预报的成功是地球科学领域的一段佳话,主要依赖于理论的完善、现代的一整套观测系统、日益增长的计算能力,使得海量的数据能够同化到数值模式中来。即便如此,对于天气的准确预报也只停留在天的尺度,还达不到精准预测月尺度。季节预测以及一些极端事件(譬如,洪水、火灾)和一些更长时间尺度的预测还是面临着巨大的挑战。
与此同时,地球系统数据在激增,CMIP5数据集是广泛用于周期性气候评估的科学基础,模式输出的数据总量超过3PB,【1PB = 1,000 TB (兆) = 1,000,000 GB (十亿)】, 而下一代CMIP6数据总量超过30PB。巨大的数据量在处理起来充满了挑战,其统计特性里包含了大量的不确定性。地球科学领域海量的数据也具备大数据四大特征:volume, velocity, variety and veracity(体积,速度,多样性和准确性),例如各种遥感、定点观测、模式数据。如今面临挑战就是如何从这些大数据中提取并解读信息,因为信息收集速度远大于人们所能消化的速度。数据的增多并未带对系统预测能力的提高,科学家需要对数据进行理解。在这种背景下,机器学习就是一种极佳的选择。
日益丰富的工具用于机器学习和AI,但是他们还需要进一步完善才能用于地球科学的分析,地球系统科学面临新的机遇与挑战,以及新型方法的需求,特别是特别是近年来对时空背景和不确定性的研究。
那么对于地球科学领域的科学家在未来面临的不可回避问题就是:1.提取海量激增数据中的有用信息;2.遵循相关的物理定律前提下,相比于传统的同化方法能够从数值模式中获取更多有效特征。
文章主要综述内容就是介绍地球科学领域的机器学习方法的发展,尤其是深度学习的——自动提取抽象的时空特征,其具有非常大的潜力来克服当前诸多阻碍机器学习广泛应用的局限性。本文罗列了当前最具有前景,且与物理模型结合具有挑战的机器学习方法。
主体内容
(1)地学中最先进的机器学习。诸如神经网络、随机森林方法很早就应用于地学中的分类、变化检测、土壤制图问题。但这些应用是针对空间,在时间上是相对静态的,但地球是不断变化的。机器学习回归方法在时间动态上具有优势,比如具有隐含层的人工神经网络,可预测碳通量在时间与空间上的变化。但这些应用也存在一些问题需要注意,比如外推能力,抽样或数据偏见,忽视混杂因素,统计关联与因果关系等。经典的机器学习方法需要一些先验知识确定一些时空相关feature,而不能自动探索数据的时空特征。一些时空动态特征比如“记忆效应”可以作为feature手动加入到传统机器学习中,但最新的深度学习已经没有这些限制。
(2)深度学习在地球系统科学中的机遇。深度学习已在其他领域得到了众多应用,但在地学中的应用还处于初级阶段。已有一些研究显示深度学习可以很好的提取时空特征,比如极端天气,而不需要很多人类干预。这也可用于城市变化的遥感自动提取。深度学习方法通常被划分为空间学习(例如,用于对象分类的卷积神经网络)和序列学习(例如,语音识别),但两者逐渐融合,可应用视频与动作识别问题。这些问题类似于地学中随时间变化的多维度结构,例如有序降水对流与植被状态。虽然有很大应用前景,但应用于时空变化的大气海洋传输或植被动态还有待发展。
(3)深度学习在地球系统科学中的挑战。虽然传统深度学习的应用对象与地学现象有很大相似性,但也存在重要区别。比如高光谱、多波段就比基于三原色RGB的计算机图像识别复杂很多,此外还有带噪音、有缺测的卫星数据。另外,波段、时间与空间维度的集合也会带来计算量的挑战。计算机图片中识别可大量“狗”,“猫”现成训练样本,而地学中没有类似被标记的大量训练样本,如干旱。对外,作者总结出五大挑战,分别来自可解释性、物理一致性、数据的复杂与确定性、缺少标记样本、以及计算需求。若这些挑战能解决,那么深度学习将对地学带来巨大改变。近期最有前景的应用是”临近预报“(nowcasting),未来是长期预测。作者认为深度学习将很快成为地学中分类与时空预测问题的主要方法。
(4) 与物理建模集成。物理建模(理论驱动)与机器学习建模(数据驱动)过去往往被认为是两个领域,具有不同范式。但其实两种方法可以相互补充的,前者外推能力强,后者更灵活可发现新规律。作者提出二种方法可结合的几个潜在点:改善参数化、用机器学习“替代”物理模型中子模块、模型与观测的不匹配分析,约束子模型、代替模型或仿真。
(5)推动科学发展。机器学习方法无疑给分类和预测问题带来大幅提高。机器学习的数据驱动方法还可从数据中挖掘出过去不知道的新信息,从而推动新机制新认识的产生。
(6)文章结语。地球科学大数据时代机器学习很有用,但也存在应用挑战,作者对此提出四点建议:识别数据的特殊性、推论的合理性和可解释性、不确定性估计、针对复杂物理模式进行验证。未来过程模型与机器学习将进一步结合。数据驱动的机器学习不会替代物理模型,但是会起到补充和丰富的作用,最终实现混合建模。
(以上六点总结引自李老师,https://mp.weixin.qq.com/s/uL4C3birbbFQ-UhntuTgRg)
图文
名词解释
图. 1 地球科学背景下面临的大数据挑战
Data size now exceeds 100 petabytes, and is growing quasi-exponentially (tapering of the figure to the right indicates decreasing data size.) The speed of change exceeds 5 petabytes a year; data are taken at frequencies of up to 10 Hz or more; reprocessing and versioning are common challenges. Data sources can be one- to four-dimensional, spatially integrated, from the organ level (such as leaves) to the global level. Earth has diverse observational systems, from remote sensing to in situ observation. The uncertainty of data can stem from observational errors or conceptual inconsistencies.
Fig. 2: 左边是四个深度学习典型的应用情景,右边是可用于对应的地球科学问题
a, Object recognition in images links to classification of extreme weather patterns using a unified convolutional neural network on climate simulation data41. b, Super-resolution applications relate to statistical downscaling of climate model output72. c, Video prediction is similar to short-term forecasting of Earth system variables. Right image, courtesy of Sujan Koirala and Paul Bodesheim, Max Planck Institute for Biogeochemistry. d, Language translation links to modelling of dynamic time series (ref. 96 and figure 11 in ref. 97). Left image, courtesy of Stephen Merity (figure 1 in https://smerity.com/articles/2016/google_nmt_arch.html).
Fig. 3: 数值物理模型和机器学习的联系
An abstraction of a part of a physical system—for example, an Earth system model—is depicted here. The model consists of submodels; each submodel has parameters and forcing variables as inputs and produces output, which can be input (forcing) to another sub-model. Data-driven learning approaches can be helpful in various instances, as indicated by the circled numbers. For example, the circle labelled 2 represents hybrid modelling. See the text for more detail. ML, machine learning.
Fig. 4: 将混合模型建立解释为在添加一个或多个物理层的多层神经网络,使模型在物理上更加真实,从而深化深度学习体系结构。
a, The multilayer neural network, with n the number of neural layers and m the number of physical layers. b and c are concrete examples of hybrid modelling (circle 2 in Fig. 3). b, Prediction of sea-surface temperatures, where a motion field of the water is learned with a convolutional–deconvolutional neural network, and the motion field is further processed with a physical model to predict future states. Adapted from figure 1 of de Bezenac et al.68. c, A biological regulation process (opening of the stomatal ‘valves’ controlling water vapour flux from the leaves) is modelled with a recurrent neural network. Then a physical diffusion model is used to estimate transpiration, which in turn influences some of the drivers, such as soil moisture. The basic scheme in a is inspired by figure 1.5 in Goodfellow et al.98 and redrawn.
人工智能、深度学习、机器学习区别
人工智能(AI)是一个总括合集概念,涵盖从最早的逻辑结构的有效老式人工智能 (Good Old-Fashioned Artificial Intelligence,简称GOFAI),到最新的联结结构的深度学习(DL)。
机器学习(ML)是 人工智能(AI)的子集,涵盖一切有关数据训练的学习算法研究,包括多年来发展的一整套成熟技术,比如:
线性回归(Linear Regression,数理统计中回归分析方法);
K均值(K-means,基于原型的目标函数聚类方法);
决策树(Decision Trees,直观运用概率分析的一种图解法);
随机森林(Random Forest,包含多个决策树的分类器);
PCA(Principal Component Analysis,主成分分析,一种多变量分析方法);
SVM(Support Vector Machine,支持向量机,一种监督式学习的方法);
ANN(Artificial Neural Networks,人工神经网络,一种运算模型)。
深度学习(DL)则起源于人工神经网络(ANN)。
人工神经网络(ANN)是60年代早期发明的技术,一些机器学习(ML)从业者曾接触过,他们对深度学习(DL)的第一印象可能是:这不过是多层结构的人工神经网络(ANN)而已。此外,深度学习(DL)的成功主要是基于大量可用的数据以及更强大的计算引擎比如 GPU(Graphic Processing Units)的出现。这当然是真的,深度学习(DL)的出现基本上是受益于大数据及计算能力的发展,然而,由此得出深度学习(DL)只是一个比支持向量机(SVM)或决策树更好的算法的结论,类似于只见树木,不见森林。
问题
建议:这篇综述文章值得反复阅读,适当把相关参考引用文献挑选一部分阅读,去了解相关机器学习/深度学习专业名词。并思考两三个问题:
1.自己研究的领域有哪些部分是具备海量数据?
2.用深度学习是否能够应用,并在以往传统基础上去改进?
3.用深度学习的办法来解决新旧问题,需要搭建怎样的软硬件框架?
参考
文末彩蛋
1.文章PDF原文获取(回复:“geo_ml”)
2.相关的书籍获取(回复:“books_ml”PDF图书资源源自网络,侵删!)
有任何问题都欢迎交流探讨,共同学习进步!