Skip to content

Latest commit

 

History

History
165 lines (90 loc) · 5.33 KB

readme.md

File metadata and controls

165 lines (90 loc) · 5.33 KB

任务和数据

以12个月的气象图为输入,预测未来24个月的厄尔尼诺指标.

数据形式

输入

  • 12个月的气象图

  • 每月四个统计值(四张气象图):

    • 海洋表面温度,
    • 海洋热含量,
    • 经向风力,
    • 纬向风力

每个统计值覆盖24个维度,72个经度

####输入形式

[12,4,24,72]

输出

未来24个月的的厄尔尼诺指标

[24]

提交

要打包成docker提交??????????????????????????????/

数据集

  • SODA数据集:美国某部门在南太平洋某区域收集的100年的真实观测数据

    SODA_label:美国某部门统计的该区域100年的厄尔尼诺指标

  • CMIP数据集:七种理论模型模拟的将近1000年的数据

image-20210226233005322

image-20210226233011124

当前模型

[Batch,4,12,24,72]

​ ↓

四个统计值分组做卷积,变换到24个通道的形式 [Batch,4,24,3,13]

​ ↓

四个统计值特征融合,[Batch,24,252]

​ ↓

以24个通道作为24个时间点,喂给LSTM

​ ↓

得到LSTM的输出 output,(hidden,context)

​ ↓

取output作为LSTM的输出 [Batch,24,hidden_size]

​ ↓ 全连接输出层

输出 [Batch,24,1]

损失函数 : MSE

评价指标:RMSE+相关系数

当前模型问题

过小,仅3M参数

过拟合,训练集上评价指标90+,验证集只有30~40

image-20210226233114539

训练集

测试集

赛题描述

  • 大赛名称:2021数知地球AI创新挑战赛--AI助力精准气象和海洋预测
  • 赛季名称:晋级赛
  • 数据说明:
  • 数据介绍:
  • CMIP_train.nc, CMIP模式数据,包含sst t300 ua va ,分别代表海温,热含量,表面风的东西分量(纬向风),表面风的南北分量(经向风)
  • CMIP_label.nc,为对应逐月nino3.4指数标签数据
  • SODA_train.nc,观测数据,包含sst t300 ua va ,分别代表海温,热含量,表面风的东西分量(纬向风),表面风的南北分量(经向风)
  • SODA_label.nc,为对应逐月nino3.4指数标签数据
  • 是否允许使用外部数据:否
  • 是否允许使用预训练权重:否
  • md5: CMIP_train.nc:804a96f1f83392972bf547b922b953ae

数据简介

本次比赛使用的数据包括CMIP5/6模式的历史模拟数据和美国SODA模式重建的近100多年历史观测同化数据。每个样本包含以下气象及时空变量:海表温度异常(SST),热含量异常(T300),纬向风异常(Ua),经向风异常(Va),数据维度为(year,month,lat,lon)。对于训练数据提供对应月份的Nino3.4 index标签数据。

训练数据说明

每个数据样本第一维度(year)表征数据所对应起始年份,对于CMIP数据共4645年,其中1-2265为CMIP6中15个模式提供的151年的历史模拟数据(总共:151年 *15 个模式=2265);2266-4645为CMIP5中17个模式提供的140年的历史模拟数据(总共:140年 *17 个模式=2380)。对于历史观测同化数据为美国提供的SODA数据。

其中每个样本第二维度(mouth)表征数据对应的月份,对于训练数据均为36,对应的从当前年份开始连续三年数据(从1月开始,共36月),比如:

SODA_train.nc中[0,0:36,:,:]为第1-第3年逐月的历史观测数据;

SODA_train.nc中[1,0:36,:,:]为第2-第4年逐月的历史观测数据; …, SODA_train.nc中[99,0:36,:,:]为第100-102年逐月的历史观测数据。

和 CMIP_train.nc中[0,0:36,:,:]为CMIP6第一个模式提供的第1-第3年逐月的历史模拟数据; …, CMIP_train.nc中[150,0:36,:,:]为CMIP6第一个模式提供的第151-第153年逐月的历史模拟数据;

CMIP_train.nc中[151,0:36,:,:]为CMIP6第二个模式提供的第1-第3年逐月的历史模拟数据; …, CMIP_train.nc中[2265,0:36,:,:]为CMIP5第一个模式提供的第1-第3年逐月的历史模拟数据; …, CMIP_train.nc中[2405,0:36,:,:]为CMIP5第二个模式提供的第1-第3年逐月的历史模拟数据; …, CMIP_train.nc中[4644,0:36,:,:]为CMIP5第17个模式提供的第140-第142年逐月的历史模拟数据。

其中每个样本第三、第四维度分别代表经纬度(南纬55度北纬60度,东经0360度),所有数据的经纬度范围相同。

训练数据标签说明 标签数据为Nino3.4 SST异常指数,数据维度为(year,month)。

CMIP(SODA)_train.nc对应的标签数据当前时刻Nino3.4 SST异常指数的三个月滑动平均值,因此数据维度与维度介绍同训练数据一致

注:三个月滑动平均值为当前月与未来两个月的平均值。

测试数据说明

测试用的初始场(输入)数据为国际多个海洋资料同化结果提供的随机抽取的n段12个时间序列,数据格式采用NPY格式保存,维度为(12,lat,lon, 4),12为t时刻及过去11个时刻,4为预测因子,并按照SST,T300,Ua,Va的顺序存放。

测试集文件序列的命名规则:test_编号_起始月份_终止月份.npy,如test_00001_01_12_.npy。

##数据(Netcdf文件)读取方法

(1) https://www.giss.nasa.gov/tools/panoply/ panoply可视化文件

(2) Python中xarray/netCDF4 库