项目需要。记录资料。
官网
官网:https://modis.gsfc.nasa.gov/
。
Google搜关键词MODIS,第一个就是。
介绍
About和Data页面的一些简介:
数据下载
数据下载和官方产品都在Data介绍页给的第一个域名:http://ladsweb.nascom.nasa.gov/
。
里面有一个做的很详细的文件系统,可以查、下数据(主要是用最前面那个编码查)和已有产品所使用到的数据。比如MYD03/2013/001的267条数据:https://ladsweb.modaps.eosdis.nasa.gov/archive/allData/61/MYD03/2013/001/
:
下载要求注册用户和登陆。
文件命名规则
来自https://lpdaac.usgs.gov/data/get-started-data/collection-overview/missions/modis-overview/#modis-naming-conventions
,内有MODIS文件命名规则(3类)、产品长名称命名规则、时空分辨率、平铺系统(Tiling Systems)、数据处理、光谱带(1-36)、元数据(Metadata)等信息。
取MODIS/MYD03/2013/001/MYD03.A2013001.0000.061.2018043200701.hdf
:
命名字段 | 解释 |
---|---|
MYD03 | 产品短名,MOD 是Terra星(上午星)数据,MYD 是Aqua星(下午星)数据 |
A2013001 | 数据采样时间,A-YYYYDDD ,DDD表示YYYY这一年中的第几天,与上一级文件夹命名对应,意义:该数据2013年的第一天被传感器所采集 |
0000 | 数据采样时间,HHMM ,HH取值为[00,23],MM取值为[00,59],意义:该数据与00时00分(晚12时整)采集 |
061 | 数据采集版本号 |
2018043200701 | 数据生产时间,YYYYDDDHHMMSS ,Y、D、H、M同上,SS为秒,意义:2018年第43天的20时07分01秒生产了该数据 |
.hdf | 数据格式HDF-EOS |
tool
HDFView
最新的是3.1.3版本:https://portal.hdfgroup.org/display/support/HDFView+3.1.3
,多系统支持,mac系统的是110M,不翻墙下的很慢。
HDF Explore
1.4版本:https://www.space-research.org/hdf_explorer/explorer_download.htm
,只支持windows,有可视化功能,比上一个好用点,需要在网页上填写一些信息才能下载,下载还需要购买使用许可,直接从百度上找破解版。
数据说明
官网数据介绍
MYD0211KM(Level 1B Calibrated Radiances):https://ladsweb.modaps.eosdis.nasa.gov/missions-and-measurements/products/MYD021KM
MYD03:(Geolocation)https://ladsweb.modaps.eosdis.nasa.gov/missions-and-measurements/products/MYD03
MYD35(Cloud Mask):https://ladsweb.modaps.eosdis.nasa.gov/missions-and-measurements/science-domain/cloud-mask/
数据产品名称 | 解释 |
---|---|
MYD021KM | MODIS 1B |
MYD03 | MODIS数据地理定位 文件 |
MYD35 | 大气2,3级,云掩膜 ,250m/1㎞ |
文件目录
前三级目录:
第四级目录,取MODIS/MYD03/2013/001
:
数量:MYD03和MYD021KM都选的是2013年的相同天数,除了两个001内是267个文件,剩下的每个文件夹内都是288(60/5=12,24*12=288)个文件。
这里给的35是21年的02和03都是13年的,对不上。
重点字段信息
三部分产品需要联合起来用的。
MYD35
- Cloud_Mask:作为GT,为
6*2030*1354
矩阵。
MYD02
对地观测数据文件包括250米、500米和1000米分辨率的定标后的资料。
给定波段的一组探测器在沿轨道方向对齐在四个焦平面上。图象中的一条扫描线是扫描带中一个探测器的扫描观测资料。1km波段包含10个探测器
,500m波段包含20个探测器,250m波段包含40个探测器。探测器之间的扫描间距大致分别为1km、500m和250m,在扫描方向,每帧(frame)大致为1km大小
,MODIS仪器在1km波段每帧的取样率为1
,500m波段为2,250m波段为4。
EV_1KM_Emissive:热辐射波段,用来计算亮温。
EV_1KM_RefSB:太阳光反射波段,计算反射率。
MYD03
暂且不用,因为不考虑特定区域划分的话,使用02和35的文件名即可对准数据。
云检测实验
实验细节
数据:使用2013年001天的0000、0005和0010进行实验,只取用02和35产品,不使用03产品;3个hdf文件中共有320301354=
8245860
个点真值:使用35产品中,0通道数值的第1、2比特位
input:使用02产品中,
EV_1KM_Emissive的4个通道
和EV_1KM_RefSB的4个通道
数据预处理:对于真值,取第一通道数据,取00状态作为有云,其他三个状态统一处理为无云,不考虑背景的冰雪、耀斑等;对于input数据,对于不同通道的处理为
(data+offset)*scale
数据划分:训练:测试=8:2,划分后的数据量为
6596688:1649172
评估指标:同真值计算
ACC
结果
方法 | 参数设置 | 结果 |
---|---|---|
PCA+逻辑回归 | lr的max_iter=3000,PCA缩小围度范围为8-2 | 0.941/0.761/0.794/0.788/0.832/0.854/0.864 |
SVM | sklearn默认 | 0.955(100w) |
GDBT | sklearn默认 | 0.958 |
GaussianNB | sklearn默认 | 0.867 |
BP神经网络 | 三个隐藏层(50,15,5),solver=’adam’,max_iter=1000 | 0.969 |
LSTM | LSTM(100)+LSTM(50)+Dense(1),epochs=100,batch_size=128 | 0.919 |
随机森林 | n_estimators=1000 | 0.948 |
RS-Net(U-Net) | https://github.com/JacobJeppesen/RS-Net | 0.935 |
问题总结
方法流程:有两种:一是直接将HDF文件看做图像,数据处理也当作图像那样整体处理,一般是转存为TIF或者是HDF5,用图像的方法进行云检测,是部分深度学习方法的思路;另一种是把这些离散数据取出,将多通道的数据所对应的检测结果当成一个个像素点,用分类的方法进行拟合,偏向于传统机器学习的思路。
不知道到底哪种思路适合这个工程
。现状:两种方法都有应用;写论文的话,业内人士会尽量避免深度学习的方法,因为卫星数据的物理因素比较多的情况下进行数据处理会引入很大的误差;模型速度上深度方法更适合大量数据,看做图像的话要使用较多的显卡。训练数据不同种类下垫面划分:做了的话肯定有助于提高性能,属于是标数据的一部分。但对于国产数据来说,没有固定的标准,需要制定划分标准(这里可以使用Modis的),试验前做划分,且如果做了划分,就肯定要训练多个模型。
算法性能评估指标:简单的使用了ACC,是否可信未知。
算法性能比较:推荐的是
随机森林
、朴素贝叶斯
和U-Net
。实际进行下来,决策树类算法、BP的性能是第一档;U-Net性能稍差一点但是也能看,估计是因为数据量的原因,上面的数据量对于其他算法来说够了,但是对于U-Net来说肯定是少;基于高斯分布的朴素贝叶斯网络性能就一般;LSTM
的性能也算做中档,但实际上LSTM并不适合这个场景,因为数据并没有呈现序列性;SVM就不考虑了,数据量一大的话,效率太低。国产数据与MODIS数据的对齐问题:raw data经纬度对不齐。
国产数据的评估问题:真值、指标。
接下来需要做的
可以补一下Deep CNN系的方法,简单粗暴,上面说的两种思路都可以做,但主要的可能还是数值拟合。
使用MODIS的数训练FY4的,主要需要解决数据对齐、数据选择(主要是通道选择,推荐通道还需要再缩小一下提高性能)、评估,尽量上深度方法。