时空大数据是基于统一的时空参考与位置直接或间接相关联的大数据,具有位置、属性、时间、尺度、分辨率、多样性、异构性、多维性、价值隐含性、快速性等特性,通过“获取(传感网)-处理(生产)-应用(服务)”的链路,可有效赋能政务、自然资源、规划、交通、水利、管网、人口、经济、人文、社会、医疗、教育、电力、公安、军事等各行各业。随着各种传感器、遥感技术和移动设备的普及,大量的时空数据被收集和产生,需要更加高效地存储、管理和分析。传统的关系型数据库已经无法满足处理这些数据的需求,时空数据库应运而生。
Transwarp Spacture 是星环科技自主研发的分布式时空数据库。支持大规模矢量数据、时空轨迹数据、栅格瓦片数据的存储与计算,具有完备的数据查询、分析和挖掘能力,可用于时空查询分析、时空模式挖掘、时空轨迹聚类等时空轨迹数据分析场景,广泛应用于交通物流、城市管理、位置服务等场景。
近日,Spacture正式发布V9.1版本,通过分布式架构支撑海量时空大数据存储管理;原生支持矢量、栅格、瓦片、网格、轨迹、三维等多种类型时空数据;增强对轨迹数据存储处理、查询分析与挖掘计算的完整流程支持;通过标准SQL提供丰富易用的时空分析方法;优化数据结构与算法,提供多种类型索引,加快时空数据处理分析;兼容PostgreSQL生态、开源和商业主流GIS软件,提供良好国产化适配。
分布式架构,支撑海量时空大数据存储管理
Spacture由通用数据库底座和时空插件两部分组成,通用数据库底座基于分布式架构,对外兼容PostgreSQL,用户可以通过PostgreSQL协议访问Spacture;同时Spacture还提供了一系列针对时空数据的插件,原生支持了矢量、栅格、瓦片、轨迹等多种空间数据的存储。Spacture提供分布式部署能力,现有产品插件可有效提供并行查询/横向扩展/分布式事务等多项能力,解放资源瓶颈。
多种类型时空数据,为泛空间应用提供一体化时空数据存储支撑
Spacture原生支持矢量、栅格、瓦片、网格、轨迹、三维等多种常见空间、时空数据类型。针对不同数据类型提供相应索引支持,可以根据用户指定查询条件,快速筛选结果。提供基本查询和复杂分析,通过标准SQL即可实现丰富的时空分析功能。同时依托星环科技大数据基础平台TDH,联动关系表、文本、搜索引擎、文档、图数据、时序数据、向量数据等多模数据,实现对基础地理数据、动态感知数据、专题业务数据、三维模型数据、物联网实时数据的统一存储,满足海量多源异构时空数据的汇聚融合需求。
轨迹数据和实时数据支持,促进时空充分融合
轨迹数据是时空数据的重要组成部分,Spacture中提供了Transwarp Moving Object Database原生轨迹数据类型,实现了从数据采集,到数据清洗和预处理,再到存储、分析和挖掘的完整流程支撑。针对轨迹数据的存储,Spacture从时间、空间两个维度采取不同的编码和压缩方式,有效降低了轨迹数据的存储成本。通过优化3D R-tree索引,减少dead space,满足了对特定时空查询条件的快速过滤。同时提供属性查询、时空查询、距离查询、近邻查询等常见查询和轨迹相似度计算、轨迹聚类、时空模式挖掘、驻留点检测等复杂计算,并进一步将其封装为UDF,帮助用户通过标准SQL实现轨迹数据查询分析。
丰富的时空数据查询分析函数,标准SQL即可分析
Spacture针对多种类型时空数据,提供了专业的查询分析功能,并通过大量的扩展函数使复杂的时空分析可以通过简单的SQL语句完成。支持使用标准SQL进行矢量、栅格、网格数据的属性查询、空间查询、距离查询,通过自定义的Trajectory SQL可以实现对轨迹数据在特定时间段、特定空间范围内的复杂过滤。同时Spacture实现了空间距离Join、时间关系Join等多种时空连接运算,可以在SQL中直接连接两个数据集以寻找时空关联,极大简化了多个数据集的组合分析过程。此外Spacture实现了海量的时空分析函数,包括矢量数据叠加分析、缓冲区分析、路径分析、密度分析、聚类分析;栅格数据波段计算、目标识别、地形分析;轨迹数据相似性检索、轨迹聚类等多种算法。用户可以通过简单的函数调用,在SQL中完成复杂的时空分析计算。
优化数据结构与算法,多种类型时空索引,加速时空数据处理分析
Spacture提供了常见的空间索引支持,包括经典的基于tree的索引:R-tree和 KD-tree索引,以及基于空间划分的索引,比如Geohash和四叉树等基于矩形网格划分空间的索引;同时结合近年来国家提出的技术标准,实现了对地球空间网格编码、北斗网格位置码的支持。多种类型的空间索引可以充分支撑不同场景下时空数据的分析与计算,基于对应场景匹配合适索引,能够有效解决客户业务上的各类需求。
多种时空数据的可视化表达,提供便捷的交互方式
针对不同类型时空数据,Spacture提供了丰富的可视化场景,帮助用户直观的与时空数据交互。针对矢量数据,Spacture提供了道路查询、交点分析、缓冲区分析、面积计算、面积变化分析、聚类分析、道路等距分割等使用场景。支持对矢量数据进行空间维度聚合统计,帮助用户快速发现矢量数据在不同空间尺度上的分布特征;针对栅格数据可以实现多幅、多时相、大范围、大尺度遥感影像分析,为城市扩张检测、农作物生长监测、灾情评估、海岸线变化迁移等应用场景提供有效支持;针对轨迹数据既可以实现对单个目标运行速度、方向、里程等轨迹指标的统计分析,也可以通过轨迹间距离计算、轨迹聚类计算等实现多条轨迹的分析研判,起到辅助决策的效果。
兼容PostgreSQL生态、主流GIS软件、国产化软硬件
Spacture兼容PostgreSQL生态,支持快速复用PostgreSQL现有插件,支持适配用户或第三方开发的插件。同时Spacture作为基础时空数据底座,可以很好的支撑开源和商业主流GIS软件,包括QGIS、ArcGIS、超图SuperMap等,目前Spacture已经形成良好的GIS生态建设,借助GeoServer可以将Spacture中的数据发布为OGC服务。国产化方面,Spacture对飞腾、申威、鲲鹏、海光等常见国产芯片和统信、麒麟等国产操作系统都有较好的支持。
助力某气象客户建设气候监测预测分析系统,提供“数算一体”技术能力
气象行业数据种类繁多,包括各类结构化、半结构化和非结构化数据,随着互联网技术、信息化技术以及气象观测技术的迅速发展,气象数据采集频次从逐天逐时转变为逐分钟,使气象行业累积了海量数据,数据量已达到PB以上,具有典型的大数据特征。传统的计算方式无法对海量数据进行深度挖掘,在应对海量数据的高并发访问时同样遇到了处理瓶颈,导致在气象防灾减灾领域气象数据的价值无法有效的实现。
在某气象客户气候监测预测分析系统的建设过程中,用户原有海量气象格点数据以NetCDF文件的方式存储在文件系统中,并通过文件接口读取所需数据。因文件系统的效率瓶颈,这种服务方式的用户体验较差,检索困难,用户请求响应时间较长,并且无法获取指定区域的数据。
为了提高气象数据使用效率,为CIPAS系统提供数算一体的技术能力,用户选择星环科技Spacture时空数据库作为气象大数据的载体。系统重构过程中配合CIPAS 系统开发的插件,将格点数据以二进制的形式存储到Spacture数据库,以SQL函数的方式注册到数据库中,提供对格点数据的操作、查询和分析。格点数据无需下载后进行客户端计算,使得数据靠近计算端,改变传统数据下载,客户端计算的流程,实现了格点数据数算一体化。对格点数据按照Grid模型进行时间切分和格点切分,并建立空间索引,提供并行计算能力,大大提升了查询、聚合效率,最终实现高效、灵活的对外提供基于格点数据的空间服务,帮助用户在气候、海洋、灾害、大气环流、极端天气预警等业务领域实现提质增效。