从今年8月开始,中国科学院深圳先进技术研究院(以下简称“深圳先进院”)云计算研究中心副主任王洋几乎每周都会到深圳市广道数字技术有限公司(以下简称“广道数字”)“打卡授课”,而“听课”的学生既有该公司员工,也有深圳先进院的博士生。
广道数字董秘赵璐告诉记者,今年8月,深圳先进院与广道数字签约成立“大数据AI技术创新联合实验室”,“这是我们专门为联合实验室打造的办公室和实验场地,方便企业和深圳先进院两边人员随时交流,加速系统研发和成果落地”。
据王洋介绍,联合实验室将利用“AI+大数据”技术,围绕“湖仓一体与智能计算”“公安政务知识图谱构建分析优化”“工业场景安全生产机器视觉”三大领域展开技术研发,有效解决企业在数字化转型过程中遇到的数据治理问题及公安政务和工业生产等垂直领域的应用决策问题。
AI助力挖潜大数据价值
当前,数据驱动的人工智能正在改变着各行各业,“AI+大数据”成为当下的热门话题之一。一方面,大数据可以为AI技术提供训练数据支持;另一方面,AI技术也可以通过算法来提取大数据内涵的价值。
“‘AI+大数据’已经成为企业从数字化向数智化发展的必然选择。”赵璐表示,乘着这个“风口”,广道数字希望把AI技术和大数据技术结合起来,去助力企业的数字化转型。“了解到深圳先进院的先进计算与数字工程研究所有这方面的技术积累,我们也有应用场景,于是就‘一拍即合’了。”
据悉,未来,在双方合作的过程中,深圳先进院将发挥自身科研优势,快速提升广道数字的技术水平和产品竞争力,广道数字将根据自身多年积累的产品化经验和数据资源,为深圳先进院提供更加丰富的应用场景,实现双方优势互补。
那么,“AI+大数据”将产生何种“化学反应”?
王洋表示,两者结合将有助于更好地挖掘大数据的价值,实现数据高效应用。“企业做数据治理的最终目标是为了挖掘数据价值,并非只是简单存储。从这个角度来说,AI为大数据的价值挖潜提供了极大的助力。”
“‘AI+大数据’主要是帮助企业的业务部门或决策部门更好地发现数据之间的规律,联合实验室是从数据治理的完整过程来审视大数据技术和AI技术的,最终是让技术服务于企业的业务与发展。”王洋说。
“湖仓一体”打破大数据孤岛
企业数字化转型,往往需要存储和处理大量的数据。如何以高质量的数据治理激活数据要素潜能、释放数据要素价值,成为企业数字化转型过程中亟需解决的问题。
随着科技的发展,数据的保存形式已经从传统的文件和数据库技术,发展到现在的数据湖、数据仓库技术。数据的存储介质和架构发生了翻天覆地的变化。目前,大数据存储与管理的主流架构有数据库、数据仓库、数据湖三种。
目前,很多企业不得不在内部建立了多种数据存储结构用来存储数据,当需要低成本存储数据时,企业就把数据迁移到数据湖中,当需要对数据进行实时分析时,又把数据湖的数据复制到数据库中。
“久而久之,两者就出现了割裂,形成‘一湖多仓’的管理架构,导致数据孤岛和数据沼泽等现象。”王洋说,传统的大数据处理平台通常将数据存储在数据湖和数据仓库中,分别用于存储原始数据和经过加工处理的数据。
“AI+大数据”如何打破数据孤岛,助力企业数字化转型?联合实验室将聚焦“必杀技”——湖仓一体。
“‘湖仓一体’的数据处理与存储架构,可实现数据湖和数据仓库一体化,使得原始数据与加工后的数据可以更加高效流动和交互,既可以同时存储结构化和非结构化数据,也具备实时处理数据、支持用户的BI(Business Intelligence,商业智能)、AI以及DS(Data Science,数据科学)应用对数据访问的需求,提升数据的利用效率。”王洋介绍道。
打造数字化转型“底座”
“事实上,‘湖仓一体’本质上是一个大数据存储架构,类似于一个高级的‘数据库’。”王洋说,当有企业尤其是中小企业数字化转型需要数据治理的时候,就可以用上这套技术架构和解决方案。
有了这套“AI+大数据”赋能的“底座”,许多数字化转型的应用场景都可以直接“套上”。比如在工业园区,通过开发和优化机器视觉技术,基于湖仓底座可以对工业场景中的图像和视频数据进行智能分析和监测,例如产线的运行情况、工人的工作状态等,进而提升工业安全生产的效率和质量。
从产业链角度来看,这一技术的研发也将助力深圳“20+8”产业集群发展。
“‘数据库’是我们在信息化建设和数字化转型过程中势必要用到的基础软件,也是深圳‘20+8’产业集群政策中‘软件与信息服务产业集群’重点规划需要突破的问题。”王洋表示,“湖仓一体”未来可能会成为替代现有数据存储架构的方案之一,联合实验室的成立将有助于“湖仓一体”在核心部件上实现自主研发和国产替代,为基础软件的国产化贡献一份力量。
据了解,联合实验室目前已经完成了相关项目的技术预研与可行性分析,正在进行关键模块的研发。未来,联合实验室的研究成果将会应用在各行各业的数字化转型过程中,为企业在转型过程中的数据治理环节提供相关产品和工具,主要包括结构化与非结构化数据汇聚与存储管理、数据质量管理、元数据管理、数据分级分类、数据建模与数据开发、数据可视化呈现等场景。