近年来,数据要素市场建设成为推动中国数字经济发展的重要战略,国家先后出台多项政策深化数据要素市场化配置改革,激活数据要素潜能、释放数据要素价值、推动数字经济赋能实体经济发展成为大数据产业发展的重要方向。数据科学是为数字经济提供基础与技术支撑的学科,其主要涵盖数据集成、数据治理、数据建模、数据分析、数据服务、数据安全等内容,涉及到数据价值实现的全生命周期过程,对全面释放数据要素价值具有重要作用。
近日,赛迪顾问云计算与大数据产业研究中心编制了《2023中国数据科学市场研究报告》,报告对2022年数据科学发展现状、市场规模、竞争格局、重点企业等方面进行了分析,并研判了数据科学未来的发展趋势。
大模型、实时治理和多模态分析助力数据科学发展
2023年大模型成为最具热度的话题之一,大模型的兴起将为数据科学市场带来新的机遇和创新。作为先进的深度学习模型,大模型可更快地改进现有的数据集和训练模型,同时,可帮助数据科学家解决数据增强和异常检测等实际问题。通过将大模型应用于数据预处理、特征工程、模型解释、可视化和报告等任务,可以提高数据科学家的工作效率和结果的可理解性,帮助其提供更准确、更深入的洞察和决策支持,进一步加强数据科学的实践应用。
实时数据治理和多模态融合分析也成为数据科学市场的重要方向。当前,包括文本、图像、音频等多模态数据产生的速度呈现指数级增长,面对海量复杂的大数据环境,数据科学厂商不断重视实时数据治理和多模态融合分析技术的发展,实时数据治理帮助企业实时监控数据质量、处理数据异常、识别数据风险等,以确保数据的准确性和可靠性,多模态数据融合分析技术帮助企业更全面地理解和挖掘数据中的信息,提供更准确全面的洞察和即时决策支持。
中国数据科学市场依旧保持较快增长
2022年,中国数据科学市场取得了较好的发展,市场增长率达到22.4%。推动市场发展的原因主要是在政策的引导下,政府和企业对应用数据科学来应对数据驱动决策的需求增加,推动了数据科学市场的蓬勃发展。
1、全球数据科学市场规模
2020-2022年,受到全球新冠疫情的影响,许多传统产业加快了数字化转型的步伐,企业在数字化转型过程中越来越重视数据科学的应用,从而推动了数据科学市场规模的增长。与此同时,人工智能技术的快速发展也推动了数据科学市场的扩大,人工智能应用的扩展需要大量的数据进行训练和优化,数据科学是支撑人工智能和机器学习的重要基础,这促使企业加大对数据科学的投资和需求,推动了数据科学市场的增长。2022年,全球数据科学市场规模表现出较好的增长态势,市场规模达到123.8亿美元,2020-2022年全球数据科学市场规模复合增长率为22.2%。
图 1 2020-2025年全球数据科学市场规模及预测
2、中国数据科学市场规模
2020-2022年,中国持续推动数据要素市场建设,数据资源化、资产化趋势加快,湖仓一体化、流批一体技术获得较大发展,进一步促进了数据科学市场的发展,市场规模复合增长率为25.4%。2022年,中国数据科学市场规模达到120.6亿元,增长率为22.4%,未来三年中国数据科学市场规模复合增长率有望达到28.1%。
图 2 2020-2025年中国数据科学市场规模及预测
数据来源:赛迪顾问 2023,07
3、数据科学中国企业出海市场规模
近年来,国家积极推动和实施“一带一路”共建倡议,中国的数据科学企业将出海作为战略选择之一。中国企业通过国内市场的历练,积累了较为丰富的技术经验和实力,为了寻求更大的市场份额和发展空间,积极寻求国际市场的拓展。2022年,数据科学中国企业出海市场规模达到19.6亿元,未来三年市场规模复合增长率有望达到25.1%。随着经济全球化的发展,中国企业将积极寻求与国际合作伙伴建立战略伙伴关系,共同开拓海外市场,促进技术共享、资源整合和市场拓展,实现互利共赢的局面。
图 3 2020-2025年数据科学中国企业出海市场规模及预测
数据来源:赛迪顾问 2023,07
4、竞争格局
近两年,包括云厂商、大数据厂商和人工智能厂商在内的多类厂商都在积极布局数据科学。但由于数据科学涉及领域较广,大数据和人工智能技术的融合也存在一定的挑战,目前还没有出现绝对的领军企业,但主流供应商正在多方面构建竞争壁垒,进一步扩大了市场份额。为了实现竞争优势,多数企业都在寻求差异化的发展策略,选择在特定行业、领域或应用场景中专注发展,提供定制化的数据科学解决方案从而更好地满足行业客户的需求。在主流供应商中,阿里云、华为云处于领先地位,第四范式、创新奇智和百分点科技紧随其后。
图 4 2022年中国数据科学市场份额
数据来源:赛迪顾问 2023,07
数据科学计算分析能力不断增强,逐步向更多领域应用
随着人工智能大模型、实时数据治理和多模态数据融合分析等技术的发展,以及底层芯片和内存的迭代更新,数据科学厂商将具备更加多元化的模型和算法,更强大的数据计算和分析能力,推动更多领域应用数据科学。
未来,数据科学将主要呈现以下发展趋势:一是AI大模型赋能数据科学,其将为数据科学提供更智能化的算法和模型,实现更精准的数据分析和预测,提升决策的效率和准确性;二是可解释性和可靠性,数据科学将关注模型的可解释性,通过可解释性机器学习和因果推断模型等方法使算法决策更加透明、公正和可理解;三是自动化和自助式分析,自动化和自助式分析工具将继续发展,使非专业的用户也能够进行数据分析和机器学习建模;四是边缘计算和物联网的结合,为数据科学提供更多的数据源和场景,实现对边缘数据的实时分析和决策;五是数据与应用进一步分离,数据将不再依赖于具体的业务场景,以更为独立的形态而存在,向不同的业务场景提供服务,数据要素化将为数据科学提供更好的数据基础和环境以及更灵活高效的数据访问和共享方式,促进数据科学的发展。