随着数据量的爆炸性增长,现代企业在数据存储、处理与分析上面临巨大挑战。作为面向实时数据处理的工具,OLAP(联机分析处理)系统能帮助企业充分挖掘数据价值、辅助决策。然而,OLAP在追求高效数据分析的同时,往往难以平衡成本与效率矛盾。
快节奏的商业环境要求OLAP系统在保证数据准确性的前提下,尽可能缩短数据处理和分析的时间。但高效的数据处理往往伴随着更复杂的系统架构和更高的资源消耗,企业需要投入高昂的计算资源、服务器、存储资源等硬件成本以及大量算法优化、运维、迁移等软性成本。
在近期线上直播中,火山引擎ByteHouse则从“降本增效”角度出发,总结了自身服务抖音集团内部以及金融、游戏等外部行业经验,为企业实现效率、成本双赢提供全新解决方案。
据火山引擎ByteHouse资深产品经理介绍:“ ByteHouse已在抖音集团内部经过多年打磨,在企业降本增效大背景下,我们也通过架构、技术、生态、一体化能力升级,将一系列能力对外输出,为企业带去‘四大红利’,期望在保障查询性能基础上,尽可能降低资源成本。”
首先,“架构红利”,这也是ByteHouse极致降本的重要基石。作为一款聚焦于大规模数据分析设计的云原生数据仓库,ByteHouse通过其独特的存算分离架构,实现了资源的高效利用和灵活扩展。该架构的引入,有效解决了传统数据仓库在计算和存储资源上的紧耦合问题,使得企业可以根据实际需求独立扩展计算或存储资源,避免资源浪费。
基于存算分离架构,ByteHouse将计算资源 Shared-Nothing 和存储资源 Shared-Disk 独立扩展,用户只需根据实际业务需求灵活调整计算资源配置,无需受限于存储限制。另外,ByteHouse采用弹性计费、自动启停策略,当 VW 空闲超过 5 分钟时,自动启停 会自动关闭集群,VW在关闭期间不会产生任何费用,能帮助用户节省至少20%成本。
其次,计算和存储的独创设计,为企业带去双重“技术红利”。在计算层面,ByteHouse自研的查询优化器提升了多表查询性能,同时其点查优化技术,提升了整体系统的并发性能。据性能测试显示,ByteHouse的性能比开源ClickHouse提升了40%-50%,这意味着在相同的查询单位算力下,ByteHouse能够显著减少计算节点数量,从而降低企业的硬件成本。在存储层面,ByteHouse共享对象存储、存储分级、数据压缩等极致优化,进一步压缩了存储成本。
除了技术层面优势,ByteHouse在生态兼容性方面也表现出色。一方面,ByteHouse 支持丰富的上下游生态,包括Flink、Spark、DataX、DataSail等数据导入、加工工具; Airflow,DophinScheduler等调度工具; Superset、Tableau、FineBI、DataWind等BI工具以及语言Driver、开发工具等。另一方面,ByteHouse与ClickHouse、MySQL生态完全兼容,降低用户数据迁移门槛和迁移额外成本。
最后,ByteHouse还具备强大的“融合红利”。立足于All in One的理念,ByteHouse融合了实时查询、聚合查询、人群圈选、文本检索等各类场景,不仅简化了企业的技术栈管理,降低运维成本,还为企业提供了更加丰富和一体化的使用体验。从数据上看,以抖音集团内部举例,仅仅5个 SRE 工程师就能运维近 2 万台 ByteHouse 服务器。
值得一提的是,在湖仓融合方面,ByteHouse支持业界常见数据湖的外表连接方式,能实现多种外表和ByteHouse内表的联邦查询。同时,通过Zero-ETL技术,ByteHouse可以将数据湖中的数据自动同步到数仓中,不仅提高了分析效率,减少数据不一致问题,还降低了数据的冗余存储和转换成本。
ByteHouse极致降本的能力也在抖音集团内部以及游戏等外部场景中得到充分检验和应用。目前,抖音集团超过80%业务都基于ByteHouse部署,在存算分离架构上,ByteHouse对象存储能减少抖音集团上层软件层的副本需求,在QPS提升35%的基础上,成本降低60%。除此之外,在某头部游戏公司的应用中,ByteHouse高并发点查能力也帮助该公司在服务器核数减少30% 情况下,并发性能提升2倍。
凭借创新的OLAP架构、卓越的技术创新、广泛的生态兼容性以及强大的融合优势,ByteHouse为企业级数仓降本增效提供了有力支持,进一步助力企业加速数字化转型,实现数据驱动下的业务增长。
来源:北国网