相关文章
自建大数据平台迁移腾讯云EMR最佳实践
2024-11-10 16:53

1890c133be7b33590a3eb83c85f2cba4.gif

自建大数据平台迁移腾讯云EMR最佳实践

自建开源大数据平台会随着企业数据的增长遇到:性能慢、扩容周期长、平台稳定性差、运维难、投入成本高等问题。在这里我们将从 EMR 的简介、EMR与自建Hadoop对比优势、自建迁移上云的实践案例来介绍 EMR 是如何解决这些问题的。

弹性 MapReduce (EMR) 是基云原生技术和泛 Hadoop 生态开源技术的安全、低成本、高可靠的开源大数据平台,组件完全源于开源社区,您可以将现有 IDC 或云上自建的大数据集群无缝平滑迁移至腾讯云EMR上。

腾讯云 EMR 产品集成了社区中常见的热门组件,包括但不限于 Hadoop、Hive、Hbase、Spark、Presto、Impala、Flink、Sqoop、Hue、Iceberg、Starrocks 等,可以满足您对大数据在线业务、离线/在线数据仓库、云原生数据湖构建、实时流式计算等全方位场景的需求。

腾讯云弹性 EMR 核心产品能力如下图所示

2e768ac743681292bd117d85d06dc1a8.png

● EMR集成了30+开源大数据组件,提供Hadoop2/3的多版本组件集供用户选择,您可以根据场景按需选择使用的组件,一键分钟级拉起云上大数据平台。

● 云原生大数据平台支持存储计算分离架构,解决传统自建平台扩容滞后、资源利用率低的挑战。存算分离架构下可实现基于COS数据分层存储,计算资源弹性按需使用,提升资源利用率,降低闲置成本。

● 在您使用过程中,可以通过EMR控制台界面可视化管理集群,包括服务启停、配置管理、脚本下发等;并提供涵盖集群、节点、服务累计1000+丰富监控指标,支持多渠道配置告警;EMR也提供了Yarn作业查询、Impala查询分析、HDFS文件存储分析等高阶洞察功能,帮助您显著提升大数据集群及业务运维效率。

相比使用开源Hadoop发行版本自建大数据平台,腾讯云EMR有以下主要优势

1)  集群轻松构建、运维管理功能丰富易用,便于使用及维护

i. 基于开源Hadoop发行商软件构建大数据平台周期长,技术复杂度高,配套开发、运维、监控等工具不完善,且无法得到有效技术支持,需投入较大人力成本进行支撑及维护。

ii.腾讯云EMR可一键快速构建集群,发行版经过充分兼容性测试验证;控制台提供丰富运维、监控工具开箱即用,大幅降低使用及运维成本;除此之外腾讯提供的专业技术支持,也可以帮助客户快速定位并解决问题。

2)  计算资源按需弹性使用,数据可分层存储,资源利用率高

i. 自建大数据平台在服务器资源上一般需提前预估,并且针对业务峰值做一定的的预留,导致资源利用率低,面临计算需求的潮汐变化应对也非常不灵活。

ii. 腾讯云EMR支持灵活的弹性伸缩,资源按需使用,分钟级即可完成扩缩,并且可以根据业务变化的负载或者时间周期进行计算资源自动伸缩。初次之外,您的大数据服务也可以部署在容器服务上;存储方面也支持存算分离架构,可以对数据分层存储,为客户大幅降低存算资源成本。

3) 开源组件持续加固优化,稳定性及性能更有

i. 自建大数据平台一般采用开源社区版本组件,兼容性问题、组件缺陷需自行处理。性能也需自行优化,如需使用社区新版本组件或前沿技术栈搭建及测试成本高。

ii. 腾讯云EMR结合内部大规模实践经验,核心组件如 Hadoop、Hbase 等引入了天穹Oteam 版本,兼容开源并提供有效的稳定性加固。除此之外,新兴技术栈提供丰富优势特性,如 Iceberg 支持 Z-Order 优化可提升场景化性能10倍以上。在云产品敏捷迭代下,用户也可以便捷的基于社区最新稳定版组件构建集群,轻松使用 StarRocks、Iceberg 等新兴实时湖仓技术。

4)全栈安全防护策略,云上环境及数据更安全

i. 自建大数据平台从底层到服务层安全能力需自行构建,复杂度高,覆盖不完整,配套审计能力不完善,存在较多隐患及风险。

ii. 腾讯云 EMR 提供从硬件、网络、操作系统、大数据服务全栈易用的安全防护能力。提供 CVM 主机安全防护,异常告警;支持云硬盘加密,对象存储 COS 加密;网络层面支持 VPC 网络隔离管理,网络安全组设置;集群支持基于 Kerberos+LDAP 安全架构,身份认证确保集群访问安全,并提供基于 Ranger 的多种策略的数据权限管理。

5)无缝对接云生态服务,快速构建完整配套能力

i. 自建大数据平台如数据开发工具等配套能力需自行构建,成本高、周期长。

ii. 腾讯云 EMR 可轻松与 Wedata 数据开发平台、BI 商业智能分析产品无缝对接,帮助客户低门槛、快速构建数据集成、数据开发、数据可视化等服务。除此之外,EMR还支持云监控、云审计等周边服务,助力客户快速构建云上企业智能生态。

589e375b98058f0ee6fd2396f30d5270.png

三、  自建迁移上云最佳实践案例

案例一:某教育头部客户

【客户背景】

该客户是中国国内在线教育引领者,一直致力于用科技手段助力教育普惠,运用人工智能、大数据等前沿技术,为学生、老师、家长提供更高效的学习、教育解决方案,智能硬件产品等。

【核心痛点】

客户在使用腾讯云EMR服务前,主要采取CDH自建方式维护自身开源大数据集群。但随着业务爆发式增长,数据量暴涨,为了应对不同业务场景时效性需求,该客户曾尝试采用众多技术方案并且不断扩容离线集群的规模,还是无法完全满足业务需求,基于CDH自建hive体系的核心报表无法按时产出,严重影响数据分析工作及企业经营决策。

【解决方案】

针对客户海量数据离线数仓时效性以及上云后安全性等核心诉求,腾讯云弹性 MapReduce 提出两种解决方案

湖仓一体方案推动数据湖iceberg技术落地,于腾讯云EMR的Iceberg独有能力,帮助客户将基于hive的PB级报表体系迁移至iceberg数据湖,通过Z-Order优化后报表计算性能显著提升,改善核心报表效率,同时综合降低成本

权限统一方案主导存算分离权限统一方案,基于产品统一权限管控能力,增加扩展能力,该方案中将对象存储(cos)作为权限管控的一种资源,统一权限管理,解决权限管控不统一问题

【迁移效果】

场景化查询效率提升10倍通过腾讯云弹性 MapReduce 的Iceberg特性优化、缓存加速、存算分离智能分层等应用,提高场景化查询了近10倍性能。另外通过腾讯云EMR提供的Iceberg外部Matastore功能,降低了客户元数据改造成本,几乎零改造实现Iceberg元数据接入。

固定算力降低5000核通过EMR计算节点弹性扩缩、容器资源在离线调度等云原生能力,避免闲置资源浪费、降低综合成本。

案例二:某行业工具头部客户

【客户背景】

中国领军的企业云端商业及营销解决方案提供商,同时也是中国领军的精准营销服务提供商。为更好服务客户自身BI、搜索、营销、推荐等业务场景,需要一套稳定、高性能的大数据解决方案。

【核心痛点】

由于客户业务发展迅猛、数据量剧增,原来基于黑石物理机+CDH自建的大数据平台逐步出现了黑石节点扩容周期长、CDH组件版本老、不丰富、无法覆盖数据湖等新增业务场景的弊端。同时由于CDH集群组件较多、平均bug修复周期较长,客户不得不投入较多人力进行运维。综合而言为支持业务的快速发展,客户大数据团队不得不在自建集群的扩容、新业务场景支持、平台稳定性与运维等方面投入大量成本与人力。

【解决方案】

腾讯云EMR提供了一键构建集群能力,满足业务高峰时段分钟级别弹性扩缩容,对集群计算和存储组件的深度集成,满足客户多租户认真和表级别、字段级别颗粒度授权能力。

自动扩缩容能力能够基于时间和负载两种策略弹性伸缩计算节点,满足客户在离线和即席分析场景在不同时间段的资源需求。登录鉴权、索引在文档字段级别的权限管理能力,为集群安全访问提供了稳固的保障。集成对象存储COS功能让备份变得简单。多可用区能力为集群提供了在城市电力或网络异常情况下的容灾保障。

【迁移效果】

通过引入腾讯云EMR,客户集群的交付效率提升10倍。

集群分钟级弹性能力帮助客户轻松应对活动期间流量剧增的压力。

腾讯云EMR安全体系让业务的安全性、高可用性获得了更有利的保障。

四、  迁移方案与购买优惠

在决策上云之后,会将数据和分析任务迁移到腾讯云EMR,我们为您提供IDC自建迁移EMR方案实践与定制迁移 EMR 方案。

● 迁移方案实践

领取链接

https://drive.weixin.qq.com/s?k=AJEAIQdfAAod5vyDEGAFcADQaEACc#/preview?fileId=i.1970325010981265.1688850523229527_f.6789599412zz1

● 定制迁移方案

领取链接

https://cloud.tencent.com/apply/p/5tjcbikd2f7

目前购买 EMR 可享受 3年55折优惠。

选购链接https://buy.cloud.tencent.com/emr

    以上就是本篇文章【自建大数据平台迁移腾讯云EMR最佳实践】的全部内容了,欢迎阅览 ! 文章地址:http://dh99988.xhstdz.com/news/872.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://dh99988.xhstdz.com/mobile/ , 查看更多   
最新文章
99%亚马逊运营都不知道的“以图找同款”功能!
亚马逊已与各大社交媒体平台达成了合作,在社媒平台的分享按钮中,多了一个亚马逊图标。大家可以理解为:从社媒平台到亚马逊平台
如何通过百度网站链接提交提升企业在搜索引擎中的知名度与排名
目前,数字化新时代盛行之际,网络的广泛应用使得网站成为企业展现自身、招揽顾客及拓展市场的重要载体。然而,仅有网站并非万能
电脑磁盘分区格式GPT和MBR哪个好 电脑磁盘分区格式GPT和MBR对比【详解】
  最近不少用户在安装电脑的时候经常会安装新的电脑硬盘,在新的电脑硬盘安装的时候,电脑都会提示用户需要进行初始化磁盘,并
百度seo排名优化是什么?
在当今这个数字化和信息化的时代,搜索引擎已经成为人们获取信息、寻找服务的重要工具。百度,作为中国非常大的搜索引擎,其排名
永州SEO优化,企业品牌腾飞的关键策略
永州SEO推广排名,助力企业品牌崛起。通过优化关键词、提升网站质量、布局搜索引擎算法,提高企业网站在搜索引擎中的排名,吸引
百度新网站收录揭秘:内容质量决定速度,SEO优化引爆排名
百度新网站收录情况近期,公众重点关注了百度搜索引擎针对新型网站的收录状况。作为网站主与网络市场推广从业者,网站于搜索引擎
SEO营销咨询,企业互联网转型的高效秘籍
SEO营销咨询,企业互联网转型的得力助手!我们提供专业的SEO策略,提升网站排名,增强网络曝光,助力企业高效转型,抢占市场先机
电商seo做法 电商SEO优化实战技巧揭秘
电商SEO:解锁流量与转化的秘密武器在当今这个数字化时代,电子商务已成为全球经济不可或缺的一部分随着市场竞争的日益激烈,如
2024年最顶尖的AI驱动SEO工具|TodayAI
在当今数字营销的竞争环境中,获得搜索引擎的高排名至关重要,因为它直接关联到网站的有机流量和品牌的在线影响力。
AI在创造还是毁掉音乐?深度学习时代的音乐变革
近一个月来,音乐界迎来了一场由人工智能主导的变革。随着多个音乐大模型的相继亮相,AI技术一举将音乐创作的门槛降
相关文章