大数据
-
深入理解 Hadoop (五)YARN核心工作机制浅析
深入理解 Hadoop (一)网络通信架构与源码浅析 深入理解 Hadoop (二)HDFS架构演进 深入理解 Hadoop (三)HDFS文件系统设计实现 深入理解 Hadoop…
-
代立冬:基于Apache Doris+SeaTunnel 实现多源实时数据仓库解决方案探索实践
大家好,我是白鲸开源的联合创始人代立冬,同时担任 Apache DolphinScheduler 的 PMC chair 和 SeaTunnel 的 PMC。作为 Apache F…
-
大数据 Yarn – 资源调度框架
Hadoop主要是由三部分组成,除了前面我讲过的分布式文件系统HDFS、分布式计算框架MapReduce,还有一个是分布式集群资源调度框架Yarn。 但是Yarn并不是随Hadoo…
-
Hive解析Json数组超全讲解
Hive解析Json数组超全讲解 在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据…
-
大数据概念:数据网格和DataOps
数据网格(Data Mesh) 一种新型的数据架构模式,旨在解决传统数据架构中存在的一些问题,例如数据孤岛、数据冗余、数据安全等。数据网格将数据作为一种服务,通过在分布式环境中提供…
-
mysql报错:1044 -Access denied for user ‘root‘@‘%‘ to database
目录 1.修改权限 2.赋权 使用Navicat远程连接,Docker中的mysql5.7版本中新建数据库报错: 1044 -Access denied for user ‘roo…
-
大数据技术——Flume实战案例
实战案例目录 1. 复制和多路复用 1.1 案例需求 1.2 需求分析 1.3 实现操作 2. 负载均衡和故障转移 2.1 案例需求 2.2 需求分析 2.3 实现操作 3. 聚合…
-
Kafka学习—4、消费者(分区消费、分区平衡策略、offset、漏消费和重复消费)
1、消费者 1.1 Kafka消费方式 1、pull(拉)模式:consumer采用从broker中主动拉取数据。 2、push(推)模式:Kafka没有采用这种方式。因为brok…
-
【大数据】Hadoop
目录 前言 一、概述 1. MapReduce定义、优缺点 2. MapReduce核心思想、进程 3. MapReduce编程——WordCount 二、Hadoop序列化 1….
-
【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)
文章目录 一、概述 二、 Ambari 与 HDP 关系 三、Ambari 与 Cloudera manager 的对比 1)开源性 2)支持的发行版 3)用户界面 4)功能和扩展…
-
Spark与SparkSQL的高级功能
1.背景介绍 1. 背景介绍 Apache Spark是一个开源的大规模数据处理框架,它提供了一个易于使用的编程模型,以及一系列高级功能来处理大规模数据。SparkSQL是Spar…
-
SparkCore
一、RDD详解 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分…
-
olap/spark-tungsten:codegen
15721这一章没什么好说的,不再贴课程内容了。codegen和simd在工业界一般只会选一种实现。比如phothon之前用codegen,然后改成了向量化引擎。一般gen的都是w…
-
一文带你了解MySQL之Explain执行计划
前言: 一条查询语句在经过MySQL查询优化器的各种基于成本和规则的优化会后生成一个所谓的执行计划,这个执行计划展示了接下来具体执行查询的方式,比如多表连接的顺序是什么,对于每个表…
-
解决Elasticsearch exception [type=circuit
目录 一、背景 二、异常 三、解决办法 四、解释 1、异常分析 2、查看父熔断器占据JVM最大堆内存的比例值 3、查看父熔断器占据JVM堆的具体值 4、解决查询时导入的熔断问题 一…
