大数据 | 第33页 | 协通编程

大数据

深入理解 Hadoop （五）YARN核心工作机制浅析

深入理解 Hadoop （一）网络通信架构与源码浅析深入理解 Hadoop （二）HDFS架构演进深入理解 Hadoop （三）HDFS文件系统设计实现深入理解 Hadoop…

1天前

大数据

代立冬：基于Apache Doris+SeaTunnel 实现多源实时数据仓库解决方案探索实践

大家好，我是白鲸开源的联合创始人代立冬，同时担任 Apache DolphinScheduler 的 PMC chair 和 SeaTunnel 的 PMC。作为 Apache F…

1天前

大数据

大数据 Yarn – 资源调度框架

Hadoop主要是由三部分组成，除了前面我讲过的分布式文件系统HDFS、分布式计算框架MapReduce，还有一个是分布式集群资源调度框架Yarn。但是Yarn并不是随Hadoo…

1天前

Hive解析Json数组超全讲解

Hive解析Json数组超全讲解在Hive中会有很多数据是用Json格式来存储的，如开发人员对APP上的页面进行埋点时，会将多个字段存放在一个json数组中，因此数据平台调用数据…

大数据 1天前

大数据

大数据概念：数据网格和DataOps

数据网格（Data Mesh）一种新型的数据架构模式，旨在解决传统数据架构中存在的一些问题，例如数据孤岛、数据冗余、数据安全等。数据网格将数据作为一种服务，通过在分布式环境中提供…

1天前

大数据

mysql报错：1044 -Access denied for user ‘root‘@‘%‘ to database

目录 1.修改权限 2.赋权使用Navicat远程连接，Docker中的mysql5.7版本中新建数据库报错: 1044 -Access denied for user ‘roo…

1天前

大数据

大数据技术——Flume实战案例

实战案例目录 1. 复制和多路复用 1.1 案例需求 1.2 需求分析 1.3 实现操作 2. 负载均衡和故障转移 2.1 案例需求 2.2 需求分析 2.3 实现操作 3. 聚合…

1天前

大数据

Kafka学习—4、消费者（分区消费、分区平衡策略、offset、漏消费和重复消费）

1、消费者 1.1 Kafka消费方式 1、pull（拉）模式：consumer采用从broker中主动拉取数据。 2、push（推）模式：Kafka没有采用这种方式。因为brok…

1天前

大数据

【大数据】Hadoop

目录前言一、概述 1. MapReduce定义、优缺点 2. MapReduce核心思想、进程 3. MapReduce编程——WordCount 二、Hadoop序列化 1….

1天前

大数据

【大数据】大数据 Hadoop 管理工具 Apache Ambari（HDP）

文章目录一、概述二、 Ambari 与 HDP 关系三、Ambari 与 Cloudera manager 的对比 1）开源性 2）支持的发行版 3）用户界面 4）功能和扩展…

1天前

Spark与SparkSQL的高级功能

1.背景介绍 1. 背景介绍 Apache Spark是一个开源的大规模数据处理框架，它提供了一个易于使用的编程模型，以及一系列高级功能来处理大规模数据。SparkSQL是Spar…

大数据 1天前

大数据

SparkCore

一、RDD详解 1.1 什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分…

1天前

大数据

olap/spark-tungsten：codegen

15721这一章没什么好说的，不再贴课程内容了。codegen和simd在工业界一般只会选一种实现。比如phothon之前用codegen，然后改成了向量化引擎。一般gen的都是w…

1天前

数据库

一文带你了解MySQL之Explain执行计划

前言：一条查询语句在经过MySQL查询优化器的各种基于成本和规则的优化会后生成一个所谓的执行计划，这个执行计划展示了接下来具体执行查询的方式，比如多表连接的顺序是什么，对于每个表…

1天前

数据库

解决Elasticsearch exception [type=circuit

目录一、背景二、异常三、解决办法四、解释 1、异常分析 2、查看父熔断器占据JVM最大堆内存的比例值 3、查看父熔断器占据JVM堆的具体值 4、解决查询时导入的熔断问题一…

1天前