spark

大数据

【Spark系列3】RDD源码解析实战

本文主要讲 1、什么是RDD 2、RDD是如何从数据中构建一、什么是RDD？ RDD：弹性分布式数据集，Resillient Distributed Dataset的缩写。个人…

1天前

Spark参数配置和调优，Spark-SQL、Config

一、Hive-SQL / Spark-SQL参数配置和调优 #设置计算引擎 set hive.execution.engine=spark; #设置spark提交模式 set sp…

大数据 1天前

2024最新Spark核心知识点总结

Spark 有哪些核心组件 master&worker：（spark独立部署模式里的概念）： master是一个进程，主要负责资源的调度和分配，进行集群的监控，类似于yar…

大数据 1天前

Spark与ApacheSqoop集成

1.背景介绍在大数据时代，数据处理和分析的需求日益增长。为了更高效地处理和分析大量数据，Apache Spark和Apache Sqoop这两种技术得到了广泛应用。本文将从以下几…

大数据 1天前

大数据

Pandas DataFrame 转 Spark DataFrame报错：AttributeError

环境说明 pandas==2.0.3 spark==3.1.2 报错内容在使用 spark 过程中，涉及将 pandas 的 DataFrame 转换为 spark 的 Data…

1天前

大数据

spark之action算子学习笔记(scala,pyspark双语言)

目录一、collect 二、count 三、first 四、take 五、takeOrdered 六、countByKey 七、foreach 八、简单案例九、一个综合案例 9…

1天前

大数据

【Spark精讲】一文讲透SparkSQL物理执行计划

SparkSQL整体计划生成流程大体分三步： (1)由 SparkSqlParser 中的 AstBuilder执行节点访问，将语法树的各种Context节点转换成对应的 Log…

1天前

Spark与ApacheCassandra集成与优化

1.背景介绍 1. 背景介绍 Apache Spark 是一个快速、通用的大数据处理框架，它可以处理批量数据和流式数据，支持多种编程语言，如 Scala、Python、R 等。Ap…

大数据 1天前

大数据

Spark搭建

Spark搭建（三种模式） Local模式主要用于本地开发测试本文档主要介绍如何在IDEA中配置Spark开发环境打开IDEA，创建Maven项目在IDEA设置中安装Sca…

1天前

Spark任务信息记录器的变更

Spark任务信息记录器的变更 @DeveloperApi注解标注的类代表 1.面向开发人员的低级、不稳定的应用程序接口。 2.可能会在 Spark 的次要版本中更改或删除。 3….

大数据 1天前

大数据

pyspark常用语法（含pandas对比）

1.排名函数 dense_rank()：相同数具有相同的排名，始终具有连续的排名值 import pyspark.sql.functions as F from pyspark.s…

1天前

Spark读写Hive

Spark读写Hive 文章目录 Spark读写Hive （一）配置本地域名映射（二）创建Hive表（三）IDEA中编写Spark代码读取Hive数据（四）IDEA中编写Sp…

大数据 1天前

spark-常用算子

一，Transformation变换/转换算子：这种变换并不触发提交作业，这种算子是延迟执行的，也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行，需要等到有Acti…

大数据 1天前

大数据

Spark SQL简介与基本用法

Apache Spark是一个强大的分布式计算框架，Spark SQL是其组件之一，用于处理结构化数据。Spark SQL可以使用SQL查询语言来查询和分析数据，同时还提供了与Sp…

1天前

数据仓库安全与隐私：保护措施与实践

1.背景介绍数据仓库安全与隐私是当今数据驱动经济的关键问题之一。随着数据的积累和分析的重要性不断提高，数据仓库的安全和隐私保护成为了企业和组织的重要议题。数据仓库安全与隐私的保护…

大数据 1天前