spark
-
大数据开发之Spark(累加器、广播变量、Top10热门品类实战)
第 3 章:累加器 累加器:分布式共享只写变量。(executor和executor之间不能读数据) 累加器用来把executor端变量信息聚合到driver端。在driver中定…
-
Spark3的新特性
目录 Spark的五种join Broadcast hash Join Broadcast Join的条件 broadcast hash join可以分为两步 Sort Merge…
-
SparkStreaming与Kafka整合
1.3 SparkStreaming与Kafka整合 1.3.1 整合简述 kafka是做消息的缓存,数据和业务隔离操作的消息队列,而sparkstreaming是一款准实时流式计…
-
spark-flink设计思想之吸星大法-1
Spark和Flink都是大数据处理框架,它们的设计思想有一些不同之处。以下是对它们设计思想的简要对比: 数据模型和计算模型: Spark:Spark使用弹性分布式数据集(RDD)…
-
Spark原理——逻辑执行图
逻辑执行图 明确逻辑计划的边界 在 Action 调用之前,会生成一系列的RDD,这些RDD之间的关系,其实就是整个逻辑计划 val conf= new SparkConf().s…
-
Hive on Spark环境搭建
文章目录 Hive 引擎简介 环境配置 (ssh已经搭好) JDK准备 Hadoop 准备 配置集群 启动集群 LZO压缩配置 Hive 准备 Hive 元数据配置到 MySQL …
-
并行计算与大规模数据处理:Hadoop与Spark
1.背景介绍 大数据是指由于互联网、物联网等新兴技术的发展,数据量巨大、高速增长、多源性、不断变化的数据。大数据处理技术是指利用计算机科学技术,对大规模、高速、多源、不断变化的数据…
-
Spark调优解析-spark调优基本原则1(七)
1调优基本原则 1.1基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个worker,每一个worker下面…
-
Spark-RDD详解
SPARK–RDD 1、RDD的介绍 RDD 弹性分布式数据集合 是Spark中的一种数据类型,管理spark的内存数据 [1,2,3,4] spark中还有dataframe,d…
-
【1-3章】Spark编程基础(Python版)
课程资源:(林子雨)Spark编程基础(Python版)_哔哩哔哩_bilibili 第1章 大数据技术概述(8节) 第三次信息化浪潮:以物联网、云计算、大数据为标志 (一)大数…
-
基于Spark协同过滤的农产品个性推荐系统
介绍 本系统是一个基于Python技术栈开发的农产品在线交易平台。通过集成了pyspark、hadoop、django、scrapy、vue、element-plus等多个优秀开源…
-
简单使用Spark、Scala完成对天气数据的指标统计
目录 一、前言 & 什么是Spark? & 什么是Scala 二、数据准备(数据类型的转换) 三、Spark部分 1、使用Spark完成数据中的“风级”,“风向…
-
全国职业院校技能大赛-大数据 离线数据处理模块-指标计算
赛题来源2023年全国职业院校技能大赛赛题第1套任务B中指标计算模块 子任务三:指标计算 编写Scala代码,使用Spark计算相关指标。 注:在指标计算中,不考虑订单信息表中or…
-
Spark的多语言支持与生态系统
1.背景介绍 Spark是一个开源的大数据处理框架,它可以处理大量数据并提供高性能、可扩展性和易用性。Spark的核心组件是Spark Core,它负责数据存储和计算。Spark还…
-
Spark SQL将Hive表中的数据写入到MySQL数据库中
import org.apache.spark.sql.SparkSession object HiveToMySQL { def main(args: Array[String]…
