spark

大数据

大数据开发之Spark（累加器、广播变量、Top10热门品类实战）

第 3 章：累加器累加器：分布式共享只写变量。（executor和executor之间不能读数据）累加器用来把executor端变量信息聚合到driver端。在driver中定…

1天前

大数据

Spark3的新特性

目录 Spark的五种join Broadcast hash Join Broadcast Join的条件 broadcast hash join可以分为两步 Sort Merge…

1天前

大数据

SparkStreaming与Kafka整合

1.3 SparkStreaming与Kafka整合 1.3.1 整合简述 kafka是做消息的缓存，数据和业务隔离操作的消息队列，而sparkstreaming是一款准实时流式计…

1天前

spark-flink设计思想之吸星大法-1

Spark和Flink都是大数据处理框架，它们的设计思想有一些不同之处。以下是对它们设计思想的简要对比：数据模型和计算模型： Spark：Spark使用弹性分布式数据集（RDD）…

大数据 1天前

大数据

Spark原理——逻辑执行图

逻辑执行图明确逻辑计划的边界在 Action 调用之前，会生成一系列的RDD,这些RDD之间的关系，其实就是整个逻辑计划 val conf= new SparkConf().s…

1天前

大数据

Hive on Spark环境搭建

文章目录 Hive 引擎简介环境配置（ssh已经搭好） JDK准备 Hadoop 准备配置集群启动集群 LZO压缩配置 Hive 准备 Hive 元数据配置到 MySQL …

1天前

并行计算与大规模数据处理：Hadoop与Spark

1.背景介绍大数据是指由于互联网、物联网等新兴技术的发展，数据量巨大、高速增长、多源性、不断变化的数据。大数据处理技术是指利用计算机科学技术，对大规模、高速、多源、不断变化的数据…

大数据 1天前

大数据

Spark调优解析-spark调优基本原则1（七）

1调优基本原则 1.1基本概念和原则首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面…

1天前

Spark-RDD详解

SPARK–RDD 1、RDD的介绍 RDD 弹性分布式数据集合是Spark中的一种数据类型，管理spark的内存数据 [1,2,3,4] spark中还有dataframe，d…

大数据 1天前

大数据

【1-3章】Spark编程基础(Python版)

课程资源：（林子雨）Spark编程基础(Python版)_哔哩哔哩_bilibili 第1章大数据技术概述（8节）第三次信息化浪潮：以物联网、云计算、大数据为标志（一）大数…

1天前

大数据

基于Spark协同过滤的农产品个性推荐系统

介绍本系统是一个基于Python技术栈开发的农产品在线交易平台。通过集成了pyspark、hadoop、django、scrapy、vue、element-plus等多个优秀开源…

1天前

大数据

简单使用Spark、Scala完成对天气数据的指标统计

目录一、前言 & 什么是Spark？ & 什么是Scala 二、数据准备（数据类型的转换）三、Spark部分 1、使用Spark完成数据中的“风级”，“风向…

1天前

全国职业院校技能大赛-大数据离线数据处理模块-指标计算

赛题来源2023年全国职业院校技能大赛赛题第1套任务B中指标计算模块子任务三：指标计算编写Scala代码，使用Spark计算相关指标。注：在指标计算中，不考虑订单信息表中or…

大数据 1天前

Spark的多语言支持与生态系统

1.背景介绍 Spark是一个开源的大数据处理框架，它可以处理大量数据并提供高性能、可扩展性和易用性。Spark的核心组件是Spark Core，它负责数据存储和计算。Spark还…

大数据 1天前

Spark SQL将Hive表中的数据写入到MySQL数据库中

import org.apache.spark.sql.SparkSession object HiveToMySQL { def main(args: Array[String]…

大数据 1天前