spark

掌握Spark的数据序列化和压缩技术

1.背景介绍在大数据处理领域，Apache Spark作为一个快速、灵活的大数据处理框架，已经成为了许多企业和研究机构的首选。Spark的核心功能包括数据处理、机器学习、图形计算…

大数据 1天前

大数据

Flink Job 执行流程

Flink On Yarn 模式基于Yarn层面的架构类似 Spark on Yarn模式，都是由Client提交App到RM上面去运行，然后 RM分配第一个containe…

1天前

大数据

Pyspark 安装(Mac M2版)

引言本文为个人本地部署pyspark遇到的问题以及解决办法，包含个人的一些理解，仅供参考。设备： Mac M2 安装过程安装HomeBrew Mac 上用来管理安装包的，可能…

1天前

数据优化的数据湖：构建高效的数据仓库解决方案

1.背景介绍数据湖和数据仓库都是用于存储和管理大规模数据的解决方案，但它们之间存在一些关键的区别。数据湖是一种无结构化或半结构化的数据存储，允许数据在存储过程中保持原始格式，而数…

大数据 1天前

Flink 数据类型 & TypeInformation信息

Flink流应用程序处理的是以数据对象表示的事件流。所以在Flink内部，我么需要能够处理这些对象。它们需要被序列化和反序列化，以便通过网络传送它们；或者从状态后端、检查点和保存点…

大数据 1天前

大数据

Spark大数据分析与实战笔记（第二章 Spark基础-02）

文章目录每日一句正能量章节概要 2.2 搭建Spark开发环境 2.2.1 环境准备 2.2.2 Spark的部署方式 2.2.3 Spark集群安装部署一、Spark下载 …

1天前

大数据

Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决

文章目录 Hadoop 安装 Hive 安装 Hive On Spark 与 Spark On Hive 区别 Hive On Spark Spark On Hive 部署 Hiv…

1天前

大数据

PySpark实战指南：大数据处理与分析的终极指南【上进小菜猪大数据】

上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。大数据处理与分析是当今信息时代的核心任务之一。本文将介绍如何使用PySpark（Python的Spark API）进行大…

1天前

大数据

Spark大数据分析与实战笔记（第二章 Spark基础-01）

文章目录每日一句正能量第2章 Spark基础章节概要 2.1 初识Spark 2.1.1 Spark概述 2.1.2 Spark的特点 2.1.3 Spark应用场景 2.1…

1天前

大数据

Spark SQL 每年的1月1日算当年的第一个自然周, 给出日期，计算是本年的第几周

一、问题按每年的1月1日算当年的第一个自然周 (遇到跨年也不管，如果1月1日是周三，那么到1月5号（周日）算是本年的第一个自然周, 如果按周一是一周的第一天) 计算是本年的第几周…

1天前

大数据｜Spark介绍

前文回顾：Hive和数据仓库目录 ?为什么会有Spark ?Spark的基本架构和组件

大数据 1天前

Spark学习笔记

Spark笔记 Spark介绍 Apache Spark 是一个快速、通用、可扩展的大数据处理框架，它提供了分布式数据处理、机器学习和图计算等功能。Spark 最初是由加州大学伯克…

大数据 1天前

后端

基于Spark+Springboot的电商用户行为分析系统设计和实现

博主介绍：✌全网粉丝30W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术…

1天前

大数据

基于地震数据的Spark数据处理与分析

1.题目要求针对全球重大地震数据进行分析，采用Python为编程语言，采用Hadoop存储数据，采用Spark对数据进行处理分析，并对结果进行数据可视化。 2.需求分析本项目将…

1天前

大数据

Spark大数据分析与实战笔记（第二章 Spark基础-05）

文章目录每日一句正能量前言 2.5 启动Spark-Shell 2.5.1 运行Spark-Shell命令 2.5.2 运行Spark-Shell读取HDFS文件后记每日一…

1天前