spark
-
掌握Spark的数据序列化和压缩技术
1.背景介绍 在大数据处理领域,Apache Spark作为一个快速、灵活的大数据处理框架,已经成为了许多企业和研究机构的首选。Spark的核心功能包括数据处理、机器学习、图形计算…
-
Flink Job 执行流程
Flink On Yarn 模式 基于Yarn层面的架构类似 Spark on Yarn模式,都是由Client提交App到RM上面去运行,然后 RM分配第一个containe…
-
Pyspark 安装(Mac M2版)
引言 本文为个人本地部署pyspark遇到的问题以及解决办法,包含个人的一些理解,仅供参考。 设备: Mac M2 安装过程 安装HomeBrew Mac 上用来管理安装包的,可能…
-
数据优化的数据湖:构建高效的数据仓库解决方案
1.背景介绍 数据湖和数据仓库都是用于存储和管理大规模数据的解决方案,但它们之间存在一些关键的区别。数据湖是一种无结构化或半结构化的数据存储,允许数据在存储过程中保持原始格式,而数…
-
Flink 数据类型 & TypeInformation信息
Flink流应用程序处理的是以数据对象表示的事件流。所以在Flink内部,我么需要能够处理这些对象。它们需要被序列化和反序列化,以便通过网络传送它们;或者从状态后端、检查点和保存点…
-
Spark大数据分析与实战笔记(第二章 Spark基础-02)
文章目录 每日一句正能量 章节概要 2.2 搭建Spark开发环境 2.2.1 环境准备 2.2.2 Spark的部署方式 2.2.3 Spark集群安装部署 一、Spark下载 …
-
Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决
文章目录 Hadoop 安装 Hive 安装 Hive On Spark 与 Spark On Hive 区别 Hive On Spark Spark On Hive 部署 Hiv…
-
PySpark实战指南:大数据处理与分析的终极指南【上进小菜猪大数据】
上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。 大数据处理与分析是当今信息时代的核心任务之一。本文将介绍如何使用PySpark(Python的Spark API)进行大…
-
Spark大数据分析与实战笔记(第二章 Spark基础-01)
文章目录 每日一句正能量 第2章 Spark基础 章节概要 2.1 初识Spark 2.1.1 Spark概述 2.1.2 Spark的特点 2.1.3 Spark应用场景 2.1…
-
Spark SQL 每年的1月1日算当年的第一个自然周, 给出日期,计算是本年的第几周
一、问题 按每年的1月1日算当年的第一个自然周 (遇到跨年也不管,如果1月1日是周三,那么到1月5号(周日)算是本年的第一个自然周, 如果按周一是一周的第一天) 计算是本年的第几周…
-
大数据|Spark介绍
前文回顾:Hive和数据仓库 目录 ?为什么会有Spark ?Spark的基本架构和组件
-
Spark学习笔记
Spark笔记 Spark介绍 Apache Spark 是一个快速、通用、可扩展的大数据处理框架,它提供了分布式数据处理、机器学习和图计算等功能。Spark 最初是由加州大学伯克…
-
基于Spark+Springboot的电商用户行为分析系统设计和实现
博主介绍:✌全网粉丝30W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术…
-
基于地震数据的Spark数据处理与分析
1.题目要求 针对全球重大地震数据进行分析,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并对结果进行数据可视化。 2.需求分析 本项目将…
-
Spark大数据分析与实战笔记(第二章 Spark基础-05)
文章目录 每日一句正能量 前言 2.5 启动Spark-Shell 2.5.1 运行Spark-Shell命令 2.5.2 运行Spark-Shell读取HDFS文件 后记 每日一…
