spark

大数据

Spark避坑系列一（基础知识）

大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模剖析及实践数据资产运营平台 Spar…

1天前

大数据之使用Spark全量抽取MySQL的数据到Hive数据库

文章目录前言一、读题分析二、使用步骤 1.导入配置文件到pom.xml 2.代码部分三、重难点分析总结前言本题来源于全国职业技能大赛之大数据技术赛项赛题-离线数据处理…

大数据 1天前

Elasticsearch与Apache Spark集成

1.背景介绍 Elasticsearch和Apache Spark都是大数据处理领域中非常重要的技术。Elasticsearch是一个分布式搜索和分析引擎，它可以实现文本搜索、数据…

大数据 1天前

大数据

Spark基础知识

一.SPark基本介绍 1.Spark是什么? 1.1 定义 Apache Spark是用于大数据处理的统一分析引擎; 1.2 Spark与MapReduce对比 MapReduc…

1天前

大数据

基于spark对美国新冠肺炎疫情数据分析

基于spark对美国新冠肺炎疫情数据分析 GCC的同学不要抄袭呀！！！严禁抄袭有任何学习问题可以加我微信交流哦！bmt1014 前言 2020年美国新冠肺炎疫情是全球范围内的一场…

1天前

大数据

字节跳动 Spark 支持万卡模型推理实践

摘要：本文整理自字节跳动基础架构工程师刘畅和字节跳动机器学习系统工程师张永强在本次 CommunityOverCode Asia 2023 中的《字节跳动 Spark 支持万卡模型…

1天前

大数据

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

本案例软件包：链接：https://pan.baidu.com/s/1zABhjj2umontXe2CYBW_DQ 提取码：1123（若链接失效在下面评论，我会及时更新）. 目录…

1天前

数据仓库的数据模型与设计：关系图形化构建

1.背景介绍数据仓库是一种用于存储和管理大量历史数据的系统，它的主要目的是为数据分析和报告提供支持。数据仓库通常包含大量的表格数据，这些数据需要进行复杂的查询和分析。为了实现高效…

大数据 1天前

Spark连接快速入门

文章最前：我是Octopus，这个名字来源于我的中文名–章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github ；这博客是记录我学习的点点滴滴，如果您对…

大数据 1天前

大数据

spark-sql字段血缘实现

spark-sql字段血缘实现背景 Apache Spark是一个开源的大数据处理框架，它提供了一种高效、易于使用的方式来处理大规模数据集。在Spark中，数据是通过DataFr…

1天前

2024.1.5 Hadoop阶段,各组件工作原理,八股文,面试题

目录 1 . 简述下分布式和集群的区别 2. Hadoop的三大组件是什么? 3. 请简述hive元数据服务配置的三种模式? 4. 数据库与数据仓库的区别? 5. 简述下数据仓库经…

大数据 1天前

大数据

hive/sparksql/presto 时区转换和时间类型转换

时间相关函数 hive 字符串与timestamp转换 select cast(current_timestamp() as string),cast(‘2023-07-28 09…

1天前

大数据

Spark中使用scala完成数据抽取任务 — 总结

如题任务二：离线数据处理，校赛题目需要使用spark框架将mysql数据库中ds_db01数据库的user_info表的内容抽取到Hive库的user_info表中，并且添加一个…

1天前

数据流的存储与管理：构建高效的数据仓库

1.背景介绍数据仓库是现代企业和组织中不可或缺的一部分，它们需要有效地存储、管理和分析大量的数据。随着数据的增长和复杂性，构建高效的数据仓库变得越来越重要。在这篇文章中，我们将讨…

大数据 1天前

大数据

2024.1.4 Spark Core ,RDD ,算子

目录一 . RDD(弹性分布式数据集) 二 . RDD的五个特性三 .RDD的五大特点四 . 算子五 . 分区算子 ,重分区算子 , 聚合算子 ,关联算子分…

1天前