spark

大数据处理中的实时计算：Apache Flink与Spark Streaming对比

1.背景介绍随着互联网和大数据时代的到来，实时数据处理已经成为企业和组织中最关键的需求之一。实时数据处理技术可以帮助企业更快地响应市场变化，提高决策效率，提高业务竞争力。在大数据…

大数据 1天前

【Spark ML系列】Spark Instrumentation OptionalInstrumentation 功能用法示例源码

【Spark ML系列】Spark Instrumentation OptionalInstrumentation 功能用法示例源码详解点击这里看全文文章目录原理功能和使用 …

大数据 1天前

大数据

Spark的生态系统概览：Spark SQL、Spark Streaming

Apache Spark是一个强大的分布式计算框架，用于大规模数据处理。Spark的生态系统包括多个组件，其中两个重要的组件是Spark SQL和Spark Streaming。本…

1天前

大数据

[Spark、hadoop]Spark Streaming整合kafka实战

目录一．KafkaUtils.createDstream方式二．KafkaUtils.createDirectStream方式温习 Kafka是由Apache软件基金会开发…

1天前

[spark] 将dataframe中的数据插入到mysql

文章目录分区写入 `foreachPartition` 直接写入 `write.jdbc()` 有没有插入成功在插入时记录行数 `累加器` 分区写入 foreachPartit…

大数据 1天前

Spark（复习）

一、Linux基本操作 1、文件、目录操作（1）创建目录、重命名目录、删除目录 mkdir tools //在当前目录下创建一个名为tools的目录 m…

大数据 1天前

Spark之Adaptive Query Execution

文章目录 Adaptive Query Execution Coalescing Post Shuffle Partitions Spliting skewed shuffle p…

大数据 1天前

大数据

spark：RDD编程（Python版）

RDD运行原理 RDD设计背景许多选代目前的MapReduce框架都是把中间结果写入到稳定存储 (比如磁盘)中带来了大量的数据复制、磁盘IO和序列化开销 RDD就是为了满足这种需…

1天前

Spark与HadoopMapReduce

1.背景介绍 Spark与HadoopMapReduce是大数据处理领域中两种非常重要的技术。Spark是一个快速、灵活的大数据处理框架，可以处理批处理和流处理任务。HadoopM…

大数据 1天前

hive的引擎mapreduce、tez和spark对比

hive引擎简介 Hive 的执行引擎包括以下几种： Hive on MapReduce Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive …

大数据 1天前

大数据

【Spark精讲】一文讲透SparkSQL聚合过程以及UDAF开发

SparkSQL聚合过程这里的 Partial 方式表示聚合函数的模式，能够支持预先局部聚合，这方面的内容会在下一节详细介绍。对应实例中的聚合语句，因为 count 函数支持 …

1天前

spark读sqlserver出现的异常

前言 Spark通过JDBC读取数据之前很早写过一篇博客，本以为所有通过jdbc读取的方式都一样，谁知道这次读sqlserver的时候竟然出现的很多异常，这里把异常的问题进行记录。…

大数据 1天前

大数据

hive location更新&hive元数据表详解

1.hive location更新方式一、通过修改表DDL： alter table table_name set location ‘hdfs://nm:8020/table_…

1天前

使用spark进行递归的可行方案

在实际工作中会遇到，最近有需求将产品炸开bom到底层，但是ERP中bom数据在一张表中递归存储的，不循环展开，是无法知道最底层原材料是什么。在ERP中使用pl/s…

大数据 1天前

大数据

字节跳动 MapReduce – Spark 平滑迁移实践

摘要：本文整理自字节跳动基础架构工程师魏中佳在本次 CommunityOverCode Asia 2023 中的《字节跳动 MapReduce – Spark 平滑迁移…

1天前