scala
-
大数据之使用Spark全量抽取MySQL的数据到Hive数据库
文章目录 前言 一、读题分析 二、使用步骤 1.导入配置文件到pom.xml 2.代码部分 三、重难点分析 总结 前言 本题来源于全国职业技能大赛之大数据技术赛项赛题-离线数据处理…
-
Spark中使用scala完成数据抽取任务 — 总结
如题 任务二:离线数据处理,校赛题目需要使用spark框架将mysql数据库中ds_db01数据库的user_info表的内容抽取到Hive库的user_info表中,并且添加一个…
-
Scala编程 读取Kafka处理并写入Redis
部分知识(可略过) Kafka Kafka是一种分布式流处理平台,它是一个高吞吐量、可扩展、持久化的消息队列系统,用于处理实时数据流。Kafka的核…
-
Flink项目实战篇 基于Flink的城市交通监控平台(上)
系列文章目录 Flink项目实战篇 基于Flink的城市交通监控平台(上) Flink项目实战篇 基于Flink的城市交通监控平台(下) 文章目录 系列文章目录 1. 项目整体介绍…
-
大数据之Scala简介
大数据之Scala简介 一、Scala介绍 1、Scala语言特点 2、Scala和Java的关系 3、Scala的环境搭建 4、简单的Scala程序介绍 5、Scala的编译命令…
-
Windows下安装Scala(以Scala 2.11.12为例)
Windows下安装Scala(以Scala 2.11.12为例) Scala简介 产生背景 发展历史 主要功能 一、Scala2.11.12官网下载 二、Scala2.11.12…
-
十分钟带汝入门大数据开发语言Scala
大家好,我是百思不得小赵。 创作时间:2022 年 6 月 7 日 博客主页: 🔍点此进入博客主页 —— 新时代的农民工 🙊 —— 换一种思维逻辑去…
-
【Scala入门】Scala下载及安装(Windows)以及Idea创建第一个scala项目
目录 一、安装准备 二、Scala下载安装 三、Idea 创建Scala项目 一、安装准备 在安装之前,确保你的电脑上装有Jdk 8(Jdk 1.8),且环境变量配置正确。如果没有…
-
【大数据】Spark及SparkSQL数据倾斜现象和解决思路
数据倾斜 分类 join 其中一个表数据量小,key比较集中 分发到某一个或几个reduce的数据远高于平均值 大表与小表,空值过多 这些空值都由一个reduce处理,处理慢 gr…
-
hadoop3.2.4集成flink 1.17.0
前言 flink安装部署有三种方式 local:单机模式,尽量不使用 standalone: flink自带集群,资源管理由flink集群管理,开发环境测试使用,不需要hadoop…
-
数据清洗【大数据比赛长期更新】
数据清洗 1.题目分析 使用Scala编写spark工程代码,将ods库中相应表数据全量抽取到Hive的dwd库中对应表中。表中有涉及到timestamp类型的,均要求按照yyyy…
-
Flink1.14新版KafkaSource和KafkaSink实践使用(自定义反序列化器、Topic选择器、序列化器、分区器)
前言 在官方文档的描述中,API FlinkKafkaConsumer和FlinkKafkaProducer将在后续版本陆续弃用、移除,所以在未来生产中有版本升级的情况下,新API…
-
spark与scala的对应版本查看
仓库地址 https://mvnrepository.com/artifact/org.apache.spark/spark-core 总结 spark3.0 以后,不再支持 sc…
-
idea配置spark环境
1. 首先,需要准备maven的环境配置,我的idea是2021版本,(新版应该差不多) 下载maven的版本包,建议去官网下载Maven – Maven Releases Hi…
