大数据
-
大数据和网络复习
大数据挖掘与技术部分 基本概念: 数据预处理是指在进行数据分析和建模之前,对原始数据进行清洗、转换、集成和规约等操作的过程。数据预处理的目的是提高数据的质量,使数据更加适合进行分析…
-
Flink面试题
0. 思维导图 1. 简单介绍一下Flink♥♥ Flink是一个分布式的计算框架,主要用于对有界和无界数据流进行有状态计算,其中有界数据流就是值离线数据,有明确的开始和结束时…
-
Spark与Apache Storm集成与优化
1.背景介绍 Spark和Apache Storm都是大数据处理领域中非常重要的开源技术。Spark是一个快速、通用的大数据处理引擎,可以用于数据清洗、数据分析、机器学习等多种任务…
-
IDEA连接HBase集群
#环境介绍# 本地电脑window10 IntelliJ IDEA Community Edition 2023.2.3 虚拟机集群Hadoop3.1.4:master/slave…
-
Spark Core–加强
RDD的持久化 RDD缓存 当RDD被重复使用,或者计算该RDD比较容易出错,而且需要消耗比较多的资源和时间的时候,我们就可以将该RDD缓存起来。 主要作用: 提升Spark程序的…
-
已解决The last packet sent successfully to the server was 0 milliseconds ago. The driver has not receiv
注:此文章是在mysql8版本的前提下编写的。 在我们使用springcloud在连接mysql数据库时,有时会碰到如下这种异常: Exception in thread “mai…
-
基于spark的Hive2Pg数据同步组件
一、背景 Hive中的数据需要同步到pg供在线使用,通常sqoop具有数据同步的功能,但是sqoop具有一定的问题,比如对数据的切分碰到数据字段存在异常的情况下,数…
-
大数据ClickHouse(十四):Integration系列表引擎
文章目录 Integration系列表引擎 一、HDFS 二、MySQL
-
Hadoop3教程(二十六):(生产调优篇)NameNode核心参数配置与回收站的启用
文章目录 (143)NameNode内存配置 (144)NN心跳并发配置 (145)开启回收站 参考文献 (143)NameNode内存配置 每个文件块(的元数据等)在内存中大概 …
-
【大数据进阶第三阶段之Hive学习笔记】Hive查询、函数、性能优化
【大数据进阶第三阶段之Hive学习笔记】Hive安装-CSDN博客 【大数据进阶第三阶段之Hive学习笔记】Hive常用命令和属性配置-CSDN博客 【大数据进阶第三阶段之Hive…
-
第八章:AI大模型的安全与伦理8.2 模型安全8.2.1 对抗攻击与防御
1.背景介绍 随着人工智能技术的不断发展,AI大模型已经成为了我们生活中的一部分,它们在语音识别、图像识别、自然语言处理等方面的表现都越来越出色。然而,随着模型的复杂性和规模的增加…
-
HDFS读写数据流程、NameNode与DataNode工作机制
文章目录 HDFS 写数据流程 HDFS 读数据流程 HDFS 节点距离计算 HDFS 机架感知 HDFS NN和2NN工作机制 HDFS FsImage镜像文件 HDFS Edi…
-
Hive数据存储格式有哪些?TextFile、SequenceFile、RCFile、ORCFile、Parquet有什么区别?为什么绝大多数都使用ORCFile、Parquet格式?
Hive数据存储格式有哪些?TextFile、SequenceFile、RCFile、ORCFile、Parquet有什么区别?为什么绝大多数都使用ORCFile、Parquet格…
-
虚拟机上搭建Hadoop运行环境
文章目录 Hadoop环境搭建 1.安装VMware 2.centos软硬件安装 2.1硬件部分 2.2软件部分 3.主机IP和名称配置 3.1 IP配置 3.2主机名配置 4.测…
-
55、Flink之用于外部数据访问的异步 I/O介绍及示例
Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。…
