大数据 | 第13页 | 协通编程

大数据

大数据和网络复习

大数据挖掘与技术部分基本概念：数据预处理是指在进行数据分析和建模之前，对原始数据进行清洗、转换、集成和规约等操作的过程。数据预处理的目的是提高数据的质量，使数据更加适合进行分析…

1天前

大数据

Flink面试题

0. 思维导图 1. 简单介绍一下Flink♥♥ Flink是一个分布式的计算框架，主要用于对有界和无界数据流进行有状态计算，其中有界数据流就是值离线数据，有明确的开始和结束时…

1天前

Spark与Apache Storm集成与优化

1.背景介绍 Spark和Apache Storm都是大数据处理领域中非常重要的开源技术。Spark是一个快速、通用的大数据处理引擎，可以用于数据清洗、数据分析、机器学习等多种任务…

大数据 1天前

大数据

IDEA连接HBase集群

#环境介绍# 本地电脑window10 IntelliJ IDEA Community Edition 2023.2.3 虚拟机集群Hadoop3.1.4：master/slave…

1天前

大数据

Spark Core–加强

RDD的持久化 RDD缓存当RDD被重复使用，或者计算该RDD比较容易出错，而且需要消耗比较多的资源和时间的时候，我们就可以将该RDD缓存起来。主要作用: 提升Spark程序的…

1天前

大数据

已解决The last packet sent successfully to the server was 0 milliseconds ago. The driver has not receiv

注：此文章是在mysql8版本的前提下编写的。在我们使用springcloud在连接mysql数据库时，有时会碰到如下这种异常： Exception in thread “mai…

1天前

大数据

基于spark的Hive2Pg数据同步组件

一、背景 Hive中的数据需要同步到pg供在线使用，通常sqoop具有数据同步的功能，但是sqoop具有一定的问题，比如对数据的切分碰到数据字段存在异常的情况下，数…

1天前

大数据

大数据ClickHouse（十四）：Integration系列表引擎

文章目录 Integration系列表引擎一、HDFS 二、MySQL

1天前

大数据

Hadoop3教程（二十六）：（生产调优篇）NameNode核心参数配置与回收站的启用

文章目录（143）NameNode内存配置（144）NN心跳并发配置（145）开启回收站参考文献（143）NameNode内存配置每个文件块（的元数据等）在内存中大概 …

1天前

大数据

【大数据进阶第三阶段之Hive学习笔记】Hive查询、函数、性能优化

【大数据进阶第三阶段之Hive学习笔记】Hive安装-CSDN博客【大数据进阶第三阶段之Hive学习笔记】Hive常用命令和属性配置-CSDN博客【大数据进阶第三阶段之Hive…

1天前

第八章：AI大模型的安全与伦理8.2 模型安全8.2.1 对抗攻击与防御

1.背景介绍随着人工智能技术的不断发展，AI大模型已经成为了我们生活中的一部分，它们在语音识别、图像识别、自然语言处理等方面的表现都越来越出色。然而，随着模型的复杂性和规模的增加…

人工智能 1天前

算法结构

HDFS读写数据流程、NameNode与DataNode工作机制

文章目录 HDFS 写数据流程 HDFS 读数据流程 HDFS 节点距离计算 HDFS 机架感知 HDFS NN和2NN工作机制 HDFS FsImage镜像文件 HDFS Edi…

1天前

大数据

Hive数据存储格式有哪些？TextFile、SequenceFile、RCFile、ORCFile、Parquet有什么区别？为什么绝大多数都使用ORCFile、Parquet格式？

Hive数据存储格式有哪些？TextFile、SequenceFile、RCFile、ORCFile、Parquet有什么区别？为什么绝大多数都使用ORCFile、Parquet格…

1天前

大数据

虚拟机上搭建Hadoop运行环境

文章目录 Hadoop环境搭建 1.安装VMware 2.centos软硬件安装 2.1硬件部分 2.2软件部分 3.主机IP和名称配置 3.1 IP配置 3.2主机名配置 4.测…

1天前

大数据

55、Flink之用于外部数据访问的异步 I/O介绍及示例

Flink 系列文章一、Flink 专栏 Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。 1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。…

1天前