大数据
-
Flink简介及部署模式
文章目录 1、Flink简介 2、Flink部署 2.1 本地模式 2.1 Standalone模式部署 2.2 Standalone模式下的高可用 2.3 Yarn模式 Yarn…
-
Flink知识点概述
flink是什么 是一个框架和分布式处理引擎,在无边界和有边界数据流上纪念性有状态的计算 主要特性 1.批流统一 批处理:数据 全部…
-
大数据毕业设计选题推荐-市天气预警实时监控平台-Hadoop-Spark-Hive
✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学…
-
Pandas处理大数据的性能优化技巧
Pandas是Python中最著名的数据分析工具。在处理数据集时,每个人都会使用到它。但是随着数据大小的增加,执行某些操作的某些方法会比其他方法花费更长的时间。所以了解和使用更快的…
-
【大数据】Spark学习笔记
初识Spark Spark和Hadoop Hadoop Spark 起源时间 2005 2009 起源地 MapReduce University of California Be…
-
Seatunnel实战:hive
一、前言 SeaTunnel是一个分布式、高性能、可扩展的数据同步工具,它支持多种数据源之间的数据同步,包括Hive和StarRocks。可以使用SeaTunnel的Hive源连接…
-
【博学谷学习记录】超强总结,用心分享|大数据之flinkCDC
Flink CDC、Flink、CDC各有啥关系 Flink:流式计算框架,不包含Flink CDC,和Flink CDC没关系 CDC:是一种思想,理念,不涉及某一门具体的技术 …
-
Spark—RDD持久化
文章目录 1.RDD持久化 1.1 RDD Cache 缓存 1.2 RDD CheckPoint 检查点 1.3 缓存和检查点区别 2.RDD分区器 2.1 Hash 分区: 2…
-
Flink实现同时消费多个kafka topic,并输出到多个topic
Flink实现同时消费多个kafka topic,并输出到多个topic 1.说明 2.依赖引用 3. 方案一:适用于==sink topic==存在跨集群等kafka生产者配置信…
-
【Flink】Flink任务缺失Jobmanager日志的问题排查
Flink任务缺失Jobmanager日志的问题排查 问题不是大问题,不是什么代码级别的高深问题,也没有影响任务运行,纯粹因为人员粗心导致,记录一下排查的过程。 问题描述 一个生产…
-
大数据平台环境搭建—- Hbase组件配置
前置环境 Hadoop集群必须部署完成,如果还没有搭建请先前往>>大数据平台环境搭建—- Hadoop组件配置 Zookeeper集群必须部署完成且未启动,…
-
【网络安全】sql注入语法汇总
目录 一、原理 二、SQL注入判断方法 1.字符型检测 2.数字型检测
-
高校需要哪些大数据实训平台?
当前,数据已成为重要的生产要素,大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,是激活数据要素潜能的关键支撑,是加快经济社会发展质量变革、效率变…
-
Pandas读写Excel最全参数总结
pandas文件读写工具汇总 pandas中的文件读写工具由一组read的函数(执行Input)和一组write的对象方法(执行Output)组成,具体见下表。 本文总结最常用的三…
-
笔记本安装双系统(win11+centos7)自己遇到坑的总结
笔记本安装CentOS操作系统 当初在学习CentOS7的时候,就想在自己的笔记本上装一个CentOS7。装CentOS7和Windows双系统,安装的过程中也查阅很多资料但是都不…
