分布式
-
Spark 【Spark SQL(一)DataFrame的创建、保存与基本操作】
前言 今天学习Spark SQL,前面的RDD编程要想熟练还是得通过项目来熟练,所以先把Spark过一遍,后期针对不足的地方再加强,这样效率会更高一些。 简介 …
-
内网离线搭建之—-kafka-manager集群监控
工具介绍: 为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。 这个管理工具可以很容易…
-
Kafka(四)【Kafka 消费者】
目录 前言 Kafka 消费者 1、消费方式 2、消费者工作流程 2.1、消费者总体工作流程 2.2、消费者组原理 2.2.1、消费者组 2.2.2、消费者组初始化流程 2.3、消…
-
Spark and Machine Learning: A Comprehensive Guide to Building Intelligent Applications with Spark
1.背景介绍 Spark and Machine Learning: A Comprehensive Guide to Building Intelligent Applicati…
-
大数据技术之Hadoop(十一)——网站流量日志数据分析系统
目录 素材: 一、模块开发——数据预处理 1、分析预处理的数据 2、实现数据的预处理 (1)创建Maven项目,添加相关依赖 (2)创建JavaBean对象,封装日志记录 (3)创…
-
浅谈Kafka流控制与监控指标
Kafka 流控制与监控指标 Apache Kafka 是一个高度可扩展的、分布式的流处理平台,广泛应用于大数据和实时数据处理场景。为了确保 Kafka 集群的稳定性和性能,了解 …
-
Prpmetheus监控rabbitmq
启用一个rabbitmq docker 服务 cat >docker-compose.yaml<<'EOF' version: '…
-
Spark编程实现简例
对于两个输入文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的一个样例,供参考。 输入文件A的样例如下:…
-
认识kafka
认识KafKa 1.什么是KafKa: kafka是一种高吞吐量的分布式发布订阅消息消息队列,有如下特性: 可扩展性:Kafka可以处理大规模的数据流,并支持高并发的生产和消费操作…
-
RabbitMQ核心概念记录
本文来记录下RabbitMQ核心概念 文章目录 什么叫消息队列 为何用消息队列 RabbitMQ简介 RabbitMQ基本概念 RabbitMQ 特点 具体特点包括 Rabbitm…
-
消息中间件:Kafka
(1)Zookeeper安装 https://downloads.apache.org/zookeeper/ (1)更新系统的包管理器 sudo yum update (2)安装J…
-
查漏补缺,Kafka 核心知识,总有一个拨动你的心弦
说说你对kafka的理解 kafka是一个流式数据处理平台,他具有消息系统的能力,也有实时流式数据处理分析能力,只是我们更多的偏向于把他当做消息队列系统来使用。 如果说按照容易理解…
-
使用HBase的数据生命周期管理:自动删除过期数据
1.背景介绍 在大数据时代,数据的生命周期管理成为了一项重要的技术挑战。HBase作为一个高性能的分布式数据库,可以帮助我们解决这个问题。本文将从以下几个方面进行阐述: 背景介绍 …
-
自定义kafka客户端消费topic
文章目录 自定义kafka客户端消费topic 结论 1 背景 2 spring集成2.1.8.RELEASE版本不支持autoStartup属性 3 自定义kafka客户端消费t…
-
kafka如何避免消息重复消费
Kafka 避免消息重复消费通常依赖于以下策略和机制: 1. Consumer Group ID Kafka使用Consumer Group ID来跟踪每个消费者所读取的消息。确保…
