分布式 | 第12页 | 协通编程

Spark 【Spark SQL（一）DataFrame的创建、保存与基本操作】

前言今天学习Spark SQL，前面的RDD编程要想熟练还是得通过项目来熟练，所以先把Spark过一遍，后期针对不足的地方再加强，这样效率会更高一些。简介 …

大数据 1天前

大数据

内网离线搭建之—-kafka-manager集群监控

工具介绍: 为了简化开发者和服务工程师维护Kafka集群的工作，yahoo构建了一个叫做Kafka管理器的基于Web工具，叫做 Kafka Manager。这个管理工具可以很容易…

1天前

大数据

Kafka（四）【Kafka 消费者】

目录前言 Kafka 消费者 1、消费方式 2、消费者工作流程 2.1、消费者总体工作流程 2.2、消费者组原理 2.2.1、消费者组 2.2.2、消费者组初始化流程 2.3、消…

1天前

Spark and Machine Learning: A Comprehensive Guide to Building Intelligent Applications with Spark

1.背景介绍 Spark and Machine Learning: A Comprehensive Guide to Building Intelligent Applicati…

大数据 1天前

大数据

大数据技术之Hadoop(十一)——网站流量日志数据分析系统

目录素材：一、模块开发——数据预处理 1、分析预处理的数据 2、实现数据的预处理（1）创建Maven项目，添加相关依赖（2）创建JavaBean对象，封装日志记录（3）创…

1天前

浅谈Kafka流控制与监控指标

Kafka 流控制与监控指标 Apache Kafka 是一个高度可扩展的、分布式的流处理平台，广泛应用于大数据和实时数据处理场景。为了确保 Kafka 集群的稳定性和性能，了解 …

大数据 1天前

Prpmetheus监控rabbitmq

启用一个rabbitmq docker 服务 cat >docker-compose.yaml<<'EOF' version: &#039…

大数据 1天前

大数据

Spark编程实现简例

对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。下面是输入文件和输出文件的一个样例，供参考。输入文件A的样例如下：…

1天前

大数据

认识kafka

认识KafKa 1.什么是KafKa： kafka是一种高吞吐量的分布式发布订阅消息消息队列，有如下特性：可扩展性：Kafka可以处理大规模的数据流，并支持高并发的生产和消费操作…

1天前

大数据

RabbitMQ核心概念记录

本文来记录下RabbitMQ核心概念文章目录什么叫消息队列为何用消息队列 RabbitMQ简介 RabbitMQ基本概念 RabbitMQ 特点具体特点包括 Rabbitm…

1天前

大数据

消息中间件：Kafka

(1)Zookeeper安装 https://downloads.apache.org/zookeeper/ （1）更新系统的包管理器 sudo yum update （2）安装J…

1天前

大数据

查漏补缺，Kafka 核心知识，总有一个拨动你的心弦

说说你对kafka的理解 kafka是一个流式数据处理平台，他具有消息系统的能力，也有实时流式数据处理分析能力，只是我们更多的偏向于把他当做消息队列系统来使用。如果说按照容易理解…

1天前

使用HBase的数据生命周期管理：自动删除过期数据

1.背景介绍在大数据时代，数据的生命周期管理成为了一项重要的技术挑战。HBase作为一个高性能的分布式数据库，可以帮助我们解决这个问题。本文将从以下几个方面进行阐述：背景介绍 …

大数据 1天前

自定义kafka客户端消费topic

文章目录自定义kafka客户端消费topic 结论 1 背景 2 spring集成2.1.8.RELEASE版本不支持autoStartup属性 3 自定义kafka客户端消费t…

大数据 1天前

大数据

kafka如何避免消息重复消费

Kafka 避免消息重复消费通常依赖于以下策略和机制： 1. Consumer Group ID Kafka使用Consumer Group ID来跟踪每个消费者所读取的消息。确保…

1天前