分布式 | 第16页 | 协通编程

大数据

部署Kafka

kafka：kafka_2.13-3.5.1 NOTE: Your local environment must have Java 8+ installed. Apache Ka…

1天前

Spark与SparkSQL的高级功能

1.背景介绍 1. 背景介绍 Apache Spark是一个开源的大规模数据处理框架，它提供了一个易于使用的编程模型，以及一系列高级功能来处理大规模数据。SparkSQL是Spar…

大数据 1天前

大数据

olap/spark-tungsten：codegen

15721这一章没什么好说的，不再贴课程内容了。codegen和simd在工业界一般只会选一种实现。比如phothon之前用codegen，然后改成了向量化引擎。一般gen的都是w…

1天前

kafka消费报错卡死：内存溢出OutOfMemoryError: Java heap space

文章目录现象排查解决现象我们信控平台使用Java语言开发，Spring Cloud微服务架构，采用容器化部署，所有服务都部署在docker里面，使用docker-comp…

大数据 1天前

RabbitMQ之Window中安装配置与使用

RabbitMQ之Window中安装配置与使用文章目录 RabbitMQ之Window中安装配置与使用 1 安装准备 1.1 安装Erlang 1.2 ErLnag环境变量配置 …

Python 1天前

Python

RabbitMQ常见生产问题详解

目录 RabbitMQ如何保证消息不丢失？哪些环节会有丢消息的可能？ RabbitMQ消息零丢失方案 1. 生产者保证消息正确发送到RibbitMQ 2. RabbitMQ消息存…

1天前

Python

RabbitMQ之死信队列、延迟队列和懒队列

目录死信队列何时会产生死信死信队列的配置方式参数x-dead-letter-routing-key 如何确定一个消息是不是死信延迟队列懒队列声明懒队列的两种方式参数…

1天前

Kafka怎么保证数据不丢失，不重复

Kafka是一个分布式消息队列系统，具有高可靠性、高性能和高扩展性等特点。在数据传输过程中，Kafka采用了多种措施来保证数据的可靠性，包括数据复制、数据持久化、数据备份等。本文将…

大数据 1天前

Kafka数据丢失原因及解决方案

Kafka包括Producer、Broker、Consumer，因此从这三个方面分析。 Producer端丢失原因：Kafka在Producer端的消息发送采用的是异步发送的方式…

大数据 1天前

大数据技术(林子雨版）——期末复习知识点

==> 大数据&云计算大数据时代的三次信息化浪潮：[时间；标志；解决的问题；代表企业] 1980年前后；个人计算机；信息处理；Intel，IBM…… 1995年前后…

大数据 1天前

大数据

一文快速学会Hadoop伪分布式环境搭建，很详细

文章目录一、准备工作二、配置ssh免密登录三、修改hadoop的配置文件四、格式化namenode节点，启动hdfs，启动yarn 一、准备工作配置hadoop模板虚拟机…

1天前

数据库

《Redis实战篇》五、分布式锁-redission

5.1 分布式锁-redission功能介绍基于setnx实现的分布式锁存在下面的问题：重入问题：重入问题是指获得锁的线程可以再次进入到相同的锁的代码块中，可重入锁的意义在于…

1天前

大数据

Kafka 之生产者与消费者基础知识：基本配置、拦截器、序列化、分区器

一、生产者配置 1. 必须要配置的参数： kafaf集群地址列表：理论上写一个节点地址，就相当于绑定了整个kafka集群了，但是建议多写几个，如果只写一个，万一宕机就麻烦了 kaf…

1天前

大数据

Kafka为什么高吞吐量

1、顺序读写 kafka的消息是不断追加到文件中的，这个特性使kafka可以充分利用磁盘的顺序读写性能，顺序读写不需要硬盘磁头的寻道时间，只需很少的扇区旋转时间，所以速度远快于随机…

1天前

kafka（一：分区数据不均衡（数据倾斜），分区分配策略）

一：数据倾斜，导致各个分区数据不均匀。最终导致kafka堵塞，数据消费不动。第一步：先停掉kafka中，上游和下游的代码，对分配数据较多的分区进行重新分配。 https://cl…

大数据 1天前