大数据
-
自然语言处理与大数据:文本分析与情感分析的实践
1.背景介绍 自然语言处理(NLP)是人工智能的一个分支,它旨在让计算机理解、生成和处理人类语言。随着大数据时代的到来,大量的文本数据在社交媒体、新闻、博客等各种来源中产生,这为自…
-
Flink(十四)【Flink SQL(中)查询】
前言 接着上次写剩下的查询继续学习。 Flink SQL 查询 环境准备: # 1. 先启动 hadoop myhadoop start # 2. 不需要启动 fl…
-
Spark与HBase的集成与数据访问
Apache Spark和Apache HBase分别是大数据处理和分布式NoSQL数据库领域的两个重要工具。在本文中,将深入探讨如何在Spark中集成HBase,并演示如何通过S…
-
Hive3.1.3版本安装部署
前言 Hive作为大数据生态中的一员,曾经也是一个热门的组件,特别是在数据仓库类的项目中,扮演着一个重要的角色,比如版本管理、历史数据追溯等,今年来随着实时要求的增多,该组件的热度…
-
[PySpark学习]RDD的转换(Transformation)与动作算子(Action)
一、RDD概念 RDD(英文全称Resilient Distributed Dataset),即弹性分布式数据集是spark中引入的一个数据结构,是Spark中最基本的数据抽象,代…
-
服务搭建篇(七) Elasticsearch单节点部署以及多节点集群部署
感兴趣的话大家可以关注一下公众号 : 猿人刘先生 , 欢迎大家一起学习 , 一起进步 , 一起来交流吧! 1.Elasticsearch Elasticsearch(简称ES) 是…
-
[AIGC 大数据基础]hive浅谈
在当今大数据时代,随着数据量的不断增大,如何高效地处理和分析海量数据已经成为一个重要的挑战。为了满足这一需求,Hive应运而生。 Hive作为一个基于Hadoop的数据仓库基础设施…
-
一篇文章带你学会Hadoop-3.3.4集群部署
目录 编辑 一、Hadoop集群部署 二、基础设施配置 2.1 设置网络 2.1.1 设置主机名称 2.1.2 设置hosts配置文件 2.1.3 关闭防火墙 2.1.4 关…
-
Apache Spark 练习五:使用Spark进行YouTube视频网站指标分析
一、源数据 本章所分析的数据来自于Simon Fraser大学公开的YouTube视频网站的视频数据(https://netsg.cs.sfu.ca/youtubedata/)。数…
-
StreamPark + PiflowX 打造新一代大数据计算处理平台
🚀 什么是PiflowX PiFlow 是一个基于分布式计算框架 Spark 开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所…
-
Flink中的容错机制
一.容错机制 在Flink中,有一套完整的容错机制来保证故障后的恢复,其中最重要的就是检查点。 1.1 检查点(Checkpoint) 在流处理中,我们可以用存档读档的思路,将之…
-
Flink1.17实战教程(第七篇:Flink SQL)
系列文章目录 Flink1.17实战教程(第一篇:概念、部署、架构) Flink1.17实战教程(第二篇:DataStream API) Flink1.17实战教程(第三篇:时间和…
-
数据仓库与Hadoop:如何实现大规模数据处理
1.背景介绍 数据仓库和Hadoop都是处理大规模数据的重要技术,它们在现代数据科学和人工智能中发挥着至关重要的作用。数据仓库是一种用于存储和管理大量历史数据的系统,主要用于数据分…
-
Hadoop-MapReduce-YarnChild启动篇
一、源码下载 下面是hadoop官方源码下载地址,我下载的是hadoop-3.2.4,那就一起来看下吧 Index of /dist/hadoop/core 二、上下文 在上一篇…
-
【Python大数据笔记
一.SQL,Hive和MapReduce的关系 用户在hive上编写sql语句,hive把sql语句转化为MapReduce程序去执行 二.Hive架构映射流程 用户接口: …
