hadoop

大数据

大数据开发八股文总结——Hadoop

参考文献参考博客链接： Hadoop 数据倾斜参考pdf教程：尚硅谷大数据技术之 Hadoop（MapReduce）V2.0 Hadoop 1.什么是Hadoop Hadoo…

1天前

大数据

Hadoop分布式集群搭建

文章目录准备工作静态IP设置修改主机名关闭防火墙同步时间安装JDK 上传jdk安装包并解压配置环境变量配置从节点虚拟机克隆虚拟机设置IP地址设置主机名配置h…

1天前

数据库

Apache Hive 简介

目录一、 Apache Hive 架构图（一） Hive 的本质（二） Hive 架构图二、 Hive 的三种部署方式三、数据仓库和数据库的区别四、数仓经…

1天前

大数据

centos7安装hadoop

1.软件准备 Vmware workstation pro16 centos7镜像文件 Java8-linux 网盘地址：链接：https://pan.baidu.com/s/15…

1天前

大数据

Hadoop安装笔记1单机/伪分布式配置

将下发的ds_db01.sql数据库文件放置mysql中 12、编写Scala代码，使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的o…

1天前

算法结构

大数据开发之电商数仓（hadoop、flume、hive、hdfs、zookeeper、kafka）

第 1 章：数据仓库 1.1 数据仓库概述 1.1.1 数据仓库概念 1、数据仓库概念：为企业制定决策，提供数据支持的集合。通过对数据仓库中数据的分析，可以帮助企业，改进业务流程…

1天前

大数据

hadoop+MySQL离线与实时的离线与实时的电影推荐系统10338-计算机毕业设计项目选题推荐（免费领源码）

摘要随着互联网与移动互联网迅速普及，网络上的电影娱乐信息数量相当庞大，人们对获取感兴趣的电影娱乐信息的需求越来越大,个性化的离线与实时的电影推荐系统成为一个热门。…

1天前

大数据

数仓项目6.0配置大全（hadoop/Flume/zk/kafka/mysql/hive配置）

配置背景我使用的root用户，懒得加sudo 所有文件夹在/opt/module 所有安装包在/opt/software 所有脚本文件在/root/bin 三台虚拟机：hadoo…

1天前

大数据

Hive初体验

首先，确保启动了Metastore服务 {runjar就是metastore ；hadoop要先启动 } 可以执行： bin/hive 进入到Hive Shell 环境中，可以直…

1天前

大数据

【1-3章】Spark编程基础(Python版)

课程资源：（林子雨）Spark编程基础(Python版)_哔哩哔哩_bilibili 第1章大数据技术概述（8节）第三次信息化浪潮：以物联网、云计算、大数据为标志（一）大数…

1天前

大数据

Java大数据分析基于hadoop云旅游系统的设计与实现

一、项目介绍云旅游系统主要功能模块包括景点介绍、酒店信息、酒店民宿、特色餐饮、路线分享、云文物、景点排行、酒店排行、餐饮统计等，采取面对对象的开发模式进行软件的开发和硬体的架设，…

1天前

Hadoop之mapreduce参数大全-7

151.设置客户端与 AM 之间的IPC（Inter-Process Communication）连接在发生超时时的最大重试次数 yarn.app.mapreduce.client…

大数据 1天前

第48章：DMP数据平台的分布式存储与Hadoop

1.背景介绍分布式存储是现代大数据处理的基石，Hadoop作为一种分布式存储和计算框架，已经成为大数据处理领域的标配。DMP数据平台作为一种数据管理平台，需要充分利用Hadoop…

大数据 1天前

大数据

Hive调优之小表Join大表

Join: 1、小表join大表将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率，再进一步可以使用group 让小的维表(1000条以…

1天前

大数据

Python语言连接访问Kerberos认证下的HA HDFS

「目的描述」此篇文章目的是使用Python语言对启用Kerberos、High Availability的HDFS文件系统进行访问，主要介绍KerberosClient、pyar…

1天前