hadoop
-
大数据开发八股文总结——Hadoop
参考文献 参考博客链接: Hadoop 数据倾斜 参考pdf教程: 尚硅谷大数据技术之 Hadoop(MapReduce)V2.0 Hadoop 1.什么是Hadoop Hadoo…
-
Hadoop分布式集群搭建
文章目录 准备工作 静态IP设置 修改主机名 关闭防火墙 同步时间 安装JDK 上传jdk安装包并解压 配置环境变量 配置从节点虚拟机 克隆虚拟机 设置IP地址 设置主机名 配置h…
-
Apache Hive 简介
目录 一、 Apache Hive 架构图 (一) Hive 的本质 (二) Hive 架构图 二、 Hive 的三种部署方式 三、 数据仓库和数据库的区别 四、 数仓经…
-
centos7安装hadoop
1.软件准备 Vmware workstation pro16 centos7镜像文件 Java8-linux 网盘地址:链接:https://pan.baidu.com/s/15…
-
Hadoop安装笔记1单机/伪分布式配置
将下发的ds_db01.sql数据库文件放置mysql中 12、编写Scala代码,使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的o…
-
大数据开发之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)
第 1 章:数据仓库 1.1 数据仓库概述 1.1.1 数据仓库概念 1、数据仓库概念: 为企业制定决策,提供数据支持的集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程…
-
hadoop+MySQL离线与实时的离线与实时的电影推荐系统10338-计算机毕业设计项目选题推荐(免费领源码)
摘 要 随着互联网与移动互联网迅速普及,网络上的电影娱乐信息数量相当庞大,人们对获取感兴趣的电影娱乐信息的需求越来越大,个性化的离线与实时的电影推荐系统 成为一个热门。…
-
数仓项目6.0配置大全(hadoop/Flume/zk/kafka/mysql/hive配置)
配置背景 我使用的root用户,懒得加sudo 所有文件夹在/opt/module 所有安装包在/opt/software 所有脚本文件在/root/bin 三台虚拟机:hadoo…
-
Hive初体验
首先,确保启动了Metastore服务 {runjar就是metastore ;hadoop要先启动 } 可以执行: bin/hive 进入到Hive Shell 环境中,可以直…
-
【1-3章】Spark编程基础(Python版)
课程资源:(林子雨)Spark编程基础(Python版)_哔哩哔哩_bilibili 第1章 大数据技术概述(8节) 第三次信息化浪潮:以物联网、云计算、大数据为标志 (一)大数…
-
Java大数据分析基于hadoop云旅游系统的设计与实现
一、项目介绍 云旅游系统主要功能模块包括景点介绍、酒店信息、酒店民宿、特色餐饮、路线分享、云文物、景点排行、酒店排行、餐饮统计等,采取面对对象的开发模式进行软件的开发和硬体的架设,…
-
Hadoop之mapreduce参数大全-7
151.设置客户端与 AM 之间的IPC(Inter-Process Communication)连接在发生超时时的最大重试次数 yarn.app.mapreduce.client…
-
第48章:DMP数据平台的分布式存储与Hadoop
1.背景介绍 分布式存储是现代大数据处理的基石,Hadoop作为一种分布式存储和计算框架,已经成为大数据处理领域的标配。DMP数据平台作为一种数据管理平台,需要充分利用Hadoop…
-
Hive调优之小表Join大表
Join: 1、小表join大表 将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率,再进一步可以使用group 让小的维表(1000条以…
-
Python语言连接访问Kerberos认证下的HA HDFS
「目的描述」 此篇文章目的是使用Python语言对启用Kerberos、High Availability的HDFS文件系统进行访问,主要介绍KerberosClient、pyar…
