大数据
-
优雅草蜻蜓API大数据服务中心v1.0.2更新-加入演员大数据·头像框生成·去水印·文字验证识别·看图猜成语等接口
2023年12月29日优雅草蜻蜓API大数据服务中心v1.0.2更新-加入演员大数据·头像框生成·去水印·文字验证识别·看图猜成语等接口 提示:目前全球已知演员数量为5000万个,…
-
【基础知识】大数据组件HBase简述
HBase是一个开源的、面向列(Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统…
-
HDFS及各组件功能介绍
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop生态系统的核心组件之一,它是设计用于存储和处理大规模数据集的分布式…
-
hbase shell行键过滤正则匹配
hbase shell行键过滤正则匹配 在实际运维生产环境的过程中,经常遇到需要过滤rowkey包含部分字符的场景。以下列出可行的几种操作方式。 方法一:前缀过滤器字符匹配 # 匹…
-
数据仓库内容分享(五):企业数据治理之主数据管理
目录 1 主数据 1.1、主数据概念 1.2、定位主数据 1.3、主数据标准 1.4、主数据与其他数据的关系 2 主数据管理 2.1、主数据概念 2.2、主数据管理原则 2.3、主…
-
基于Python大数据的京东产品评论的情感分析的研究,包括snwonlp情感分析和LDA主题分析
研究背景 网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品和购物,产生了海量的用户行为数据,其中用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化…
-
Unable to retrieve version information from Elasticsearch nodes.
Elasticsearch nodes. connect ECONNREFUSED问题 [error][elasticsearch-service] Unable to retri…
-
39、Flink 的CDC 格式:maxwell部署以及示例
Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。…
-
理解 Spark 写入 API 的数据处理能力
这张图解释了 Apache Spark DataFrame 写入 API 的流程。它始于对写入数据的 API 调用,支持的格式包括 CSV、JSON 或 Parquet。流程根据选…
-
元数据管理在数据仓库中的实践应用
一、什么是数据仓库的元数据管理? 1、什么是元数据? 元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。 抽象的描述:一组用于…
-
Kibana导出csv数据
适用版本 ElasticSearch-6.8.0 Kibana-6.8.0 导出CSV文件配置 kibana配置文件 添加以下配置 xpack.reporting.csv.maxS…
-
Spark与Hive的集成与互操作
Apache Spark和Apache Hive是大数据领域中两个非常流行的工具,用于数据处理和分析。Spark提供了强大的分布式计算能力,而Hive是一个用于查询和管理大规模数据…
-
Spark—SparkSQL介绍
一、SparkSQL介绍 1、Shark Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hiv…
-
【postgresql 基础入门】数据库服务的管理,启动、停止、状态查看、配置加载、重启都在这里
数据库服务管理 专栏内容: postgresql内核源码分析 手写数据库toadb 并发编程 开源贡献: toadb开源库 个人主页:我的主页 管理社区:开源数据库 座右铭:天…
-
hadoop与hdfs
第2章 大数据处理架构Hadoop 简介 Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce Hadoo…
