大数据 | 第17页 | 协通编程

大数据

优雅草蜻蜓API大数据服务中心v1.0.2更新-加入演员大数据·头像框生成·去水印·文字验证识别·看图猜成语等接口

2023年12月29日优雅草蜻蜓API大数据服务中心v1.0.2更新-加入演员大数据·头像框生成·去水印·文字验证识别·看图猜成语等接口提示：目前全球已知演员数量为5000万个，…

1天前

大数据

【基础知识】大数据组件HBase简述

HBase是一个开源的、面向列（Column-Oriented）、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统…

1天前

HDFS及各组件功能介绍

Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）是Hadoop生态系统的核心组件之一，它是设计用于存储和处理大规模数据集的分布式…

大数据 1天前

hbase shell行键过滤正则匹配

hbase shell行键过滤正则匹配在实际运维生产环境的过程中，经常遇到需要过滤rowkey包含部分字符的场景。以下列出可行的几种操作方式。方法一：前缀过滤器字符匹配 # 匹…

大数据 1天前

大数据

数据仓库内容分享(五)：企业数据治理之主数据管理

目录 1 主数据 1.1、主数据概念 1.2、定位主数据 1.3、主数据标准 1.4、主数据与其他数据的关系 2 主数据管理 2.1、主数据概念 2.2、主数据管理原则 2.3、主…

1天前

大数据

基于Python大数据的京东产品评论的情感分析的研究，包括snwonlp情感分析和LDA主题分析

研究背景网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品和购物，产生了海量的用户行为数据，其中用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化…

1天前

Unable to retrieve version information from Elasticsearch nodes.

Elasticsearch nodes. connect ECONNREFUSED问题 [error][elasticsearch-service] Unable to retri…

大数据 1天前

大数据

39、Flink 的CDC 格式：maxwell部署以及示例

Flink 系列文章一、Flink 专栏 Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。 1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。…

1天前

大数据

理解 Spark 写入 API 的数据处理能力

这张图解释了 Apache Spark DataFrame 写入 API 的流程。它始于对写入数据的 API 调用，支持的格式包括 CSV、JSON 或 Parquet。流程根据选…

1天前

大数据

元数据管理在数据仓库中的实践应用

一、什么是数据仓库的元数据管理？ 1、什么是元数据？元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data about data）。抽象的描述：一组用于…

1天前

大数据

Kibana导出csv数据

适用版本 ElasticSearch-6.8.0 Kibana-6.8.0 导出CSV文件配置 kibana配置文件添加以下配置 xpack.reporting.csv.maxS…

1天前

大数据

Spark与Hive的集成与互操作

Apache Spark和Apache Hive是大数据领域中两个非常流行的工具，用于数据处理和分析。Spark提供了强大的分布式计算能力，而Hive是一个用于查询和管理大规模数据…

1天前

大数据

Spark—SparkSQL介绍

一、SparkSQL介绍 1、Shark Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎，由于底层的计算采用了Spark，性能比MapReduce的Hiv…

1天前

数据库

【postgresql 基础入门】数据库服务的管理，启动、停止、状态查看、配置加载、重启都在这里

数据库服务管理专栏内容： postgresql内核源码分析手写数据库toadb 并发编程开源贡献： toadb开源库个人主页：我的主页管理社区：开源数据库座右铭：天…

1天前

大数据

hadoop与hdfs

第2章大数据处理架构Hadoop 简介 Hadoop的核心是分布式文件系统HDFS（Hadoop Distributed File System）和MapReduce Hadoo…

1天前