hadoop

VMware和ubuntu配置Hadoop环境

目录一、获取VMware安装包 1、官网获取 1）首先先进入官网，官网首页是下面这样： 2）接着点击产品选项 3）进入后点击查看所有产品，然后在右上角选择排序方式为Z到A，然后向下滑动找到Workstation…

【大数据实训】基于Hive的北京市天气系统分析报告(二)

博主介绍：✌全网粉丝6W,csdn特邀作者、博客专家、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战✌ 🍅文末获取项目联系🍅 目录 1. 引言 1.1 项目背景 1 1.2 项目意义 1 2.…

Hadoop 集群一直处于安全模式，强制退出后出现数据丢失警告。解决方法

文章目录安全模式相关命令分析集群为什么一直处于安全模式解决方法安全模式相关命令 # 查看安全模式状态 hdfs dfsadmin -safemode get# 进入安全模式 hdfs dfsadmin -safemode enter# 离开安全模式 hdfs dfsadmin -safemode leave# 强制退出安全模式 hdfs dfsadmin -safemo…

大数据框架开发基础之Zookeeper入门

Zookeeper是Hadoop分布式调度服务，用来构建分布式应用系统。构建一个分布式应用是一个很复杂的事情，主要的原因是我们需要合理有效的处理分布式集群中的部分失败的问题。例如，集群中的节点在相互通信时，A节点向B节点发送消息。A节…

未来的大数据会有哪些有趣的发展？

大数据是IT界的行业术语，本名叫巨量数据集合。 大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力…

大数据岗位更看重学历还是工作经验？

回答这个问题之前还是让我们看一段真实对话： Q：请问从事大数据这行，硕士学历有必要么？ A：如果有条件，最好可以上到硕士，但不是说必须如此，大数据相关职位对行业知识和项目经验也比…

Hadoop和大数据最炫目的60款顶级开源工具

说到处理大数据的工具，普通的开源解决方案（尤其是Apache Hadoop）堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测，在接下来几年，“100%的大公司”会采用Hadoop。Market Research的一份报告预测&#xf…

hadoop3.3.1单机版环境搭建详细流程记录

1、在centos7中创建必要的目录； 2、上传JDK安装包到tools目录； 3、解压JDK到/opt/server/目录； tar -zxvf jdk-8u221-linux-x64.tar.gz -C /opt/server/ 4、“vim：未找到命令”的解决办法； 安装vim即可； …

简单了解Sqoop

文章目录概述数据导入MySQL到HDFSMySQL到Hive增量数据导入数据导出概述 sqoop是一款开源工具，主要运用在Hadoop(Hive)与传统的数据库(mysql\postgresql等)间进行数据的传递； 它最早是作为hadoop的一个第三方模块存在，后来为了让使用者能快…

设置 Hue Server 与 Hue Web 界面之间的会话超时时间

设置 Hue Server 与 Hue Web 界面之间的会话超时时间在 CDH 的 Hue 中，Auto Logout Timeout 参数表示用户在不活动一段时间后将自动注销（登出）的超时时间。当用户在 Hue 中处于不活动状态超过该设定时间时，系统将自动注销用户&am…

hadoop学习：mapreduce入门案例二：统计学生成绩

这里相较于 wordcount，新的知识点在于学生实体类的编写以及使用数据信息： 1. Student 实体类 import org.apache.hadoop.io.WritableComparable;import java.io.DataInput; import java.io.DataOutput; import java.io.IOException;public class Stude…

【大数据开发】Hadoop的高级编程（一）

第一小节：如何学好这一章 1.Linux基础 2.Java编程 3.大数据核心组件，hadoop安装，部署，配置等等第二小节：构建工程 1.新建工程 2.新建工程变成maven工程 3.安装配置maven环境,编辑setting文件 4.idea工具配置maven 5.…

ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1000: Error during parsing.

低级错误，第一行的reload ‘add.txt’;在re后面加上空格，re load ‘add.txt’; grunt> reload \add.txt\; 2020-11-21 15:34:55,757 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1000: Error during parsing. Encountered \" <P…

Hadoop MapReduce简介

本节首先简单介绍大数据批处理概念，然后介绍典型的批处理模式 MapReduce，最后对 Map 函数和 Reduce 函数进行描述。批处理模式批处理模式是一种最早进行大规模数据处理的模式。批处理主要操作大规模静态数据集，并在整体数据处理完毕后返回…

Hadoop3.1.0 伪分布式环境安装部署

前言刚刚开始学大数据的时候Hadoop最新版还是2.5.0，现在都已经出到3.1.0了，时间好快啊 Hadoop版本：apache-hadoop3.1.0 Linux操作系统：平时工作的时候都是CentOS6，CentOS7， 这将在archLinux系列的manjaro…

修复HDFS主备节点edits不一致导致的无法进行checkpoint的问题

背景项目上一套HDFS环境，从4月起会偶发HDFS namenode宕机的问题，后来出现的越来越频繁，最后甚至启动后四五分钟就会宕机，接到需求开始进行排查。排查过程日志报错 2023-05-27 22:50:21,844 FATAL namenode.FSEditLog (Jour…

Hadoop HDFS操作指南

1 HDFS 组成架构 image-20220703192933033.pngNameNode(NN) 管理HDFS的名称空间配置副本策略管理数据块(Block)映射信息处理客户端读写请求 DataNode(DN) 存储实际的数据块执行数据块的读写操作 Client(客户端) 文件切分，文件上传HDFS时，Client将文件切分…

【大数据开发】Hadoop的高级编程（二）

MR模板优化 public class WordCountUpMR extends Configured implements Tool； int status ToolRunner.run(configuration,new WordCountUpMR(),args);import com.google.common.collect.Lists; import org.apache.hadoop.conf.Configuration;import org.apache…

Hadoop警告：WARNING: HADOOP_PREFIX has been replaced by HADOOP_HOME. Using value of HADOOP_PREFIX

文章目录问题描述问题分析具体的解决步骤：第一步：把hadoop_prefix变量全部改成hadoop_home，第二步：取消hadoop_prefix变量第三步：source一下使修改后的变量生效第四步：检查改得是否正确：最后问题…

【Hadoop】Hadoop入门概念简介

🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的…

Hadoop常见问题整理

1/运行mr程序出错 connecting to resoucemanager retrying .... retrying ..... 原因是没有启动yarn或者启动失败，正常启动yarn后，又报下面的错误： System times on machines may be out of sync,check system time and time zones 原…

Hadoop之表的关联

实例来自于《Hadoop实战》5.4和5.5节，也见于《Hadoop集群（第9期）_MapReduce初级案例》。第一个实例是单表关联，给出child-parent表，要求输出grandchild-grandparent表。在关系数据库里这是一个连接操作，…

sqoop 脚本密码管理

1：背景生产上很多sqoop脚本的密码都是铭文，很不安全，找了一些帖子，自己尝试了下，记录下细节，使用的方式是将密码存在hdfs上然后在脚本里用别名来替代。 2：正文第一步：创建密码对…

hadoop 学习：mapreduce 入门案例一：WordCount 统计一个文本中单词的个数

一需求这个案例的需求很简单现在这里有一个文本wordcount.txt，内容如下现要求你使用 mapreduce 框架统计每个单词的出现个数这样一个案例虽然简单但可以让新学习大数据的同学熟悉 mapreduce 框架二准备工作 （1）创建一个 maven 工…

hive left join 字段不一致

两个hive表left join时，由于关联字段类型不同导致的数据错误（bigint、string），结果会多出来一批数据。 select a.id as id1 ,b.id as id2 from table1 a left join table2 b on a.id b.id where a.id 1257829907772824682 -- 1…

hadoop hdfs HA原理讲解、脑裂问题产生

Namenode HA原理详解社区hadoop2.2.0 release版本开始支持NameNode的HA，本文将详细描述NameNode HA内部的设计与实现。为什么要Namenode HA？ 1. NameNode High Availability即高可用。 2. NameNode 很重要，挂掉会导致存储停止服务&#xff…

大数据基本概念总结

大数据特点： 五个主要技术特点：5V Volume（大体量）：即可从数百TB到数十数百PB、甚至EB规模。 Variety（多样性）：即大数据包括各种格式和形态的数据。 Velocity（时效性&…

hadoop行业技术创新解决方案

如今有很多公司都在努力挖掘他们拥有的大量数据，包括结构化、非结构化、半结构化以及二进制数据等，来探索对数据的深入利用。大多数公司估计他们只分析了已有数据的12%，剩余88%还没有被充分利用。大量的数据孤岛和分析能力的缺乏是造成这种局…

hadoop中的Name node is in safe mode的解决方法

hadoop集群长期待机，过程中由于硬盘快用了，导致集群进入安全模式，再次启动hive的时候出现以下错误提示： Cannot create directory /tmp/hive/usr100/58b61340-fdb6-434c-be24-2f8f23fc524e. Name node is in safe mode. Resource…

要想把大数据读懂，基于Hadoop与Spark的大数据开发实战pdf，足矣

大数据基本概念 1.大数据概述相信大家经常会在各种场合听到“大数据"这个词，被誉为数据仓库之父的BillInmon早在20世纪90年代就将大数据挂在嘴边了。那么到底什么是大数据呢?这是我们在本章要了解的。我们现在生活的时代是一一个数据时代，近年…

hive问题总结

往往用了很久的函数却只知道其单一的应用场景，本文将不断完善所遇到的好用的hive内置函数。 1.聚合函数或者求最大最小值函数搭配开窗函数使用可以实现滑动窗口例： SELECT event,time,session_id,COLLECT_LIST(event) OVER (PARTITION BY session_id …

百度Doris项目正式进入顶级开源社区Apache孵化器

近日，全球著名开源社区Apache基金会宣布“百度开源的Doris项目全票通过进入Apache孵化器”。这是百度继ECharts后第二个进入Apache基金会的项目，充分彰显了百度“开源速度”。Doris是百度开发的面向在线报表和分析的数据仓库系统，可以对标于商…

Hadoop格式化HDFS报错java.net.UnknownHostException: centos0

在hadoop安装配置过程中，对HDFS格式化 $ hdfs namenode -format 出现错误；java.net.UnknownHostException: centos0 如下： 查看机器名称 $ hostname 解决方式： 修改hosts映射文件 vi /etc/hosts 修改成以下配置，…

数据仓库工程师、大数据开发工程师、BI工程师、ETL工程师之间有什么区别？

商务智能。商务智能工程师是商业智能行业的工程师。从需求分析师到数据仓库架构师、ETL工程师、数据分析工程师、报表开发工程师、数据挖掘工程师等，都可以称为BI工程师。 ETL工程师：从事系统编程、数据库编程和设计，掌握各种常用编程语言的…

从入门到高手：大数据领域就业和发展指南

随着秋季校招落下帷幕，网上的各类招聘数据也已分布，大数据行业工程师以平均月薪11,600元领跑全国，成为“超高薪、高大上”的代名词。如果你学的是大数据相关专业，那么恭喜你，你的发展良机来了，如果你想要转…

Hadoop技术优缺点详解

给大家介绍一下关于Hadoop技术的优缺点，目前我们正被数据包围，全球43亿部电话、20亿位互联网用户每秒都在不断地产生大量数据，人们发送短信给朋友、上传视频、用手机拍照、更新社交网站的信息、转发微博、点击广告等，使得机器产生…

权威 ssl 证书 + ingress + 安装 Rancher HA

本文永久链接: https://www.xtplayer.cn/rancher/install/ha-authority-ssl-ingress/节点软硬件要求节点硬件要求请参考：https://docs.rancher.cn/docs/rancher2/installation_new/requirements/_index/节点基础环境配置请参考基础环境配置同步镜像如果你是在离线环…

大数据文章汇总-Hadoop、MapReduce、Storm、Spark、Flink

Hadoop生态，包括HDFS、MapReduce、YARN、HBase等等。大数据、Hadoop核心框架和MapReduce原理 CentOS 7 单机安装最新版Hadoop v3.1.2以及配置和简单测试 Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation） Hadoop生态系统-新手…

实验二：熟悉常用的HDFS操作

实验环境： (1)操作系统：Linux(建议 Ubuntu 16.04 或 Ubuntu 18.04)。 (2)Hadoop 版本：3.1.3。 (3)JDK 版本：1.8。 (4)Java IDE： Eclipse。实验内容与完成情况： (1)编程实现以下功能,并利用Hadoop提供的Shell命令完成相同任务。 ①向HDFS中上传任意文本文件，如果指定的文…

大数据框架之Hive：第11章文件格式和压缩

第11章文件格式和压缩 11.1 Hadoop压缩概述压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器，如下表所示&#…

Presto从入门到精通以及案例实操系列

1、简介 1.1、Presto的由来 Presto最初由Facebook公司开发，旨在解决Facebook内部大规模数据处理和数据分析的问题。在传统的Hadoop生态圈中，MapReduce作为数据处理框架，虽然能够处理海量数据，但是其查询性能却比较低下&#xff…

linux安装JDK及hadoop运行环境搭建

1.linux中安装jdk （1）下载JDK至opt/install目录下，opt下创建目录soft，并解压至当前目录 tar xvf ./jdk-8u321-linux-x64.tar.gz -C /opt/soft/ （2）改名 （3）配置环境变量&#xf…

hive指定字段插入数据,包含了分区表和非分区表

1、建表语句如下： CREATE EXTERNAL TABLE ods_lineitem_full (l_shipdate date,l_orderkey bigint,l_linenumber int,l_partkey int,l_suppkey int,l_quantity decimal(15, 2),l_extendedprice decimal(15, 2),l_discount de…

Yarn【多队列实例、任务优先级设置】

前言我们知道，Hadoop常见的三种调度器：FIFO调度器（几乎不用，因为它是先来先服务）、容量调度器（Apache Hadoop 默认的调度器）、公平调度器（CDH默认调度器）。其中&…

恢复 rkestate 状态文件

本文永久链接: https://www.xtplayer.cn/rancher/backup-restore/restore-rkestate/Kubernetes 集群状态由 Kubernetes 集群中的集群配置文件 cluster.yml 和组件证书组成。由 RKE 生成，但根据 RKE 版本不同，集群状态的保存方式不同。在 v0.2.0 之前&…

看看你所理解的资源调度框架Yarn

&YARN产生背景 MapReduce1.x存在的问题 MapReduce架构图： 1.master/slave架构：JobTracker/TaskTracker JobTracker:单点，仅仅只能够支持MapReduce作业 2，资源利用率，所有的计算框架运行在一个集群中，共…

IMPALA跟HIVE实践中的小绝招

# impala提升查询速度 compute stats tableName; # 查看分区情况 show partitions tableName; # 建分区表 create table tableName (字段) partitioned by (labs_etl_dt string); # 向分区表里插数据 insert overwrite table tableName partition(labs_etl_dt) # 将一列中多个元…

【大数据之Hadoop】三十七、Hadoop HA高可用

1、HA概述实现高可用最关键的策略是消除单点故障。HA分成各个组件的HA机制：HDFS的HA和YARN的HA。 Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（SPOF）。 NameNode主要在以下两个方面影响HDFS集群： &#xff…

YARN【工作机制】

Yarn概念 Yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台 ，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。 Yarn的四大组件 YARN 主要由 ResourceManager（…

十一、hadoop应用

1.上传数据集 27.19.74.143,2015/3/30 17:38,/static/image/common/faq.gif 110.52.250.126,2015/3/30 17:38,/data/cache/style_1_widthauto.css?y7a 27.19.74.143,2015/3/30 17:38,/static/image/common/hot_1.gif 27.19.74.143,2015/3/30 17:38,/static/image/common/hot_2…

【Hadoop】DataNode 详解

🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的…

【Java-HDFS】使用Java操作HDFS获取HDFS指定目录下的数据量大小

Maven依赖 <dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>RELEASE</version></dependency><dependency><groupId>org.apache.logging.log4j</groupId>…

Hadoop分布式计算与资源调度：打开专业江湖的魔幻之门

HDFS文件的读写流程

Hadoop HDFS的读写文件流程 HDFS写文件流程客户端通过Distributed FileSystem模块向NameNode请求上传文件（hadoop fs -put 文件名文件路径 ） 判断该客户端是否有写入权限NameNode检查目标文件是否已存在，父目录是否存在。 NameNode返回是…

[Exceptions]运行hive sql报错NoViableAltException

报错内容 NoViableAltException(380[212:1: tableName : (db identifier DOT tab identifier -> ^( TOK_TABNAME $db $tab) |tab identifier -> ^( TOK_TABNAME $tab) );]) 理解报错关键信息理解这个报错信息提供了以下几个关键信息： 错误类型&#xff…

提振数字经济：虚拟现实技术的历史沿革与前景剖析（下）

在上篇《提振数字经济：虚拟现实技术的历史沿革与前景剖析》中，我们解读了虚拟现实技术的技术演进，并厘清了其中的关键要素，本篇我们重点围绕如何实现产研融合进行深度解读，全方位评估这一新兴战略方向的巨大潜力。打破…

Windows上安装Hadoop 3.x

目录 0. 安装Java 1. 安装Hadoop 1.1 下载Hadoop 1.2 下载winutils 2. 配置Hadoop 1. hadoop-env.cmd 2. 创建数据目录 3. core-site.xml 4. hdfs-site.xml 3. 启动测试 3.1 namenode格式化 3.2 启动Hadoop 3.3 查看webui 3.4 测试hdfs 3.5. 测试MapReduce 4. 还…

Doris数仓的4大特点

01-极简架构 Doris从设计上来说，融合了Google Mesa的数据存储模型、Apache的ORCFile存储格式、Apache Impala查询引擎和MySQL交互协议，是一个拥有先进技术和先进架构的领先设计产品，如图1所示。 ▲图1 Doris技术分解图在架构方面&#xff…

Hive UDF、UDAF和UDTF函数详解

在 Hive 中，可以编写和使用不同类型的自定义函数，包括 UDF（User-Defined Functions）、UDAF（User-Defined Aggregate Functions）和 UDTF（User-Defined Table Functions）。这些自定义函数允许你扩展 Hive 的功能，以执行自定义的数据处理操作。 UDF（User-Defined Functi…

spark复习重点

什么是大数据大数据是指数据量巨大、类型繁多、处理速度快的数据集合。它不仅包括传统的结构化数据，还包括非结构化数据、半结构化数据等多种形式的数据。大数据的处理需要使用特殊的技术和工具，如分布式存储、分布式计算、数据挖掘、机器学习等。大…

Hadoop伪分布模式配置

Hadoop共有三种部署方式：本地模式，伪分布模式及集群模式；本次安装配置以伪分布模式为主，即在一台服务器上运行Hadoop（如果是分布式模式，则首先要配置Master主节点，其次配置Slave从节点&#xff…

一百八十六、大数据离线数仓完整流程——步骤五、在Hive的DWS层建动态分区表并动态加载数据

一、目的经过6个月的奋斗，项目的离线数仓部分终于可以上线了，因此整理一下离线数仓的整个流程，既是大家提供一个案例经验，也是对自己近半年的工作进行一个总结。二、数仓实施步骤 （五）步骤五、在Hive的…

搭建hadoop集群的常见问题及解决办法

问题一: namenode -format重复初始化出现问题的原因是重复初始化时会重新生成集群ID，而dn还是原先的集群ID，两者不匹配时无法启动相应的dn进程。怎么查找问题原因：在logs目录下找到对应节点的.log文件，使用tail -200 文件名来查…

【dbeaver】win环境的kerberos认证和Clouders集群中Kerberos认证使用Dbeaver连接Hive和Phoenix

一、下载驱动 cloudera官网 1.1 官网页面下载下载页面的Database Drivers 挑选比较新的版本即可。 1.2 集群下载 Hive可能集群没有驱动包。驱动包名称：HiveJDBC42.jar。41结尾的包也可以使用的。注意Jar包的大小一定是十几MB的。几百KB的是thin包不可用。 …

Map-Reduce具体实现详解

Map 由于Map是并行地对输入的文件集进行操作，所以它的第一步(FileSplit) 就是把文件集分割成一些子集.如果一个单个的文件大到它已影响到查找效率时，它会被分割成一些小的分割体。要指出的是分割这个一步是不知道输入文件的内部逻辑结构的，比…

MapReduce：序列化WritableComparable接口与WritableComparator比较器、组合键、二次排序

目录序列化 WritableComparable接口 Writable接口 Comparable接口 WritableComparator比较器自定义Writable类(组合键)实现二排序列化序列化：将结构化对象转化为字节流以便在网络上传输或写到磁盘进行存储的过程反序列化：将字节流转回结构化…

Hadoop：YARN基本架构与工作流程

目录 YARN概述 YARN的基本架构 MapReduce1 YARN Resource Manager Application Master Node Manager MR1与YARN比较 RM中的调度 YARN应用工作流程 YARN概述 Yarn(Yet Another Resource Negotiator)是hadoop的集群资源管理系统。 Yarn在hadoop 2中开始被引用&#x…

Hive insert插入数据与with子查询

1. insert into 与 insert overwrite区别 insert into 与 insert overwrite 都可以向hive表中插入数据，但是insert into直接追加到表中数据的尾部，而insert overwrite会重写数据，既先进行删除，再写入注意：如果存在分…

MapReduce编程规范

MapReduce编程规范 MapReduce的开发一共有八个步骤,其中Map阶段分为2个步骤，Shuffle阶段4个步骤，Reduce阶段分为2个步骤。 Map阶段2个步骤设置InputFormat类,将数据切分为Key-Value(K1和V1)对,输入到第二步。自定义Map逻辑,将第一步的结果转换成另外的…

大数据集群安装学习笔记

目录 1 安装部署........................................................................... 4 1.1 solr单节点安装部署................................................................. 4 1.1.1 下载............................................................…

Hive的UDF实现两种简单方法+通过编译源码添加UDF

Hive的UDF实现两种简单方法通过编译源码添加UDF 一、实现简单的say_hello 1、打开IDE在pom.xml中添加如下 <dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId><version>3.1.2</version> </de…

大数据处理三大瓶颈：大容量、多格式和速度

越来越多的大企业的数据集以及创建需要的一切技术，包括存储、网络、分析、归档和检索等，这些被认为是海量数据。这些大量信息直接推动了存储、服务器以及安全的发展。同时也是给IT部门带来了一系列必须解决的问题。信息技术研究和分析的公司Gartner认为…

论文学习——基于Hadoop的水文时间序列相似性研究与应用

文章目录1 摘要2 引言3 MapReduce 计算模型3.1 Hadoop体系结构4 DTW 改进算法 FastDTW4.1 介绍DTW算法4.2 FastDTW 方法5 水文时间序列相似性查找方法5.1 水文数据的预处理5.2 MapReduce过程写在前面：《计算机与数字工程》； 作者：顾昕辰、万…

在Windows下用eclipse写MapReduce程序

DFS Location 我想使用hadoop-eclipse插件来处理DFS和写MR，于是今天就配置了一下。基本上是按照“文献1”进行的，但是出现了这种问题（图是从别处扒来的，当时没截图）： 如果将Host设为一个不存在的地址…

探秘百度开放云—数字媒体解决方案

百度开放云数字媒体解决方案，集合了多媒体转码MMT、对象存储BOS、内容分发网络CDN等云计算产品，提供对元视频进行存储、转码、多端设备适配、加密/版权管理、多节点分发等全流程一站式服务。用户使用百度开放云的多媒体服务，能够在同等转码条…

start-yarn.sh出错 ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting operation.

start-dfs.sh错误 ERROR: Attempting to operate on hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation. Starting datanodes ERROR: Attempting to operate on hdfs datanode as root ERROR: but there is no HDFS_DATANODE_USER…

hadoop2.6.4和myeclipse集成执行JobClient.runJob(conf)报NullPointerException

通过百度查找，解决方案如下： 1、hadoop2.2没有发布winutils.exe造成的，现编译发布出来； 把此文件放到hadoop/bin下配置环境变量HADOOP_HOME，只需要放在myeclipse中配置的本地的hadoop路径下即可； 2、把ha…

正中优配：煤炭价格持续反弹高分红提升板块吸引力

近来，动力煤价格继续反弹，煤炭概念股继续走高。海外三大动力煤指数从7月底以来继续上涨，欧洲ARA大涨18%、南非理查德大涨26%、澳洲纽卡高卡煤32%。海外煤价上涨推动国内煤价上行。到9月4日，秦皇岛港5500大卡动力煤报价855元/吨&…

【Hadoop】大数据开发环境配置

【Hadoop】大数据开发环境配置文章目录【Hadoop】大数据开发环境配置1 设置静态ip2 设置主机名3 关闭防火墙4 ssh免密码登录5 JDK配置6 hadoop安装并配置6.1 集群节点之间时间同步6.2 SSH免密码登录完善6.3 hadoop配置 1 设置静态ip 进入ifcfg-ens33文件 vi /etc/sysconfig/n…

Hadoop学习---8、Hadoop数据压缩

1、Hadoop数据压缩 1.1 概述 1、压缩的好处和坏处 （1）优点：减少磁盘IO、减少磁盘储存空间 （2）缺点：增加CPU开销 2、压缩原则 （1）运算密集型的Job，少用压缩 &#xff08…

Hadoop：完全分布式搭建

此集群三个节点基于三台虚拟机（hadoop01、hadoop02、hadoop03）进行搭建，虚拟机安装的操作系统为Centos6.5，Hadoop版本选取为2.9.1。实验过程 1、基础集群的搭建下载并安装VMware WorkStation Pro，链接：…

大数据技术之Hadoop（源码解析）

大数据技术之Hadoop源码解析第0章 RPC通信原理解析 0）回顾 1）需求： 模拟RPC的客户端、服务端、通信协议三者如何工作的 2）代码编写： （1）在HDFSClient项目基础上创建包名com.atguigu.rpc &a…

HDFS HA 高可用集群搭建详细图文教程

目录一、高可用（HA）的背景知识 1.1 单点故障 1.2 如何解决单点故障 1.2.1 主备集群 1.2.2 Active、Standby 1.2.3 高可用 1.2.4 集群可用性评判标准（x 个 9） 1.3 HA 系统设计核心问题 1.3.1 脑裂问题 1.3.2 数据状…

Hive优化十八般兵器

前言 Hive 是一个基于 Hadoop 的数据仓库框架，用于处理和分析大量的结构化数据。在 Hive 中，我们可以编写类似于 SQL 的查询语句（HiveQL）来对数据进行处理。下面是一些 Hive 中的 SQL 优化示例，包括具体的数据结构、S…

Spark SQL概述、数据帧与数据集

文章目录一、准备工作1、准备数据文件2、启动Spark Shell 二、加载数据为Dataset1、读文件得数据集三、给数据集添加元数据信息1、定义学生样例类2、导入隐式转换3、将数据集转换成学生数据集4、对学生数据集进行操作（1）显示数据集内容（2&a…

hadoop集群配置与启动（三）

1 集群部署规划NameNode 和 SecondaryNameNode 不要安装在同一台服务器。（它们两个都需要耗内存，分开减少集群的压力）ResourceManager 也很消耗内存，不要和 NameNode、SecondaryNameNode 配置在同一台机器上2配置文件说明Hadoop …

Hadoop环境搭建常见错误

三、常见错误及解决方案 1）防火墙没关闭、或者没有启动YARN INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322）主机名称配置错误 3）IP地址配置错误 4）ssh没有配置好 5）roo…

HADOOP理解

1.什么是hadoop？ 起源于Google的集群系统，实现一个分布式的文件系统（Hadoop distributed File System）,HDFS. Hadoop是一个由Apache基金会所开发的分布式系统基础架构。最初的核心组件有GFS(Google File System),MapReduce&#…

hive复合类型的数据查询

hive数据表创建-CSDN博客 --第一个名字以M开头的访问数组array 数组（ array) 引用方式列名 [ 元素索引 _ 以 0 开始 ] select * from emp where emp_name[0] rlike "^M"; -- 出生日期是在 5 几年访问 Map map 引用方式列名 ["Key"] selec…

实验一：熟悉常用的Linux操作和Hadoop操作

实验一：熟悉常用的Linux操作和Hadoop操作一、实验目的 Hadoop运行在Linux系统上，因此，需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作，为顺利开展后续其他实验奠定基础。二、实验平台操作系统&a…

1、hadoop集群搭建

1、 Hadoop运行环境搭建 1.1、修改主机名和hosts文件 1）修改主机名称 sudo hostnamectl set-hostname <newhostname>sudo hostnamectl set-hostname hadoop101 sudo hostnamectl set-hostname hadoop102 sudo hostnamectl set-hostname hadoop103 2&#…

Hadoop数据迁移distcp

Hadoop数据迁移distcp 准备工作确认源集群（a）,目标集群（b）确认a集群的主节点和b集群的主节点确认两个集群的网络相通确认迁移模式（全量迁移还是增量迁移），这里选择全量迁移迁移文件迁移t…

IO专题

1 文件 1.1 文件流的相关概念流：数据在数据源(文件)和程序(内存)之间经历的路径输入流：数据从数据源(文件)到程序(内存)的路径输出流：数据从程序(内存)到数据源(文件)的路径 1.2 常用的文件操作 1.2.1 创建文件对象 public class File_ {p…

hive-无法启动hiveserver2

启动hiveserver2没有反应，客户端也无法连接( beeline -u jdbc:hive2://node01:10000 -n root) 报错如下查看hive的Log日志，发现如下报错如何解决在hive的hive_site.xml中添加如下代码 <property><name>hive.server2.active.passive…

使用hive进行数据分析及使用python进行数据可视化

使用hive进行数据分析及使用python进行数据可视化搭建hadoop集群安装hbase搭建Hive安装Hive配置环境配置bashrc配置hive-site.xml配置MySQL安装MySQL启动MySQL更改MySQL密码更改MySQL编码启动Hive使用Hive进行数据分析使用Python进行数据可视化搭建hadoop集群参考我之前所写的…

导入 k8s 集群更新 CA 证书后 Rancher 端的配置操作

本文永久链接: https://www.xtplayer.cn/rancher/import-k8s-cluster-update-ca/在早期的 rancher 版本中，如果导入的业务 K8S 集群因为证书到期重新生成了证书(包括 kube-ca 证书)，这个时候在 Rancher UI shell 终端中执行命令时会报 x509 错误&#xf…

project.management.cattle.io not found

本文永久链接: https://www.xtplayer.cn/rancher/project-management-cattle-io-not-found/问题背景有时候可能会在 rancher server 中看到很多如下的错误提示：2019/07/16 06:33:23 [ERROR] NamespaceController default [resourceQuotaSyncController] failed with…

Hadoop3教程（二十五）：Yarn的多队列调度器使用案例

文章目录 （136）生产环境多队列创建&好处（137）容量调度器多队列提交案例如何创建多个队列如何向指定队列提交任务 （138）容量调度器任务优先级（139）公平调度器案例参考文献 &#…

MapReduce程序基于字典的方式将内容进行排序

基于字典将下列内容排序 a 1 a 3 a 5 a 4 b 9 b 7 b 3 规则： 1，第一列(word)按照字典顺序进行排序 2，第一列相同的时候，第二列（num)按照升序排列步骤：1.准备一个sort.txt文件 sudo vi sort.txta 2 a 9 a…

HDFS的小文件影响及解决办法

Hadoop Distributed File System (HDFS) 是用于存储和处理大规模数据的分布式文件系统。然而，HDFS 中的小文件可能会对系统性能和资源利用产生一些影响。下面是小文件对HDFS的影响以及处理方法的一些信息：影响：元数据开销： HDFS中的每个文件和目录都有相关的元数据（文件…

hadoop -hive 安装

1.下载hive http://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz2.解压/usr/app 目录 tar -zxvf apache-hive-3.1.3-bin.tar.gz -C /usr/app3.设置软连接 ln -s /usr/app/apache-hive-3.1.3-bin /usr/app/hive4.修改/usr/app/hive/conf/hive-env.…

Spark基础学习笔记----RDD检查点与共享变量

零、本讲学习目标了解RDD容错机制理解RDD检查点机制的特点与用处理解共享变量的类别、特点与使用一、RDD容错机制当Spark集群中的某一个节点由于宕机导致数据丢失，则可以通过Spark中的RDD进行容错恢复已经丢失的数据。RDD提供了两种故障恢复的方式&#xff0c…

学习大数据的第五天

在学习大数据的第五天，我们可以继续深入了解Hadoop组件和相关技术。 Apache PigApache Pig是一个用于分析大型数据集的高级平台，它允许通过一种类似于SQL的语言Pig Latin来进行数据处理和转换。Pig可以通过MapReduce或者Tez来执行操作，并且具有良好的拓展性和灵活性。 Apach…

Spark和Hadoop架构区别详解

今天给大家分享一篇关于Spark和Hadoop的架构区别解读，首先总的来说，Spark采用更先进的架构，使得灵活性、易用性、性能等方面都比Hadoop更有优势，有取代Hadoop的趋势，但其稳定性有待进一步提高。我总结，具体…

Hadoop HA模式切换

Hadoop HA模式下主从的切换（操作命令） YARN HA 获取所有RM节点的状态 yarn rmadmin -getAllServiceState获取 rm1 节点的状态 yarn rmadmin -getServiceState rm1手动将 rm1 的状态切换到STANDBY yarn rmadmin -transitionToStandby rm1 ##或者 y…

搭建hadoop集群常见坑一：secondarynamenode只在root账户能启动在一般账户不能启动的解决方法。

一、事情的起因： 本来是按照手册顺利的安装了全分布式集群，并且能够正常启动集群，集群有三台机器，hadoop102 是master，其他2台是node，secondarynamenode配置在hadoop104上， 一次手痒不小心在m…

搭建hadoop集群常见坑二：hadoop集群中namenode启动不起来的成因和二种解决方法

hadoop集群中namenode启动不起来如何解决新手在初次搭建 hadoop集群中经常遇到namenode或者databode启动不起来，大概率是因为多次格式化NameNode造成的。因为每格式化一次NameNode，就会产生新的集群id,导致NameNode和DataNode的集群id不一致&#xff…

《机器学习》慕课版课后习题-第10章

中国工信出版集团、人民邮电出版社出版的赵卫东、董亮编著的《机器学习》慕课版第10章分布式机器学习 1.分布式学习用在什么场合？ 解：机器学习是计算机利用已有的数据生成某种模型，并且利用此模型预测的一种方法。在确定模型结构之后&am…

海量数据分布式存储技术-作业二

一个Hadoop集群中的节点主要有哪些？ Hadoop具有哪些特性？ Hadoop生态系统以及每个部分的具体功能是什么？ fs.default.name是在那个文件中设置的？ 列举单机模式和伪分布模式的异同点。 1、解： 一个基本的Hadoop集…

java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are un

创建于：2022.06.13 修改于：2022.06.13 尝试用本地pySpark读取远程的hive数据时候出现的问题。本地需要安装配置hadoop的环境变量，把hadoop.dll放到system32中。关于IDEA出现报错： java.io.FileNotFoundException: HADOOP_HOME…

hadoop+javaWeb的开发中遇到包冲突问题(java.lang.VerifyError

1.HDFS WEB 项目报java.lang.VerifyError... 异常抛异常： Exception in thread "main" java.lang.VerifyError: (class: com/google/common/collect/Interners, method: newWeakInterner signature: ()Lcom/google/common/collect/Interner;) Incomp…

HadoopHA搭建

主机设置三台主机关闭防火墙三台主机关闭SeLinux安全机制给每台主机修改主机名配置三台主机地址映射设置免密登录安装JDK 解压安装配置jdk的环境变量测试安装成功分发JDK 分发配置文件 ZooKeeper配置解压安装添加ZK环境变量分发文件启动安…

Hadoop Yarn 核心调优参数

文章目录测试集群环境说明Yarn 核心配置参数1. 调度器选择2. ResourceManager 调度器处理线程数量设置3. 是否启用节点功能的自动检测设置4. 是否将逻辑处理器当作物理核心处理器5. 设置物理核心到虚拟核心的转换乘数6. 设置 NodeManager 使用的内存量7. 设置 NodeManager 节点…

虚拟机三节点centos7.2安装CDH5.13.1

之前装过两次没成功，再装一遍，踩了些坑，后面有采坑经验建议看完再动手。0. 基本条件三台vmware虚机，都是1核2G，20G硬盘1. 所有节点修改hostname，创建hadoop用户hostnamectl set-hostname hadoop1vim /etc/h…

Hadoop Hdfs基本命令

0目录 1.hadoop安装问题处理 2.hdfs基本命令 3.上传/下载文件和文件夹 1.hadoop安装问题处理如果安装有进程无法启动，如下图重新检查6个配置文件 Core-site.xml \ hdfs-site.xml \ hadoop-env.sh \ yarn-site.xml \ workers \ yarn-site.xml 来到hadoop313目录…

大数据工具篇之Hive与MySQL整合完整教程

一、引言 Hive元数据存储可以放到RDBMS数据库中，本文以Hive与MySQL数据库的整合为目标，详细说明Hive与MySQL的整合方法。二、安装驱动 MySQL最新的Java驱动版本为：mysql-connector-java-5.1.28-bin.jar，下载后拷贝到&#xff1a…

Hadoop YARN HA 集群安装部署详细图文教程

目录一、YARN 集群角色、部署规划 1.1 集群角色--概述 1.2 集群角色--ResourceManager（RM） 1.3 集群角色--NodeManager（NM） 1.4 HA 集群部署规划二、YARN RM 重启机制 2.1 概述 2.2 演示 2.2.1 不开启 RM 重启机制…

Hadoop HBase存储原理结构学习

微信公众号：javafirst一、简介 hbase是bigtable的开源山寨版本。是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持…

【Hive】drop table需注意外部表

什么是内部表，外部表？ 比较专业的定义： 外部表需要转为内部表，执行删除操作才能真的删表结构删表数据。否则drop table仅是删除了表数据，表结构还是存在的。 alter table tb_name set TBLPROPERTIES(EXTERNALfalse);…

Hadoop学习：深入解析MapReduce的大数据魔力（三）

Hadoop学习：深入解析MapReduce的大数据魔力（三） 3.5 MapReduce 内核源码解析3.5.1 MapTask 工作机制3.5.2 ReduceTask 工作机制3.5.3 ReduceTask 并行度决定机制 3.6 数据清洗（ETL）1）需求2）需求…

Hadoop之Join时 DataJoin软件包问题

在做HDFS多文件Join时通过监控job成功启动并且mapper执行完毕，但reduce总是不能执行完成，进度卡在66.66%。mapper输出是想要的格式，而且小规模输入数据测试时整个job能成功完成。在查看未完成reduce的状态，发现key不变&#xff0c…

存算分离实践：JuiceFS 在中国电信日均 PB 级数据场景的应用

01- 大数据运营的挑战 & 升级思考大数据运营面临的挑战中国电信大数据集群每日数据量庞大，单个业务单日量级可达到 PB 级别，且存在大量过期数据（冷数据）、冗余数据，存储压力大；每个省公司都有自己的…

使用 Databend 加速 Hive 查询

作者：尚卓燃（PsiACE） 澳门科技大学在读硕士，Databend 研发工程师实习生 Apache OpenDAL(Incubating) Committer PsiACE (Chojan Shang) GitHub 随着架构的不断迭代和更新，大数据系统的查询目标也从大吞吐量查询逐步转…

解决macbook中访问 HDFS 时 kerberos 认证失败问题

异常现象在服务器上执行 hadoop fs -ls / 访问 HDFS 是没有问题的。但在 macbook 上执行同样命令会抛出异常： 23/06/08 15:58:32 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where app…

hive3.1安装配置与底层表存储原理

Hive3.1 安装配置与底层存储原理前言：基于自建Hadoop集群，单节点配置hive服务，主要用于验证工作中的hsql和hive的底层表架构原理（hive外部表数据在哪，分区表在hadoop是怎么存储的等等）。纸上得来终觉浅&a…

yarn任务管理

1. 查看yarn任务日志 yarn logs -applicationId application_1517538889175_2550 2. 杀死yarn任务 yarn application -kill application_1585295380521_4957539 3. 重启任务 #!/bin/bash source /etc/profile jobidyarn application -list | grep ClientLogForSms | grep …

Hadoop2.0探讨

文章目录 8. Hadoop 再探讨8.1 Hadoop的优化与发展8.2 HDFS 的FA和Federation(Hadoop2.0新特性)8.2.1 HDFS HA8.2.2 HDFS Federation 8.3 YARN8.3.1 MapReduce1.0的缺陷8.3.2 Yarn设计思路8.3.3 Yarn体系结构8.3.4 Yarn工作流程8.3.5 Yarn框架和MapReduce1.0框架对比分析8.3.6 …

Zookeeper模拟实现集群配置信息的订阅与发布（Hadoop）

一、项目背景在集群配置管理中，在创痛的方式下，如果要修改集群中每个节点的配置信息，操作比较繁琐。首先需要修改相应的配置文件，然后逐步更新到集群中的各个节点。如果集群规模很大，比如有100个节点，那么…

ZOOKEEPER启动遇到显示IT IS PROBABLY NOT RUNNING的众多问题解决

加粗样式 ZOOKEEPER启动遇到显示IT IS PROBABLY NOT RUNNING的问题解决本人是启动三台虚拟机分别是hadoop01，hadoop02,hadoop03，我在主节点启动zookeeper的zkServer.sh start服务后，在通过status查看其状态，发现第三台hadoop03节…

hive安装步骤

centos7安装hive，hive版本3.1.2 一、环境准备 JDK版本：jdk-8u381 Hadoop版本：hadoop-3.1.3 MySQL版本：8.0.34 二、hive安装步骤 1.解压将压缩包复制到/opt/software目录下，并解压至/opt/module/目录 tar -zxf…

Hadoop安装完全分布式搭建

1、安装Hadoop 上传Hadoop的指定路径/root/softwares 解压安装 cd /root/softwares && tar -zxvf hadoop-2.7.3.tar.gz -C /usr/local配置环境变量 vim /etc/profile # Hadoop Environment export HADOOP_HOME/usr/local/hadoop-2.7.3 export PATH$PATH:$HADOOP_HOM…

[Hive] if返回null和0的区别

count(if(pv>1000000,1,0))count(if(pv>1000000,1,null)) 区别 count(if(pv>1000000,1,0)) 和 count(if(pv>1000000,1,null)) 之间的区别在于对于不满足条件的情况下的处理方式。 count(if(pv>1000000,1,0))：这个表达式中，如果 pv 的值…

hadoop单机版部署

1.下载hadoop wget --no-check-certificate https://mirrors.bfsu.edu.cn/apache/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz 2.解压重命名 tar -zxvf hadoop-3.3.1.tar.gz mv hadoop-3.3.1.tar.gz hadoop 3.编辑hosts vim /etc/hosts 172.17.1.1 hadoop925 4.进入配置…

尚硅谷大数据项目《在线教育之离线数仓》笔记002

视频地址：尚硅谷大数据项目《在线教育之离线数仓》_哔哩哔哩_bilibili 目录 P025 P026 P027 P028 P029 P030 P031 P032 P033 P034 P035 P036 P037 P038 P025 在Hive所在节点部署Spark P026 3）Hive on Spark测试 （1）…

Hadoop发展历史

1 Hadoop是什么 1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2）主要解决，海量数据的存储和海量数据的分析计算问题。 3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 2 Hadoop 发展…

Hadoop没有datanode节点解决

Hadoop启动之后jps查看， [rootVM_0_3_centos hadoop]# jps 23488 NameNode 23746 SecondaryNameNode 24100 Jps 23959 ResourceManager 24057 NodeManager 9068 Bootstrap 可以看到少了DataNode， 出现这种问题的原因有很多，如下&#xff…

hadoop2的集群数据将副本存储在hadoop3

在 Hadoop 集群中，HDFS 副本是分布式存储的，会存储在不同的节点上。因此，如果您的 HDFS 所在路径是在 Hadoop2 集群中，您可以在 Hadoop3 集群上添加新的节点，并向 Hadoop3 集群中添加这些新节点上的数据副本。以下是…

恒盛策略：欧洲能源危机又来？天然气价格飙升，受益板块曝光

储能板块有望获益。今日早盘煤炭、交通运输、石油石化等板块涨幅均超1%，其中煤炭板块涨1.37%位居第一位。音讯面上，欧佩克重申减产战略，世界原油价格升至3个月来高位。此外，隔夜欧洲天然气期货跳涨40%，创2022年3月以来…

从零开始的Hadoop学习（三）| 集群分发脚本xsync

1. Hadoop目录结构 bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件lib目录：存放Hadoop的本地库（对…

$hadoop错误Could not locate Hadoop executable: D:\sorftware\hadoop\hadoop-2.8.0\bin\winutils.exe$

hadoop错误Could not locate Hadoop executable: D:\sorftware\hadoop\hadoop-2.8.0\bin\winutils.exe

在hadoop/bin目录下缺少了winutils.exe和hadoop.dll Exception in thread "main" java.lang.RuntimeException: java.io.FileNotFoundException: Could not locate Hadoop executable: D:\sorftware\hadoop\hadoop-2.8.0\bin\winutils.exe -see https://wiki.apache…

HDFS 集群动态节点管理

目录一、动态扩容、节点上线 1.1 背景 1.2 扩容步骤 1.2.1 新机器基础环境准备 1.2.2 Hadoop 配置 1.2.3 手动启动 DataNode 进程 1.2.4 Web 页面查看情况 1.2.5 DataNode 负载均衡服务二、动态缩容、节点下线 2.1 背景 2.2 缩容步骤 2.2.1 添加退役节点 …

HiveSQL初级题目

文章目录 Hive SQL题库(初级)第一章环境准备1.1 建表语句1.2 数据准备1.3 插入数据第二章简单查询2.1 查找特定条件2.1.1 查询姓名中带“冰”的学生名单2.1.2 查询姓“王”老师的个数2.1.3 检索课程编号为“04”且分数小于60的学生的课程信息，结果按分数降序排列…

实验四：MapReduce初级编程实践

1.编程实现文件合并和去重操作对于两个输入文件，即文件A和文件B,编写MapReduce程序，对两个文件进行合并， 并剔除其中重复的内容，得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。输入文件A的样例如下&#…

Hadoop的第二个核心组件：MapReduce框架第三节

Hadoop的第二个核心组件：MapReduce框架九、MR程序运行的核心阶段的细节性知识1、MR程序在运行过程中，涉及到的阶段和作用2、MR程序运行的的第一个组件：InputFormat3、MR程序的Job提交流程的源码分析4、MR程序运行中Mapper组件的作用5、MR程序…

Hodoop生态

MapReduce Mapreduce慢的原因：数据处理的时候，频繁的在磁盘和内存上进行数据IO而不是始终在内存中处理，这些I/O操作导致了速度比较满。MapReduce的架构演变1、1.x的时候JobTracker master 计算集群管理TaskTracker Slave 负责具体任务执行的T…

Hive的文件合并

背景:Flink数据写入到stage层,然后再入ods层,中间导致hive数据实时性不强,随后做优化,Flink之间以orc格式写入到hive 问题:单表日800亿数据量,产生过多的小文件,影响Impala查询解决:对hive小文件进行合并, ALTER TABLE lt_ipsy_xdr_temp PARTITION (day20230829, hour9,type…

基于Amazon Web Services的Greenplum 6：针对云进行了优化

获得技术资料内容，请访问Greenplum中文社区网站 Greenplum与Amazon Web Services通过合作已经可以轻松地实现Greenplum的部署和持续运维。这个功能非常有必要，但还不够。尤其是，我们已经投入资源使Greenplum实现真正的云原生化。这意味着&…

MapReduce面试题+详解

MapReduce篇面试题 1.“MapReduce”程序的主要配置参数是什么？ “MapReduce”框架中用户需要指定的主要配置参数有： 分布式文件系统中作业的输入位置作业在分布式文件系统中的输出位置数据输入格式数据输出格式包含地图功能的类包含 reduce 函数的类包…

大数据：hadoop spark，spark特点，功能，架构，模块，角色

大数据：hadoop spark 2022找工作是学历、能力和运气的超强结合体，遇到寒冬，大厂不招人，可能很多算法学生都得去找开发，测开测开的话，你就得学数据库，sql，oracle，尤其sq…

Hadoop安装部署-NameNode高可用版

Hadoop分布式文件系统支持NameNode的高可用性，本文主要描述NameNode多节点高可用性的安装部署。如上所示，Hadoop分布式文件系统部署了NameNode的Master主节点以及NameNode的Slave副节点，当Master主节点发生故障变得不可用时，ZooK…

Java大数据开发：Hadoop-集群时间同步

hadoop集群我们已经搭建好了，但是集群在执行任务的时候，必须要保持时间同步，所以，这一节，我们就要进行集群时间同步。集群时间同步注意：在root用户下执行时间同步的方式：找一个机器&#xf…

HDFS原理剖析

一、概述 HDFS是Hadoop的分布式文件系统（Hadoop Distributed File System），实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写，多次读”的特征，而数据“写”操作是顺序写，也就是…

API网关与社保模块

API网关与社保模块理解zuul网关的作用完成zuul网关的搭建实现社保模块的代码开发 zuul网关在学习完前面的知识后，微服务架构已经初具雏形。但还有一些问题：不同的微服务一般会有不同的网络地址，客户端在访问这些微服务时必须记住几十甚至…

Yarn【常用命令】

1、yarn application 查看Application运行情况 1.1、列出所有Application yarn application -list 可以通过Web UI端来查看： 1.2、根据Application状态过滤： yarn application -list -appStates （所有状态： ALL 、 NEW 、 NEW…

我的私人笔记（Linux中安装mysql）

1.安装wget：yum -y install wget 2.下载mysql社区版本源并安装 wget https://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm yum install -y mysql57-community-release-el7-10.noarch.rpm rpm --import https://repo.mysql.com/RPM-GPG-KEY-mys…

Hadoop集群搭建(hadoop-3.3.5)

一、修改服务器配置文件 1、配置环境变量 vim /etc/profile #java环境变量 export JAVA_HOME/usr/local/jdk/jdk8 export JRE_HOME$JAVA_HOME/jre export CLASSPATH$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH$JAVA_HOME/bin:$JRE_HOME/bin:$PATH #hadoop环境变量 …

hadoop 报错 java.io.IOException: Inconsistent checkpoint fields

背景: 使用了格式化,导致首重了新的集群ID org.apache.hadoop.hdfs.server.common.InconsistentFSStateException: Directory /work1/home/hadoop/dfs/data/current/BP-1873526852-172.16.21.30-1692769875005 is in an inconsistent state: namespaceID is incompatible with …

Flink入门（五）——DataSet Api编程指南

##Apache Flink Apache Flink 是一个兼顾高吞吐、低延迟、高性能的分布式处理框架。在实时计算崛起的今天，Flink正在飞速发展。由于性能的优势和兼顾批处理，流处理的特性，Flink可能正在颠覆整个大数据的生态。 DataSet API 首先要想运行Fli…

Hive 终于等来了 Flink

等疫情过去了，我们一起看春暖花开。 Apache Spark 什么时候开始支持集成 Hive 功能？ 笔者相信只要使用过 Spark 的读者，应该都会说这是很久以前的事情了。那 Apache Flink 什么时候支持与 Hive 的集成呢？ 读者可能有些疑惑&am…

sqoop：错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster（已解决）

1 报错信息错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster 说明： 操作将数据库中的数据导入到HDFS中执行sqoop import --connect jdbc:mysql://aaa01:3306/mysql --username root --password root --table test 时报了以下错误 2 报…

记一次生产环境cdh6.3.2集群yarn组件nodemanager节点down掉的事故分析

有关2023.10.2日发现的yarn部分nodeManager组件节点不可用的原因分析 yarn组件异常情况始于2023.09.30日06时00分，恢复于2023.10.02日10点35分。每日凌晨6点，大数据定时任务：task1启动，该任务持续时长1小时20~25分钟左右&#xf…

【Spark分布式内存计算框架——Spark Core】4. RDD函数（中）Transformation函数、Action函数

3.2 Transformation函数在Spark中Transformation操作表示将一个RDD通过一系列操作变为另一个RDD的过程，这个操作可能是简单的加减操作，也可能是某个函数或某一系列函数。值得注意的是Transformation操作并不会触发真正的计算，只会建立RDD间…

MapReduce：作业运行机制

目录作业提交作业初始化任务分配任务执行关于进度监控作业完成 MapReduce应用实际上是以YARN应用运行，若理解了YARN运行机制，MR不过是多了一些细节处理 MapReduce作业运行的整个过程中有5个独立的实体： 客户端：调用…

2021-04-30

HBase介绍： 1、分布式开源数据库 2、面向列 3、Big Table开源实现 4、适合非结构化数据的存储 5、PB级别的数据 6、可以支撑在线业务 7、分布式系统特点 8、分布式系统特点：易于扩展，支持动态伸缩，并发数据处理。面向列数据库 1…

04.hadoop上课笔记之java编程和hbase

1.win查看服务 netstat -an #linux也有#R数学建模语言 SCALAR 2.java连接注意事项,代码要设置用户 System.setProperty("HADOOP_USER_NAME", "hadoop");3.伪分布式的好处(不用管分布式细节,直接连接一台机器…,适合用于学习) 4.官方文档查看类(static |…

【Hadoop】配置文件

Hadoop 配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值 （1）默认配置文件： cd $HADOOP_HOME/share/hadoop common路…

20230611_Hadoop_BigDataTools

Hadoop客户端一、Big Data Tools工具 Pycharm专业版下载Big Data Tools工具。获取hadoop.dll与winutils.exe文件放置于$HADOOP_HOME/Bin中。配置系统环境变量：E:\hadoop-3.3.4 配置Big Data Tools，登录。 -- 如果需要走第二种路径配置登录, 需要修…

2.1 初识Spark

一、Spark的概述 （一）Spark的组件 Spark在2013年加入Apache孵化器项目，之后获得迅猛的发展，并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎，它是…

Hadoop作业篇(一）

一、选择题 1. 以下哪一项不属于Hadoop可以运行的模式__C____。 A. 单机（本地）模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 C. 互联模式不属于Hadoop可以运行的模式。 Hadoop主要有四种运行模式： A. 单机（本地&#xf…

CDH 之记一次 mysql 升级导致 cloudera scm server 启动失败

mysql 升级导致升级方式：rpm -uvh *.rpm 升级之后发现服务已经不可用，但是 cloudera-scm-server 服务仍然在运行，相关的服务端口已经没有在侦听状态。查看日志：tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log…

L2 数据仓库和Hive环境配置

1.数据仓库架构数据仓库DW主要是一个用于存储，分析，报告的数据系统。数据仓库的目的是面向分析的集成化数据环境，分析结果为企业提供决策支持。-DW不产生和消耗数据结构数据：数据库中数据，CSV文件直接导入DW非结构…

Hive---DDL

文章目录1.hive数据类型1.1 原生数据类型1.2 复杂数据类型1.3 数据类型转换2.Hive读写机制2.1 SerDe2.2 hive读取文件机制2.3 hive写文件机制2.4 SerDe语法3.Hive存储路径3.1 指定存储路径4.Hive建表高阶4.1 hive内部表、外部表4.2 分区表4.2.1 静态分区4.2.2 动态分区4.2.3 分…

网络学生用品商店系统设计与实现(论文+源码)_kaic

摘　要随着互联网的发展，人们的生活发生了巨大的变化，给人们的生活、工作等方面带来了相当大的提高，电子化成为了节约成本、调高效率的代名词。电子商务是利用微电脑技术和网络通讯技术进行的商务活动，买卖双方通过网络所进行各…

hive数据的导入

目录普通表： 分区表： 分桶表： 普通表： load data【 local 】 inpath 数据文件路径 [overwrite] into table 表名 ; --overwrite into table 覆盖添加 -- intotable 追加从linux本地导入数据到表中 load data local in…

Hadoop+Zookeeper+HA错题总结（一）

题目3： 下列哪项通常是hadoop集群运行时的最主要瓶颈？() [单选题] A、CPU B、网络 C、磁盘 IO D、内存【参考答案】: C 【您的答案】: D 这道题的答案取决于集群的性能，一般来说运行时的主要瓶颈是网络。但是如果集群的磁盘IO性能较差&am…

初学大数据必须知道的25个大数据常用术语

1.算法。“算法”如何与大数据相关?即使算法是一个通用术语，但大数据分析使其在当代更受青睐和流行。 2.分析。年末你可能会收到一份来自信用卡公司寄来的包含了全年所有交易记录的年终报表。如果你有兴趣进一步分析自己在食物、衣服、娱乐等方面具体花费占比呢?…

2 hadoop的目录

1. 目录结构： 其中比较的重要的路径有： hdfs,mapred,yarn （1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本 （2）etc目录&#x…

Java大数据技术学习指南与成长路线

对于普通在校大学生来说，参加岗前实训能够有效的把理论和实践结合起来，快速获得动手能力的提升并到达企业对于软件工程师的技能要求，从而获得更高的职业起点和更好的职业发展前景的有效途径。Java发展成熟、功能强大、使用Java开发的大数据框…

Spark 4/5

4. 启动Spark Shell编程 4.1 什么是Spark Shell spark shell是spark中的交互式命令行客户端，可以在spark shell中使用scala编写spark程序，启动后默认已经创建了SparkContext，别名为sc 4.2 启动Spark Shell Shell /opt/apps/spark-3.2.3-bi…

大数据Hadoop入门之集群的搭建

hadoop的三种运行模式本地模式:测试本地的hadoop是否能够运行，用来运行官方的代码。伪分布模式:原先有人拿来测试，目前测试都不用这个模式了。完全分布模式：多台服务器组成分布式环境，生产环境使用分布式主机文件同步命令 sc…

Hadoop 2.2.0和HBase 0.98.11伪分布式

拖了那么久，现在不得不开始了。sadly。前期准备 Hadoop系列软件软件功用HBase数据库Hive数据仓库Mahout机器学习算法、数据挖掘Pig数据分析Avro数据序列化Chukwa日志处理、监控系统Zookeeper协调服务 Hadoop version support matrix • “S” supported •…

Hadoop1.*版本统计文件中字符串出现的数量或收集《未完待续》

入门级项目，实践一下，分析并统计服务器运行日志中调用量最多的SQL语句，把它进行缓存 pom.xml 引入依赖 <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xs…

分布式与云计算系统考试内容总结

文章目录概念问答在云计算应用中使用虚拟化资源的优点：WS-*和RESTful Web服务的区别:为什么网格在学术应用中流行，而云计算在商业应用中占主导地位?概念高性能计算系统（HPC）：强调的是原始的速度性能，通常用来衡量浮点计算能力。【速度性能】高吞吐计算系统（HTC）：强…

Hive多行转多列，多列转多行

hive中的行列转换包含单行、多行、单列、多列，所以一共有四种组和转换结果。一、多行转多列原始数据表目标结果表分析：目标表中的a和b是用分组形成，所以groupby字段选用原始表中col1，c、d、e是原始表中的行值，…

HHU云计算期末复习（下）Hadoop、虚拟化技术、openstack

文章目录第五章 Hadoop分布式文件系统HDFS分离元数据和数据：NameNode和DataNode流水线复制第七章虚拟化技术7.1 虚拟化技术简介7.2 虚拟机迁移7.3 网络虚拟化第八章 openstack8.1 计算服务NovaRabbitMQ 8.2 Swift 第九章云计算数据中心9.1 云数据中心特征9.2 网…

hadoop中combiner是什么

Combiner（合并器） 在Hadoop中，Combiner（合并器）是一个可选的阶段，用于优化MapReduce任务的性能。它是在Map阶段输出之后、规约（reduction）之前执行的。 Combiner的作用是在Map任务…

Hadoop大数据处理框架

Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella 在 2005 年合作开发。后来，Hadoop 被贡献给了 Apache 基金会，成为 Apache 基金会的开源项目。 Hadoop 系统简介 Hadoop 是…

CentOS7 Hadoop3.3.0 安装与配置

一、安装JDK 1、创建文件夹tools和training用于存放压缩包和解压使用，tools存放压缩包，training用于解压后安装jdk和hadoop的路径。 1）回到路径为 / 的位置 cd /2) 创建 tools 和 training mkdir toolsmkdir training3) 进入tools文件夹 …

Spark RDD统计每日新增用户

文章目录一，提出任务二，实现思路三，准备工作1、在本地创建用户文件2、将用户文件上传到HDFS指定位置四，完成任务1、在Spark Shell里完成任务（1）读取文件，得到RDD（2）倒排…

多年DBA实战经验：Greenplum数据库优化技巧与实践

熟悉Greenplum的小伙伴都知道，Greenplum是一款分布式数据库。MPP架构相较于传统的SMP架构更能快速响应分析型应用的需求。利用MPP架构的优势，Greenplum可以处理海量数据。2021数据库大咖讲坛第6期《数据库性能优化技巧与最佳实践》活动中，来自…

Parquet存储的数据模型以及文件格式

文章目录数据模型Parquet 的原子类型Parquet 的逻辑类型嵌套编码 Parquet文件格式本文主要参考文献：Tom White. Hadoop权威指南. 第4版. 清华大学出版社, 2017.pages 363. Aapche Parquet是一种能有效存储嵌套数据的列式存储格式，在Spark中应用较多。 …

调用hadoop api实现文件的上传、下载、删除、创建目录和显示功能

（1）添加必要的hadoop jar包。 A、首先将Hadoop1.1.2.tar.gz解压到某一个磁盘下。 B、右键选择工程，选择build path....， build configure path； C、将hadoop1.1.2文件夹下的jar包添加进去； 还有lib文件夹下…

Hadoop Map/Reduce实现细节

分布式计算（Map/Reduce），同样是一个宽泛的概念，在这里，它狭义的指代，按Google Map/Reduce框架所设计的分布式框架。在Hadoop中，分布式文件系统，很大程度上，是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分布式的文件系统，类似的定义推广到

Apache druid 中提交 hadoop任务合并segement

简述在上篇文章中[Apache Druid 0.18.1 compact （合并，压缩） segements] 说明了使用 compact 任务进行合并，压缩segement。基本上的合并任务compact都可以满足。但如果遇到比较复杂的需要时，例如需要根据维度&…

【运维】hadoop集群安装（一）多节点安装

文章目录一.Purpose二. Prerequisites三. Installation1. 节点规划2. Configuring Hadoop in Non-Secure Mode3. 准备工作4. 配置core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xmlworkers 4. 分发配置、创建文件夹5. 格式化6. 操作进程6.1. hdfs启动停止 6.2. yarn启动…

Hive---sqoop安装教程及sqoop操作

sqoop安装教程及sqoop操作文章目录sqoop安装教程及sqoop操作上传安装包解压并更名添加jar包修改配置文件添加sqoop环境变量启动sqoop操作查看指定mysql服务器数据库中的表在hive中创建一个teacher表跟mysql的mysql50库中的teacher结构相同将mysql中mysql50库中的sc数据导出到h…

Flume系列：案例-Flume复制(Replicating)和多路复用(Multiplexing)

目录 Apache Hadoop生态-目录汇总-持续更新 1：案例流程描述 2：实现步骤： 2.1：实现flume1.conf 2.2：实现flume2_hdfs.conf 2.3：实现flume3_dir.conf 3：启动传输链路 Apache Hadoop生态-目录…

CDH6.3.2搭建HIVE ON TEZ

参考 https://blog.csdn.net/ly8951677/article/details/124152987 ----配置hive运行引擎在/etc/hive/conf/hive-site.xml中修改如下： hive.execution.engine mr–>tez hive.execution.engine 设为tez或者运行代码的时候： set hive.execution.eng…

大数据：VMware | Ubuntu | Hadoop | Spark | VMwaretools | Python 安装配置总结

一.环境概述 Linux发行版：Ubuntu虚拟机应用：VMware Workstation ProHadoop版本：3.1.3|伪分布式集群JDK版本：JDK1.8.0_162Spark版本:2.4.0Scala版本:2.12.8Python版本:3.6.8 | 3.7.16 二.Ubuntu 2.1 光盘文件首先进入链接Down…

日均处理万亿条数据，爱奇艺实时计算平台设计

1.爱奇艺 Flink 服务现状爱奇艺从 2012 年开始开展大数据业务，一开始只有二十几个节点，主要是 MapReduce、Hive 等离线计算任务。到 2014 年左右上线了 Storm、Spark 实时计算服务，并随后发布了基于 Spark 的实时计算平台 Europa。2017 年开…

看一眼常见数据处理的产品

Hadoop vs Spark Hadoop 是一个分布式存储和计算框架，而 Spark 是一个基于内存的分布式计算框架。Hadoop 在存储大数据方面表现出色，而 Spark 在计算和处理大数据方面表现更快。另外，Hadoop 使用 MapReduce 处理数据，而 Spark 使…

javaweb监听器和juery技术

监听servlet创建 package com.hspedu.listener;import javax.servlet.ServletContext; import javax.servlet.ServletContextEvent; import javax.servlet.ServletContextListener;/*** 老韩解读* 1. 当一个类实现了 ServletContextListener* 2. 该类就是一个监听器* 3. 该类可…

2.5 HDFS环境搭建

2.5 HDFS环境搭建下载jdk 和 hadoop 放到 ~/software目录下然后解压到 ~/app目录下 tar -zxvf 压缩包名字 -C ~/app/配置环境变量 vi ~/.bash_profile export JAVA_HOME/home/hadoop/app/jdk1.8.0_91 export PATH$JAVA_HOME/bin:$PATH export HADOOP_HOME/home/hadoop/app/ha…

NameNode 处理线程配置（心跳并发）

NameNode 处理线程配置 NameNode 处理器是处理客户端和数据节点的请求的线程池。这些处理器负责处理诸如读取、写入、删除文件等客户端请求，同时也处理数据节点的心跳和块报告等信息。通过调整处理器的数量，可以控制 NameNode 的并发处理能力&#xf…

大数据之Hadoop环境搭建

Hadoop由GNU / Linux平台及其版本支持。因此，我们必须安装一个Linux操作系统来设置Hadoop环境。如果您有除Linux以外的操作系统，您可以在其中安装Virtualbox软件，并在Virtualbox内部安装Linux。安装前设置在将Hadoop安装到Linux环境之前&…

Hive的基本SQL操作（DDL篇）

目录编辑一、数据库的基本操作 1.1 展示所有数据库 1.2 切换数据库 1.3 创建数据库 1.4 删除数据库 1.5 显示数据库信息 1.5.1 显示数据库信息 1.5.2 显示数据库详情二、数据库表的基本操作 2.1 创建表的操作 2.1.1 创建普通hive表（不包含行定义格…

[Sqoop 安装配置]

目录 🍗前言: 🍗 下载地址: 🍗首先需要有Java环境,确定是否安装Java和Hadoop 🍗压缩包解压指令: #重命名sqoop目录[roothadoop01 local]#mv sqoop-1.4.7 sqoop 修改文件名称 🍗配置环境变量: 🍗刷…

java面试题（14）：Oracle中truncate和delete的区别

（1）Truncate 是DDL 语句，DELETE 是DML语句。 （2）Truncate 的速度远快于DELETE。当执行DELETE操作时所有表数据先被COPY到回滚表空间，数据量不同花费时间长短不一。而TRUNCATE 是直接删除数据，不…

Hadoop3的高可用搭建

1. 准备工作前期准备工作包括了 CenOS 7虚拟化安装与配置， Java虚拟机的安装， Hadoop相关部署包的下载， Hadoop集群所需基础环境的配置。第一点CenOS 7虚拟化安装与配置和第二点Java虚拟机的安装： 需要我们参考第一章&…

Apache Ranger：(二)对Hive集成简单使用

1.Ranger Hive-plugin安装进入 Ranger 编译生成的目录下找到 ranger-2.0.0-hive-plugin.tar.gz 进行解压 tar -zxvf ranger-2.0.0-hive-plugin.tar.gz -C /opt/module/ 2.修改配置文件 vim install.properties #策略管理器的url地址 POLICY_MGR_URLhttp://[ip]:6080#组件…

【大数据之Hive】二、Hive安装

Hive安装部署（最小化部署） 安装部署Hive（最小化只用于本机测试环境中，不可用于生产环境），并运行。步骤： （1）把apache-hive-3.1.3-bin.tar.gz解压到/opt/module/目录下&…

【Hibench 】完成 HDP-Spark 性能测试

🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的…

Hadoop Yarn 配置多队列的容量调度器

文章目录配置多队列的容量调度器多队列查看配置多队列的容量调度器首先，我们进入 Hadoop 的配置文件目录中（$HADOOP_HOME/etc/hadoop）； 然后通过编辑容量调度器配置文件 capacity-scheduler.xml 来配置多队列的形式。默认只…

DEPRECATED: Use of this script to execute hdfs command is deprecated.

在window下安装hadoop，在执行$ bin/hadoop namenode -format命令时出现上述错误。看了网上的很多解决方案，有人说是配置原因，有人说事JAVA_HOME的原因，还有人建议将命令中的hadoop换成hdfs，但是都没解决我的问题。 …

具备哪些条件学习大数据开发更容易？

1. 数学知识数学知识是数据分析师的基础知识。对于初级数据分析师，了解一些描述统计相关的基础内容，有一定的公式计算能力即可，了解常用统计模型算法则是加分。对于高级数据分析师，统计模型相关知识是必备能力，线…

02.hadoop上课笔记之ssh和复习linux

1.ssh(secure shell)使用了加密处理私钥在客户端公钥在服务端 #telnet明文传输#linux默认安装openssh服务#查看,demeon守护进程,进程都有dsystemctl status sshd systemctl restart sshd#查看端口,来查看22是否启动,socket ip端口netstat -lntp//客户端生成私钥,需要设置…

Flume系列：案例-Flume 聚合拓扑(常见的日志收集结构)

目录 Apache Hadoop生态-目录汇总-持续更新 1：案例需求-实现聚合拓扑结构 3：实现步骤： 2.1：实现flume1.conf - sink端口4141 2.2：实现flume2.conf- sink端口4141 2.3：实现flume3.conf - 监听端口4141 …

Hadoop3教程（三十二）：（生产调优篇）NameNode故障恢复与集群的安全模式

文章目录 （159）NameNode故障处理（160）集群安全模式&磁盘修复集群安全模式磁盘修复等待安全模式参考文献 （159）NameNode故障处理如果NameNode进程挂了并且存储的数据也丢失了，如何恢复Nam…

HDFS文件格式及压缩

HDFS（Hadoop Distributed File System）支持多种文件格式和压缩方式，这些格式和方式可以根据数据类型和处理需求进行选择。以下是一些常见的HDFS文件格式和压缩方式：常见的HDFS文件格式： SequenceFile： SequenceFile是Hadoop中一种二进制文件格式，用于存储键-值对。它适…

hadoop大数据基础框架技术详解

一、什么是大数据进入本世纪以来，尤其是2010年之后，随着互联网特别是移动互联网的发展，数据的增长呈爆炸趋势，已经很难估计全世界的电子设备中存储的数据到底有多少，描述数据系统的数据量的计量单位从MB（1…

大数据框架之Hadoop：入门（二）从Hadoop框架讨论大数据生态

第2章从Hadoop框架讨论大数据生态 2.1 Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决，海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念-Hadoop生态圈。 2.2 Hadoop发展历史 1&…

hadoop伪分布式部署

hadoop伪分布式部署hadoop安装 1，jdk安装 2，下载安装包解压 3，配置环境变量hadoopHADOOP_HOMEPATH 4，配置hadoop1，standalonne | local没有守护进程，所有程序运行在同一个jvm，利于test和debug…

7 | 计算每个键对应的平均值，并按降序排序

假设您有一个包含销售订单的RDD，其中每个元素是一个键值对，其中键表示产品名称，值表示销售数量。您希望按产品名称对销售订单进行分组，并计算每个产品的总销售数量。最后，希望获得每个产品的总销售数量以及按产品名称分组的详细销售订单列表。计算每个键对应的总和和计数…

大数据开发：Flink入门（四）——编程模型

flink是一款开源的大数据流式处理框架，他可以同时批处理和流处理，具有容错性、高吞吐、低延迟等优势，本文简述flink的编程模型。数据集类型： 无穷数据集：无穷的持续集成的数据集合有界数据集：有限不会改…

数据库：Hive转Presto（四）

这次补充了好几个函数，并且新加了date_sub函数，代码写的比较随意，有的地方比较繁琐，还待改进，而且这种文本处理的东西，经常需要补充先前没考虑到的情况，要经常修改。估计下一篇就可以补充完所有…

Hadoop3教程（三十四）：（生产调优篇）MapReduce生产经验汇总

文章目录 （164）MR跑得慢的原因（165）MR常用调优参数Map阶段Reduce阶段 （166）MR数据倾斜问题参考文献 （164）MR跑得慢的原因 MR程序执行效率的瓶颈，或者说当你觉得你的MR程…

分布式安装配置spark-3.2.3

Spark是一个基于内存的大数据计算框架，可以与Hadoop集成，提供更快速的数据处理能力。本文将介绍如何在三个Ubuntu系统上搭建一个Spark集群。主要步骤包括： 准备工作：下载安装包，设置环境变量，解压安装包…

【HDFS】Hadoop的分布式文件系统知识点总结

>_< 首先，我们需要从整体上了解什么是分布式文件系统 >_<。分布式文件系统把文件存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。计算机集群听着高大上，其实是由普通廉价硬件组成，硬件开销是极低的…

Hadoop部署完全分布式

在真实的企业环境中，服务器集群会使用到多台机器，共同配合，来构建一个完整的分布式文件系统。而在这样的分布式文件系统中，HDFS相关的守护进程也会分布在不同的机器上，例如: NameNode守护进程，尽可能的…

Hadoop学习---11、HA高可用

1、Hadoop HA高可用 1.1 HA概述 1、所谓HA（High Availablity），即高可用（7 * 24小时不中断服务）。 2、实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。 …

Hive---数据导出

数据导出文章目录数据导出Insert 导出将查询的结果导出到本地将查询的结果格式化导出到本地将查询的结果导出到 HDFS 上Hadoop 命令导出到本地Hive Shell 命令导出Export 导出到 HDFS 上sqoop导出Insert 导出表为student 将查询的结果导出到本地 insert overwrite local d…

如何追赶如此之火的大数据AI热潮？

大数据属新兴领域，专业人才匮乏，高端人才更是企业的争抢对象。踏入大数据领域的我们，高端的AI技术更是我们所需要了解的，而作为初入者，如何追赶大数据AI热潮?怎样去做，才能更加占据优势? 问：大…

Hadoop fs.copyToLocalFile错误

fs.copyToLocalFile(new Path("/study1/1.txt"), new Path("C:/Users/Administrator/Desktop/d2.txt")); 报错 log4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell). log4j:WARN Please initialize the log4j system pro…

Hadoop集群搭建教程（二）

Hadoop集群搭建教程（一） master管理集群在上一篇hadoop集群搭建教程中，启动集群的方式是：需要在每一台节点机器上分别键入启动命令。但是，这样的方法显然很麻烦，而且不人性化，那么我们可以通…

hadoop namenode报错

hadoop启动报错 2014-06-06 19:37:11,332 ERROR org.apache.hadoop.hdfs.server.namenode.FSNamesystem: FSNamesystem initialization failed.java.io.IOException:File system image contains an old layout version -18.An upgrade to version -32 is required. 解决方法&am…

【大数据】一篇文章带你入门HBase

本文已收录至Github，推荐阅读 👉 Java随想录文章目录 HBase特性Hadoop的限制基本概念NameSpaceTableRowKeyColumnTimeStampCell 存储结构HBase 数据访问形式架构体系HBase组件HBase读写流程读流程写流程 MemStore Flush参数说明 StoreFile Compaction参…

Hadoop集群配置（最全面总结）

Hadoop集群配置（最全面总结） huangguisu 通常，集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\ 官方地址&#xff1…

dolphinscheduler的僵尸任务清理和清理一直在运行的任务状态

dolphinscheduler的僵尸任务清理界面操作不了的只能去数据库更改状态或则删除掉原因：海豚调度中有几百条僵尸任务， 界面怎么也删不掉，想从数据库中删除，开始查找从数据库删除的办法。参考以下脚本，结合我库中僵尸…

MapReduce 基础之：图文讲解 MapReduce 工作原理

图文讲解 MapReduce 工作原理理解什么是map，什么是reduce，为什么叫mapreducemapreduc工作流程分片、格式化数据源执行 MapTask执行 Shuffle 过程执行 ReduceTask写入文件整体流程图MapTaskReduceTask理解什么是map，什么是reduce，为…

3.完成ODS层数据采集操作

将原始数据导入mysql 1 选中mysql 运行脚本 2 验证结果数据存储格式和压缩方案存储格式分类 1.行式存储(textFile) 缺点：可读性较好执行 select * 效率比较高缺点：耗费磁盘资源执行 select 字段效率比较低 2.列式存储(orc) 优点：节省磁盘空间. 执行 select 字段…

Spark集群搭建

系列文章目录 Ubuntu常见基本问题 Hadoop3.1.3安装（单机、伪分布） Hadoop集群搭建 HBase2.2.2安装（单机、伪分布） Zookeeper集群搭建 HBase集群搭建 Spark安装和编程实践（Spark2.4.0） Spark集群搭建文章目…

1. Hadoop 入门

1. Hadoop 入门 1. 大数据概述 1. 大数据相关说明大数据由来： 传统数据处理应用软件不足以处理（存储和计算）它们大而复杂的数据集大数据面临的两大问题： 针对海量数据的存储、计算大数据的特性：容量大、种类多…

技术实践｜Hive数据迁移干货分享

导语 Hive是基于Hadoop构建的一套数据仓库分析系统，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。它的优点是可以通过类SQL语句快速实现简单的MapReduce统计，不用再开发专门的MapReduce应用程序，从而降低…

我的私人笔记（安装hadoop）

1.安装hadoop01环境注需安装最小安装和使用英文界面 2.安装群集 // 获得网关IP：192.168.80.2 获得子网掩码：255.255.255.0 // 获得网段：[起始IP地址]192.168.128 --- [结束IP地址]192.168.80.254 // 计划集群的ip和主机名 //192.168.80.…

Hadoop学习总结（搭建Hadoop集群(完全分布式模式)）

学习搭建Hadoop集群（完全分布式模式） 链接：https://pan.baidu.com/s/1wwTKk-XxHbccHjE-Xk2PTA 提取码：q7j7 在SecurityCRT 或者在 Xshell 进行虚拟机链接 （这里使用Xshell ） 在hadoop001里配置如果没…

3.Hive系列之docker-compose部署升级总结

1. 版本号修改对于升级而言，我们最先考虑的是docker hub中有的较新的版本，然后我们需要简单了解下hadoop2与hadoop3的区别，首先明确的是端口号有所改变，如下图所示 2. Hive镜像构建刚刚我们修改了Hive为bde2020/hive:3.1.2-po…

spark面试题（一）

1.1 spark提交模式，有什么不同 spark提交模式有两种：集群模式（cluster）和客户端模式（client） cluster模式下，Spark的Driver会运行在YARN集群内的ApplicationMaster进程中，Applicat…

Hive中的基础函数(一)

一、hive中的内置函数根据应用归类整体可以分为8大种类型。 1、 String Functions 字符串函数主要针对字符串数据类型进行操作，比如下面这些： 字符串长度函数：length •字符串反转函数：reverse •字符串连接函数：…

Hive 未关闭表的事务功能(ACID)的问题

Hive 未关闭表的事务功能(ACID)的问题一、Hive 未关闭表的事务功能(ACID)的所引发的问题记录一次HDP3.0 的hive 3.1.2由于未关闭ACID功能，导致使用到用户画像的Spark计算引擎报错，无法处理数据，impala无法查询的问题。由于hive 3.0之后默…

Hadoop学习笔记（HDP）-Part.05 Yum源配置

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hive【Hive（八）自定义函数】

自定义函数用的最多的是单行函数，所以这里只介绍自定义单行函数。 Coding 导入依赖 <dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId><version>3.1.3</version></dependency>…

大数据组件常见压缩策略和存储格式

目录压缩策略的对比常见的存储格式 ORC Parquet（面试重点）存储和压缩结合该如何选择 <

Docker搭建Hadoop集群

目录 1.拉取centos镜像 2.基础镜像配置(基于centos构建hadoopbase镜像) 3.集群环境配置 1.创建3个容器 2.配置网络 3.配置主机和ip的映射关系 4.配置3个节点的免密登录 4.搭建hadoop集群 1.安装hadoop 2.修改配置文件 3.分发Hadoop及配置文件my_env.sh 5.启动集群 …

Sqoop介绍_以及安装_测试---大数据之Apache Sqoop工作笔记001

这个sqoop主要是用来,把数据从mysql中导入到hdoop中,去看看介绍吧. sql to hadoop 然后我们来看看sqoop,可以看到这里稳定版本是1.4.7 然后1.4.7 跟centos6.8 不是太好配置这里用了1.4.6 但是如果用1.4.7 和centos7 还行可以看看官网,这里sqoop1 跟sqoop2 这里标注了s…

基於Hadoop HA 在kerberos中配置datax

概要提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录概要前言一、基於HADOOP HA 搭建datax二、基於HADOOP HA 配置好的datax去配置kerberos1.在datax的配置文件中進行配置2.在shell腳本中加入認證語句总结前言…

数据湖架构Hudi（三）Hudi核心概念

三、Apache Hudi核心概念 3.1 基本概念 Hudi 提供了Hudi 表的概念， 这些表支持CRUD操作， 可以利用现有的大数据集群比如HDFS做数据文件存储， 然后使用SparkSQL或Hive等分析引擎进行数据分析查询。 Hudi表的三个主要组件： 有序的…

Hadoop Hbase Hive 版本对照一览

这里写目录标题一、Hadoop 与 Hbase 版本对照二、Hadoop 与 Hive 版本对照官网内容记录，仅供参考一、Hadoop 与 Hbase 版本对照二、Hadoop 与 Hive 版本对照

Spark授课版

部署spark Standalone模式的spark 部署 #（1）通过以下步骤，配置Worker节点 #a)重命名slaves.template文件为slaves，使用以下命令： mv /usr/local/spark/conf/slaves.template /usr/local/spark/conf/slaves #b)编辑s…

python自学之《21天学通Python》(18)——第21章案例2 Python搞定大数据

“大数据（Big Data）”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时，大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和GoogleFileSystem （GFS）的发布&a…

实践数据湖iceberg 第四十一课 iceberg的实时性-业界的checkpoint配置

系列文章目录实践数据湖iceberg 第一课入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课在sqlclient中，以sql方式从kafka读数据到iceberg 实践数据湖iceberg 第四课在sqlclient中，以sql方式从kafka读数据到…

大数据开发基础-环境配置篇-Hadoop集群安装

鼠鼠接下来将更新一系列自己在学习大数据开发过程中收集的资源、和自己的总结、以及面经答案、LeetCode刷题分析题解。首先是大数据开发基础篇环境搭建、组件面试题等其次是更新大数据开发面经的java面试基础最后更新一个大数据开发离线数仓的实战项目，自己写入…

Hbase的bulkload流程与实践

文章目录一、前言二、Bulkload 流程与实践1. 案例一：（1）说明与注意事项（2）自我实践 2. 案例二：（1）MR生成HFile文件（2）HFile入库到HBase 3. 案例三&#xff1…

大数据面试核心101问【大厂超级喜欢这些题】

之前出过《史上最全的大数据开发八股文》这篇文章，同学们都觉得还不错，但是有些同学觉得那个背起来还是有些吃力，于是我再次回顾了自己之前面试所有大厂的一些面试题以及牛客上面的一些面经，然后总结了频率问的最高的101问&#x…

hadoop 排序优化

转：http://blog.csdn.net/wf1982/article/details/7369324 hive 全排序优化全排序 Hive的排序关键字是SORT BY，它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。考虑以下表定义： CREATE TABLE if no…

Hadoop2.8.5 作业的提交

Hadoop的RPC是以CS两端协议栈和协议引擎构成的，在查看作业的提交流程过程中我们总是从两端去看的，也即作业提交的Client端和作业接收的Service端。以此将作业的提交分为两个阶段。第一阶段是Client端，主要是作业的准备以及作业如何通过RPC协议…

Linux下Nutch分布式配置和使用

目录介绍. 2 0 集群网络环境介绍. 2 1 /etc/hosts文件配置. 2 2 SSH无密码验证配置. 2 2.1配置所有节点之间SSH无密码验证. 2 3 JDK安装和Java环境变量配置. 3 3.1 安装 JDK 1.6 3 3.2 Java环境变量配置. 4 4 Hadoop集群配置. 4 5 Hadoop集群启动. 6 6 Nutch分布…

[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark：Java大师的大数据研究之旅

作为一位Java大师，我始终追求着技术的边界，最近我将目光聚焦在大数据领域。在这个充满机遇和挑战的领域中，我深入研究了Hadoop、HDFS、Hive和Spark等关键技术。本篇博客将从"是什么"、"为什么"和"怎么办"三个角…

【HDFS面试】HDFS面试题答案

题目 HDFS文件写入和读取流程 HDFS组成架构介绍下HDFS，说下HDFS优缺点，以及使用场景 HDFS作用 HDFS的容错机制 HDFS的存储机制 HDFS的副本机制 HDFS的常见数据格式，列式存储格式和行存储格式异同点，列式存储优点有哪些? …

深入理解Java中的流---结合Hadoop进行详解

在JavaSe的基础课程当中，可以说流是一个非常重要的概念，并且在Hadoop中得到了广泛的应用，本篇博客将围绕流进行深入的详解。 (一)JavaSe中流的相关概念 1、流的定义 ①在Java当中，若一个类专门用于数据传输，则这个类…

ambari1.7安装

1 下载repo 根据hdp的文档http://zh.hortonworks.com/hdp/downloads/ 按照上面说的下载两个 wget -nv http://public-repo-1.hortonworks.com/ambari/centos6/ambari-1.7.0-centos6.tar.gzwget -nv http://public-repo-1.hortonworks.com/HDP/centos6/2.x/GA/2.2.0.0/hdp.rep…

Cloudeep对象存储系统简介(2) --- 元数据存储

Cloudeep对象存储系统简介（2） --- 元数据存储 --Adam 一、前言在大规模存储系统或云存储系统中，高可用、高扩展性的元数据存储问题一直是一个关键点。在GFS 中，Namenode 所维护的元数据信息主要包括file system 的目录…

Hadoop3 - MapReduce DB 操作

一、MapReduce DB 操作对于本专栏的前面几篇文章的操作，基本都是读取本地或 HDFS 中的文件，如果有的数据是存在 DB 中的我们要怎么处理呢？ Hadoop 为我们提供了 DBInputFormat 和 DBOutputFormat 两个类。顾名思义 DBInputFormat 负责从数…

MapReduce：自定义RecordReader阅读器、自定义Partitioner分区器案例

需求源文件中每行为一个数字，分别计算其中奇偶行数字之和分析默认的TextInputFormat会使Mapper接受到字符偏移量为K1，则需要自定义阅读器使K1为行号，在自定义分区器（也可以分组）根据行号将奇偶行分开进行累加代…

使用MapReduce并行构建Lucene索引

[b][colorgreen][sizelarge]散仙前几篇博客上，已经写了单机程序使用使用hadoop的构建lucene索引，本篇呢，我们里看下如何使用MapReduce来构建索引，代码如下： [/size][/color][/b]package com.mapreduceindex;import jav…

AVRO 数据序列化系统学习笔记

本篇内容基于《hadoop权威指南（第三版）》内容。我在实现书中源代码的时候会出现一些错误（我在windows平台下测试），这里做了一些改进，同时我也想在书中内容的基础上了解更多AVRO的信息，所以写这个…

hbase配置kerberos出現個的各種bug

1.最大的為題是master無法啟動 023-06-30 11:13:20,234 WARN [Thread-39] hdfs.DataStreamer: Abandoning BP-1114363457-172.16.10.137-1688007901776:blk_1073743315_2491 2023-06-30 11:13:20,248 WARN [Thread-39] hdfs.DataStreamer: Excluding datanode DatanodeInfoW…

Maxwell系列：Maxwell采集Mysql到Kafka

目录 Apache Hadoop生态-目录汇总-持续更新 1：直接命令行启动(开发环境使用) 1.1：创建topic（可忽略，默认会自动创建） 1.2：命令行方式启动maxwell采集通道 1.3：测试流程 2：通过配…

大数据之Phoenix基本介绍

文章目录前言一、Phoenix简介二、Phoenix入门（一）创建表语法（二）查看表信息（三）删除表（四）大小写问题前言 #博学谷IT学习技术支持# 上篇文章介绍了Phoenix环境搭建，点击…

实践数据湖iceberg 第四十二课（业界视野）业界的流批一体架构

系列文章目录实践数据湖iceberg 第一课入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课在sqlclient中，以sql方式从kafka读数据到iceberg 实践数据湖iceberg 第四课在sqlclient中，以sql方式从kafka读数据到…

MapReduce Partition 分区

MapReduce Partition 分区 MapReduce输出结果个数研究在默认情况下不管Map阶段有多少个并发执行的task，到Reduce阶段，所有结果都将有一个task来进行处理，并且最终结果将输出到一个文件中，part-r-0000。可以进行手动的设置re…

hive调优

hive调优 1 建表优化 1.1 分区表分区表可以减少全表的扫描，查询时先基于分区过滤，再进行查询。对于大型数据集，可以将表划分为多个分区，每个分区包含一定的数据，可以提高效率，因为查询只需要扫描需要…

SparkSQL-SparkOneHive

部署连接Hive操作小试牛刀：Hive版本的WordCount 从MySQL中读取数据存储到hive中部署 1、Spark 要接管 Hive 需要把 hive-site.xml 拷贝到 conf/目录下 2、把 Mysql 的驱动 copy 到 jars/目录下 3、如果访问不到 hdfs，则需要把 core-site.xml 和…

Hadoop运行环境搭建

一、Hadoop运行环境搭建（开发重点） 1.1 模板虚拟机环境准备 0）安装模板虚拟机，IP 地址 192.168.10.100、主机名称 hadoop100、内存 4G、硬盘 50G 不会装模板机的小伙伴可以看博主为你们准备的另一篇博客：大数据之Ha…

大数据技术刷题笔记1：

大数据技术刷题笔记1： 2022找工作是学历、能力和运气的超强结合体，遇到寒冬，大厂不招人，可能很多算法学生都得去找开发，测开测开的话，你就得学数据库，sql，oracle，尤其s…

Hive（17）：Hive Show显示语法

Show相关的语句提供了一种查询Hive metastore的方法。可以帮助用户查询相关信息。 1 显示所有数据库 SCHEMAS和DATABASES的用法功能一样 show databases; show schemas; 2 显示当前数据库所有表/视图/物化视图/分区/索引 show tables; SHOW TABLES [IN database_name]; --指…

【博学谷学习记录】大数据课程-学习第八周总结

Hadoop初体验使用HDFS 1.从Linux本地上传一个文本文件到hdfs的/目录下 #在/export/data/目录中创建a.txt文件，并写入数据 cd /export/data/ touch a.txt echo "hello" > a.txt #将a.txt上传到HDFS的根目录 hadoop fs -put a.txt /2.通过页面查看…

【Go】基于telegraf进行自定义插件开发（二）

基于telegraf进行自定义插件开发（二）前言正文设计开发过程单个服务的处理结构体同时定义了string和数值类型适配本机服务或者多个ip来源程序打包结语前言书接上会，这次记录一下我基于telegraf进行的hdfs监控组件的开发工作，这其…

hadoop的运行模式

作者简介：大家好我是小唐同学(๑>؂<๑），好久不见，为梦想而努力的小唐又回来了，让我们一起加油！！！ 个人主页：小唐同学(๑>؂<๑）的博客主页目前…

项目重点问题

Hadoop宕机 Hadoop解决数据倾斜方法集群资源分配参数（项目中遇到的问题） HDFS小文件处理 Hadoop优化hive和spark比较Flume挂掉 Flume优化 Kafka挂掉 Kafka丢失 https://blog.csdn.net/YoungJ_Zhou/article/details/125605128?ops_request_misc%257B%25…

10分钟数仓实战之kettle整合Hadoop

1.写在前面很多朋友在做数仓的ETL的动作的时候，还是喜欢比较易上手的kettle 前面章节有介绍过安装kettle，可以参考 ETL工具--安装kettle_老码试途的博客-CSDN博客_spoon.bat 安装 kettle在Windows系统中对数据的转换、表和文件的转换等，…

Hadoop：文件操作过程之HDFS打开文件、读流程（部分源码）

DistributedFileSystem和DFSClient Hadoop可以支持不止一种的文件系统，比如对宿主机的文件系统RawLocalSystem、运行在Amazon平台上的S3FileSystem等，所以Hadoop定义了一个FileSystem的抽象类。 DistributedFileSystem继承于FileSystem，是一…

docker按照hadoop集群（docker-compose模式）

docker按照hadoop集群（docker-compose模式） docker-hadoop的github的主页地址先下载下来，修改其中的docker-compose.yml 修改为如下: version: "3"services:namenode:image: bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8co…

HBASE 题库

1、 HBase的特点是什么？ 1）大：一个表可以有数十亿行，上百万列 2）无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列 …

Hadoop：伪分布式集群设置

伪分布式集群（pseudo distributed cluster）是指在一台主机上模拟多个主机；hadoop的守护程序在本地计算机(虚拟机)上运行，模拟集群环境，并且是相互独立的Java进程。在这种模式下，Hadoop使用的是分布式文件…

Hadoop：文件操作过程之HDFS写流程详解（部分源码）

写流程在创建了分布式文件系统的实例后，客户端通过调用该实例的create()方法就可以创建文件，并会发送给Namenode一个RPC调用，在文件系统的命名空间中创建一个新文件，在创建文件前namenode会做一些检查（如文件是否存在…

HBase 相关面试题

文章目录HBase 是什么？HMaster 作用HRegionServer 作用HBase 热点问题HBase 的列族多好还是少好，为什么？HBase优缺点HBase 架构HBase读写数据流程在删除HBase中的一个数据的时候，它什么时候真正的进行删除呢?HBase的一个 region …

Dbeaver连接Hive数据库操作指导

背景：由于工作需要，当前分析研究的数据基于Hadoop的Hive数据库中，且Hadoop服务端无权限进行操作且使用安全模式，在研究了Dbeaver、Squirrel和Hue三种连接Hive的工具，在无法绕开useKey认证的情况下，只能使用…

【大数据离线开发】8.2 Hive的安装和配置

8.3 Hive的安装和配置安装模式： 嵌入模式 ：不需要使用MySQL，需要Hive自带的一个关系型数据库：Derby本地模式、远程模式 ----> 需要MySQL数据库的支持安装 hive 安装包 1、解压tar -zxvf apache-hive-2.3.0-bin.tar.gz -C…

hdfs file system shell的简单使用

文章目录1、背景2、hdfs file system shell命令有哪些3、确定shell操作的是哪个文件系统4、本地准备如下文件5、hdfs file system shell5.1 mkdir创建目录5.2 put上传文件5.3 ls查看目录或文件5.4 cat 查看文件内容5.5 head 查看文件前1000字节内容5.6 tail 查看文件后1000字节…

vmware 修改主机名称 hadoop 服务器环境配置(一)

如何在虚拟机配置主机名称： 1. 如图所示在/etc 文件夹下有个hosts文件。追加映射关系： #关系 ip地址名称 192.168.164.20 hadoop20 2. 保存后，重启reboot即可

第 4 章 HBase 进阶

第 4 章 HBase 进阶 4.1 Master 架构1）Meta 表格介绍：（警告：不要去改这个表） 4.2 RegionServer 架构1）MemStore2）WAL（预写日志）3）BlockCache 4.3 写流程2&…

【Hadoop】（二）hdfs的知识点总结

文章目录前言一、hdfs的优点二、hdfs的缺点三、hdfs的组成架构1）NameNode（nn）2）DataNode（nn）3）Client4）Secondary NameNode四、hdfs的block、packet、chunk1）block五、hd…

Hadoop分布式计算框架-MapReduce

本文所有代码链接：https://download.csdn.net/download/shangjg03/88437313 1.MapReduce概述 Hadoop MapReduce 是一个分布式计算框架，用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。 MapReduce 作业通过将输入的数据集拆分为独…

Apache Paimon 使用 MySQL CDC 获取数据

Paimon支持使用（CDC）同步来自不同数据库的更改，此功能需要Flink及其CDC连接器。准备 CDC Bundled Jar 依赖 flink-sql-connector-mysql-cdc-*.jar同步表在Flink DataStream中或通过flink run使用MySqlSyncTableAction，可以将…

Apache Paimon 使用 Postgres CDC 获取数据

a.依赖准备 flink-connector-postgres-cdc-*.jarb.Synchronizing Tables（同步表） 在Flink DataStream作业中使用 PostgresSyncTableAction 或直接通过flink run，可以将PostgreSQL中的一个或多个表同步到一个Paimon表中。 <FLINK_HOME&g…

1理想的大数据处理框架设计

以下内容基于极客蔡元楠老师的《大规模数据处理实战》做的笔记哈。感兴趣的去极客看蔡老师的课程即可。 MapReduce 缺点高昂的维护成本因为mapreduce模型只有map和reduce两个步骤。所以在处理复杂的架构的时候，需要协调多个map任务和多个reduce任务。例如计…

Flink中遇到的问题

目录 1、提交flink 批处理任务时遇到的问题 2、flink定时任务，mysql连接超时问题 3、yarn 增加并行任务数量配置 4、flink checkpoint 恢复失败 5、flink程序在hadoop集群跑了一段时间莫名挂掉 1、提交flink 批处理任务时遇到的问题问题描述： …

Flink高手之路1一Flink的简介

文章目录一、Flink简介1. Fink的引入2.Flink简介3.支持的编程语言4.Flink的特性5.Flink四大基石6.批处理和流处理二、Flink的架构1.Flink的角色2.编程模型一、Flink简介 1. Fink的引入大数据的计算引擎，发展过程有四个阶段第一代：Hadoop的MapReduce…

Hive中order by，sort by，distribute by和cluster by详解

前言作为数据开发工程师，在平时工作中，肯定接到过产品小姐姐提的排序需求，例如在mysql数据库中，就是使用order by函数。在hive中也是有order by函数的，那么除了order by之外是否还有其他排序函数呢？今天就跟小伙伴们聊聊hive中有哪些排序函数以及使用场景！ 1. order …

Hadoop：认识MapReduce

MapReduce是一个用于处理大数据集的编程模型和算法框架。其优势在于能够处理大量的数据，通过并行化来加速计算过程。它适用于那些可以分解为多个独立子任务的计算密集型作业，如文本处理、数据分析和大规模数据集的聚合等。然而，MapReduce也有…

Hadoop配置日志的聚集——jobhistory不显示任务问题

问题： 一开始job history是正常的，配置了日志的聚集以后不管做什么任务都不显示任务，hdfs是正常运行，而且根据配置步骤都重启过了。下面先po出日志聚集的操作步骤，再讲问题 1.配置yarn-site.xml cd $HADOOP_HOME/e…

Hadoop：HDFS概述与体系结构

HDFS（Hadoop Distributed FileSystem）即Hadoop分布式系统，是Hadoop的两大核心之一（另一个核心是MapReduce） HDFS设计目标和优缺点 HDFS以流式数据访问模式来存储超大文件，运行于商用硬件集群上&#xff1b…

flume介绍及安装

一、什么是flume Flume是Cloudera提供的日志收集系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种storage。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传…

助力工业物联网，工业大数据之ODS层构建：需求分析【八】

文章目录01：ODS层构建：需求分析02：ODS层构建：创建项目环境03：ODS层构建：代码导入01：ODS层构建：需求分析目标：掌握ODS层构建的实现需求路径 step1：目标step…

【Hive实战】Hive的逻辑视图

Hive视图使用 Hive的逻辑视图使用视图的目的视图规则视图的问题Hive中的视图使用定义视图查询视图详细查询引用视图修改视图查询删除视图 Hive的逻辑视图视图是在SQL标准协议中是一种信息模式，是根据定义模式的基础表定义的视图表。 The views of the Information…

【大数据监控】Prometheus、Node_exporter、Graphite_exporter安装部署详细文档

目录Prometheus简介下载软件包安装部署创建用户创建Systemd服务修改配置文件prometheus.yml启动Prometheusnode exporter下载软件包安装部署添加用户创建systemd服务启动node_exportergraphite_exporter下载软件包安装部署创建systemd服务启动 graphite_exporterPrometheus 简介…

Hive（14）：Database|schema（数据库） DDL操作

1 Create database Hive中DATABASE的概念和RDBMS中类似，我们称之为数据库。在Hive中， DATABASE和SCHEMA是可互换的，使用DATABASE或SCHEMA都可以。 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROP…

安装HBase

HBase是一个领先的NoSQL数据库:是一个面向列存储的NoSQL数据库;是一个分布式Hash Map，底层数据是Key-Value格式;基于Google Big Table论文;使用HDFS作为存储并利用其可靠性HBase分布式环境部署①启动ZooKeeper②启动Hadoop (HDFS、YARN)上传、解压、配置环境变量并修…

Hive 运行环境搭建

文章目录Hive 运行环境搭建一、Hive 安装部署1、安装hive2、MySQL 安装3、Hive 元数据配置到 Mysql1) 拷贝驱动2) 配置Metastore 到 MySQL3) 再次启动Hive4) 使用元数据服务的方式访问Hive二、使用Dbaver连接HiveHive 运行环境搭建 HIve 下载地址：http://archive.a…

Hive面试题-HQL转换MapReduce底层核心逻辑剖析

视频可查看：https://www.bilibili.com/video/BV1RV41147Tb/?spm_id_from333.999.0.0&vd_source3ba3c3ba31427f60d734ede7a948de4a 原文地址：Hive学习之路 （二十）Hive 执行过程实例分析 - 扎心了，老铁 - 博客园 (c…

Hadoop：MapReduce之Mapper类的输入

目录 Mapper类 Mapper的输入 InputFormat 文件输入FileInputFormat & 输入分片InputSplit 文本输入TextInputFormat & 行记录阅读器LineRecordReader Mapper的输出收集器Collector 分区器Partitioner 案例：分别计算奇数行和偶数行之和 Hadoop的代…

大数据｜HDFS分布式文件系统

前文回顾：Hadoop系统目录 📚HDFS概述 📚HDFS设计目标 📚HDFS的架构 📚HDFS的副本机制 📚HDFS概述在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理…

Hadoop：MapReduce概述、WordCount

MapReduce概述 MapReduce是Hadoop的两大核心技术之一，HDFS解决了大数据存取问题，而MapReduce是对大数据的高效并行编程模型。 MapReduce任务分为两个阶段：map与reduce；每阶段都是以键值对(key-value)作为输入和输出的&#xff1…

ExitCodeExcetion excode=-1073741701：eclipes运行mapreduce在本地local模式下报错

这几天在mapreduce上摸爬滚打，可谓是困难重重背景如下：mapreduce.framework.name默认为local，在本地(file:///)eclipses运行mapreduce作业，报错万万没想到是因为bin下的winutils.exe不能运行下载个 DirectX修复工具即可

hive 分桶文件的大小多大最合适

hive 分桶文件的大小多大最合适 Hive 分桶文件大小的最佳选择取决于多个因素，例如数据的大小、查询模式、硬件配置和网络带宽等。一般来说，建议将每个桶的大小控制在128 MB到1 GB之间。以下是一些关于选择分桶大小的建议： 根据数据大小选…

phoenix整合hbase及相关简单使用

文章目录一、安装教程二、表映射三、语法一、安装教程下载解压：https://dlcdn.apache.org/phoenix/phoenix-5.1.2/ 进入目录：cd /home/hadoop/phoenix/ 解压：tar -xvf phoenix-hbase-2.1-5.1.2-bin.tar.gz 复制 cp /home/hadoop/phoenix/…

Hadoop：文件操作之Java接口(FileSystem类)

目录通过java.net.URL读取数据通过FlieSystem API读写数据读取数据写入数据新建目录新建文件并写入追加写入一致模型修改配置信息通过FileStatus查询文件系统查看文件系统信息查看块信息查看datanode信息通过java.net.URL读取数据让java程序能够识…

Hive---窗口函数

Hive窗口函数其他函数: Hive—Hive函数文章目录Hive窗口函数开窗数据准备建表导入数据聚合函数window子句LAG(col,n,default_val) 往前第 n 行数据LEAD(col,n, default_val) 往后第 n 行数据ROW_NUMBER() 会根据顺序计算RANK() 排序相同时会重复，总数不会变DENSE…

Hadoop Shell命令总结

主要介绍了一些hdfs的fs命令，这个命令最常用 Hadoop Shell命令总结一、有关于启动的一系列命令1.启动hadoop2.检查hadoop相关进程是否启动3.查看hdfs所有shell命令解释4.查看hdfs系统的版本5.查看hdfs系统状态6.进入hadoop的安全模式7.退出hadoop的安全模式8.关闭ha…

windows下eclipse远程连接虚拟机CentOs里的Hadoop-2.7.3

window下eclipse远程连接虚拟机CentOs里的Hadoop-2.7.3一、安装环境二、步骤1.安装插件(1) 将hadoop-eclipse-plugin-2.7.3.jar复制到eclipse的dropins目录下(2) 将插件包(hadoop-common-2.7.3-bin-master这个插件包)里的hadoop.dll和winutils.exe复制到hadoop解压后你的hadoop…

Hadoop单机模式用MobaXterm环境搭建(详细)

Hadoop单机模式环境搭建一、环境准备二、安装java1.安装java2.java环境配置三、安装Hadoop1.安装Hadoop2.Hadoop环境配置3.修改Hadoop配置文件4.名称节点格式化四、SSH免密登录五、启动Hadoop一、环境准备 1.安装VMware虚拟机并且在虚拟机里安装linux系统 VMware安装虚拟机及C…

HBase---HBase基础语法

HBase基础语法文章目录HBase基础语法基本操作进入 HBase 客户端命令行查看命名空间查看命名空间下的表创建命名空间创建表查看表描述禁用/启用删除表新增列族删除列族更改列族存储版本的限制put 增加数据get 查看数据get条件查询删除指定列族下的指定列删除指定行全表扫描全表…

Kafka 位移主题

Kafka 位移主题位移格式创建位移提交位移删除位移Kafka 的内部主题 (Internal Topic) : __consumer_offsets (位移主题，Offsets Topic) 老 Consumer 会将位移消息提交到 ZK 中保存当 Consumer 重启后，能自动从 ZK 中读取位移数据，继续消费…

Hadoop：四个默认配置文件及与分布式系统搭建有关的属性

目录 core-default.xml hdfs-default.xml mapred-default.xml yarn-default.xml 默认配置文件 Hadoop的底层是通过Java实现的，那么启动hadoop集群的守护线程实际上是加载并运行相关的class字节码文件，而配置信息是存储在相关的xml配置文件中的。 h…

Hadoop：分布式集群搭建成功但livenode为0

背景是这样的：有3台虚拟机，master1、slave1、slave2。在master1上启动了所有守护线程，slave1和slave2中相关的守护线程也跑起来了，并且关闭了防火墙，但在master1上访问localhost:50070中的livenode始终为0，…

如何更深刻的理解 “Gartner2020年数据与分析技术十大趋势”的内涵？

这是傅一平的第363篇原创【提醒：公众号推送规则变了，如果您想及时收到推送，麻烦右下角点个在看，或者把本号置顶】正文开始Gartner 2020年发布了“”数据与分析领域的十大技术趋势”，2020年过去了，这些趋势判…

到底什么是数据湖？全面解读数据湖的缘起、特征、技术、案例和趋势

正文开始本文有1.5万字，预计阅读30分钟，可以先收藏数据湖近几年迅速蹿红，今天笔者做一个综述，包括数据湖的缘起、数据湖的定义、数据湖的特征、数据湖的技术、数据湖的趋势和数据湖的案例六大部分，如果你要入门数据湖&…

数据中台的使命、愿景、本质和六大核心能力

【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群，加微信号frank61822701 为好友后入群。新开招聘交流群，请关注【与数据同行】公众号，后台回复“招聘”后获得入群方法。正文开始数据中台的成为了新的…

有赞数据治理之提质降本

导读：有赞是通过SaaS起家的，经过多年的数据沉淀，有大量数据，可以说是一家大数据公司，但是有赞的最终目标是成为AI公司。在这个阶段，数据积累到一定体量，数据治理是非常有必要的。数据治理的最终…

搭建Hadoop2.9伪分布集群环境

搭建Hadoop2.9伪分布集群环境自己创建一个普通用户，用普通用户登录或者用root登录也可以的，具体根据公司的要求来 systemctl stop firewalld systemctl disable firewalld useradd hadoop1 #我创建的用户是hadoop passwd hadoop1 #这里输入用户hadoop…

（二）大数据实战——hadoop的模板虚拟机搭建

前言在实际的开发过程中，我们的hadoop都是以集群的方式存在，该系列内容我们使用vmware工具构建我们的虚拟机，从而实现hadoop集群搭建。在开始hadoop集群搭建之前，我们需要先创建一个模板虚拟机，便于我们集群虚拟机的…

Flink + Iceberg 全场景实时数仓的建设实践

正文开始整理｜路培杰（Flink 社区志愿者）摘要：Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以 Iceberg、Hudi、Delta 为代表的解决方案应运而生&…

深入浅出亚马逊AWS数据湖

【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群，加微信号frank61822701 为好友后入群。新开招聘交流群，请关注【与数据同行】公众号，后台回复“招聘”后获得入群方法。正文开始一、认识数据湖1、初识…

hadoop自动获取时间

1、自动获取前15分钟 substr(from_unixtime(unix_timestamp(concat(substr(20240107100000,1,4),-,substr(20240107100000,5,2),-,substr(20240107100000,7,2), ,substr(20240107100000,9,2),:,substr(20240107100000,11,2),:,00))-15*60,yyyyMMddHHmmss),1) unix_timestam…

Hadoop的HDFS的集群安装部署

注意：主机名不要有/_等特殊的字符，不然后面会出问题。有问题可以看看第5点（问题）。 1、下载 1.1、去官网，点下载下载地址：https://hadoop.apache.org/ 1.2、选择下载的版本 1.2.1、最新版 1.2.2、其…

关于黑马hive课程案例FineBI中文乱码的解决

文章目录问题描述情况一的解决情况二的解决 ETL数据清洗知识社交案例参考代码结果展示问题描述情况1：FineBI导入表名中文乱码，字段内容正常情况2：FineBI导入表字段中文乱码，表名内容正常情况一的解决使用navcat等工具连接…

Hadoop之HDFS使用命令(常用)

本篇仅记载部分常用命令若无所需命令可查看官方网站Apache Hadoop 3.3.6 – Overview 注：一切命令仅在启动HDFS集群后执行，否则会报错注：仅在hadoop用户下操作在Linux中超级用户是：root 但HDFS的超级用户是：启动n…

L3 Hive操作

示例： 1.建表 create table t_dml (detail_id bigint,sale_date date,province string,city string,product_id bigintcnt double,amt double, )row format delimited fields terminated by ,; //列分隔符create table t_product(product_id bigint,product_name …

自建minio实现doris的快速备份与恢复

一.概述 doris支持通过腾讯云bos、阿里云oss、hdfs实现备份与恢复，但是我们公司doris部署在线下机房，如采用oss/bos, 大数据备份与恢复比较慢，会占用一定的带宽，如采用hdfs，担心小文件太多影响现有的hadoop集群。为了保…

GZ033 大数据应用开发赛题第07套

2023年全国职业院校技能大赛赛题第07套赛项名称： 大数据应用开发英文名称： Big Data Application Development 赛项组别： 高等职业教育组赛项编号： GZ033 …

深入理解 Flink（三）Flink 内核基础设施源码级原理详解

Hadoop 生态各大常见组件的 RPC 技术实现 Flink RPC 网络通信框架 Akka 详解 1、ActorSystem 是管理 Actor 生命周期的组件，Actor 是负责进行通信的组件。 2、每个 Actor 都有一个 MailBox，别的 Actor 发送给它的消息都首先储存在 MailBox 中&#xff0c…

PiflowX-DorisRead组件

DorisRead组件组件说明从Doris存储读取数据。计算引擎 flink 有界性目前Doris Source是有界流，不支持CDC方式读取。组件分组 Doris 端口 Inport：默认端口 outport：默认端口组件属性名称展示名称默认值允许值是否必填描述…

PiflowX组件-FileRead

FileRead组件组件说明从文件系统读取。计算引擎 flink 组件分组 file 端口 Inport：默认端口 outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子pathpath“”无是文件路径。hdfs://server1:8020/flink/test/text.txtfor…

Apache Paimon 的 Query Service 使用

Query Service 可以运行Flink流作业来启动表的查询服务，当QueryService存在时，Flink Lookup Join将优先从中获取数据，这将有效地提高查询性能。 Flink SQL CALL sys.query_service(database_name.table_name, parallelism);Flink Action …

Debian下Hadoop集群安装

Debian下Hadoop集群安装依赖安装 jdk 8 sudo apt-get update && sudo apt-get install -y wget apt-transport-https wget -O - https://packages.adoptium.net/artifactory/api/gpg/key/public | sudo tee /etc/apt/keyrings/adoptium.asc echo "deb [signed…

Middleware ❀ Hadoop功能与使用详解（HDFS+YARN）

文章目录 1、服务概述1.1 HDFS1.1.1 架构解析1.1.1.1 Block 数据块1.1.1.2 NameNode 名称节点1.1.1.3 Secondary NameNode 第二名称节点1.1.1.4 DataNode 数据节点1.1.1.5 Block Caching 块缓存1.1.1.6 HDFS Federation 联邦1.1.1.7 Rack Awareness 机架感知 1.1.2 读写操作与可…

【Hive SQL】统计同名路径下目录数量（基于reverse、split和substr函数）

首先，Hive事务表所产生的的路径信息如下： PS：其中路径信息格式为 /user/hive/warehouse/${database_name}.db/${table_name}/*/user/hive/warehouse/test.db/tran_ts/delete_delta_0000002_0000002_0000 /user/hive/warehouse/test.db/tran_…

大数据实战之前戏

开发背景因为要开发一套通话详单系统。该系统上每天产生1亿条通话话单，要保存一个月的通话话单。也就是保存30亿条通话，能够做到准实时的通话详单查询。于是采用大数据架构进行话单的保存和查询。服务器规划为了验证系统的可用性，我先搭…

实操Hadoop大数据高可用集群搭建（hadoop3.1.3+zookeeper3.5.7+hbase3.1.3+kafka2.12）

前言纯实操，无理论，本文是给公司搭建测试环境时记录的，已经按照这一套搭了四五遍大数据集群了，目前使用还未发现问题。有问题麻烦指出，万分感谢！ PS：Centos7.9、Rocky9.1可用集群配置 iph…

如何借力Alluxio推动大数据产品性能提升与成本优化？

内容简介随着数字化不断发展，各行各业数据呈现海量增长的趋势。存算分离将存储系统和计算框架拆分为独立的模块，Alluxio作为如今主流云数据编排软件之一，为计算型应用（如 Apache Spark、Presto）和存储系统&#xff0…

【Spark分布式内存计算框架——Spark Core】5. RDD 函数补充：关联函数与练习

关联函数当两个RDD的数据类型为二元组Key/Value对时，可以依据Key进行关联Join。首先回顾一下SQL JOIN，用Venn图表示如下： RDD中关联JOIN函数都在PairRDDFunctions中，具体截图如下： 具体看一下join（等…

使用shell脚本安装hadoop高可用集群

文章目录一.创建一台虚拟机二.复制两台虚拟机三.启动集群四.脚本内容如下1.jdk2.hadoop和zookeeper3.一键启动集群注:需要下载psmisc依赖包,否则无法完成自动切换节点集群划分192.168.56.120 hadoop01192.168.56.121 hadoop02192.168.56.122 hadoop03QuorumPeerMainQuorumPeerM…

hadoop高可用集群的搭建

文章目录一.HDFS-HA 集群配置1.1 配置 HDFS-HA 集群1.2 启动 HDFS-HA 集群1.3 配置 HDFS-HA 自动故障转移二、YARN-HA 配置2.1 配置 YARN-HA 集群注:需要下载psmisc依赖包,否则无法完成自动切换节点一.HDFS-HA 集群配置 1.1 配置 HDFS-HA 集群 1.HDFS 高可用集群规划&#xf…

详解MapReduce过程

文章目录一.MapReduce工作流程图片如下二.工作流程机制详解1.TextInputFormat读取文件详细解析2.map端(注意map task 数量由切片数量决定)3.reduce端一.MapReduce工作流程图片如下二.工作流程机制详解 1.TextInputFormat读取文件详细解析 TextInputFormat的源码注释为: 用于…

分布式资源调度框架YARN

文章目录一.YARN产生背景二.YARN(Yet Another Resource Negotiator)概述三.YARN的基本架构核心组件(一)YARN架构(二) 核心组件1.ResouceManager2.YARN架构核心组件-NodeManager3. YARN架构核心组件-ApplicationMaster4. YARN架构核心组件-Container5. YARN的工作机制如下图:(三…

简单讲讲在一台机器上用docker部署hadoop HDFS

为什么写这篇文章? 老东西叫我用vmvare部署hadoop,我觉得这简直蠢毙了,让我们用docker和docker-compose来快速的过一遍如何使用docker-compose来部署简单的hadoop集群范例写在前面,一定要看我!!! 还有注意！Hadoop中的主机名不能带-或者_ 注意了!一定注意存储空…

【hive】行转列—explode()/posexplode()/lateral view 函数使用场景

文章目录一、lateral view函数二、explode()函数三、posexplode()函数四、行转列使用单列转多行多列转多行一、lateral view函数功能: 用于和UDTF函数（explode,split）结合使用，把某一行数据拆分成多行数据，再将多行结果组合成一…

MapReduce实现WordCount词频统计

文章目录一.设计分析二.代码开发1.新建maven工程,添加依赖2.编写Mapper类3.编写Reduce类4.编写Driver类执行Job5.执行会在本工程目录出现一个test目录打开目录中的part-r-00000文件即统计词频文件,如下:6.在hadoop中运行1)修改Driver类中输入输出路径:2)打jar包将jar包上传到ha…

Hadoop的序列化机制

文章目录一.什么是序列化和反序列化二.Hadoop的序列化三.Hadoop的序列化案例一.什么是序列化和反序列化序列化:将对象转化为字节流,以便在网络上传输或者写在磁盘磁盘上进行永久存储反序列化:将字节流转回成对象序列化在分布式数据处理的两个领域经常出现: 进程间通信和永久储…

解决hadoop使用put上传报错问题

hadoop使用put上传报错 WARN hdfs.DataStreamer: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /input/yxqzdata.COPYING could only be replicated to 0 nodes instead of minReplication (1). There are 0 datanode(s) runnin…

NSQuotaExceededException

Caused by:org.apache.hadoop.ipc.RemoteException org.apache.hadoop.hdfs.protocol.NSQuotaExceededException The NameSpace quota (directories and files)of directorytest is exceeded:quota-100 file count-101 参考Spark运行任务时报错：org.apache.hadoop.h…

Hadoop-Hbase

1. Hbase安装 1.1 安装zookeeper、 hbase 解压至/opt/soft，并分别改名配置环境变量并source生效 #ZK export ZOOKEEPER_HOME/opt/soft/zk345 export PATH$ZOOKEEPER_HOME/bin:$PATH #HBASE_HOME export HBASE_HOME/opt/soft/hbase235 export PATH$HBASE_HOME/b…

使用Java API 访问HDFS上的数据

文章目录一.概述二.搭建环境1.使用Maven构建Java程序,添加maven的依赖包2.修改hdfs-site.ml文件,添加如下配置,放开权限,重启hdfs服务3.单元测试的setUp和tearDown方法4.使用Java API操作HDFS的常用操作1)创建目录2)创建文件并写入数据3)重命名操作4)上传本地文件到HDFS5)查看某…

大数据概况和Hadoop生态系统

文章目录一.大数据概况二.Hadoop介绍1.Hadoop概念2.使用Hadoop原因3.Hadoop与关系型数据库对比4.Hadoop生态圈5.Zookeeper6.Hadoop架构7.HDFS特点8.HDFS CLI (command line)三.详解HDFS分布式存储文件系统1.HDFS角色2.HDFS副本机制3.HDFS高可用（High Availability)4…

hadoop和hadoop集群在CentOS7系统下安装和配置

文章目录一.安装CentOS7的linux系统二.hadoop安装前准备三.hadoop安装和相关文件配置(一)安装Hadoop(二)修改配置文件1.hadoop-env.sh运行环境的文件修改2.core-site.xml配置文件修改(机器ip为192.168.56.101)3.hdfs-site.xml配置文件的修改4.新建mapred-site.xml文件写入如下内…

Hadoop YARN的发展史与详细解析

带有 MapReduce 的 Apache Hadoop 是分布式数据处理的骨干力量。借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架，Hadoop 在大数据处理的全新领域迎来了爆炸式增长。Hadoop 还开发了一个丰富多样的应用程序生态系统，包括 Apache Pi…

Hive基础知识

1.Hive简介 Hive是由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。 2.Hive本质 Hive的本质是将HQL转化成MapReduce程序。 Hive处理的数据存储在H…

23年hadoop单机版+hive

文章目录说明分享环境信息安装jdkhadoop配置core-site.xml mysqlhive安装配置hive-site.xml配置hive-env初始化mysql数据库启动验证hive命令hiveserver2方式总结说明工作需要研究hive功能，线上环境不能动，搭建单机版hadoophive测试环境，使…

Hadoop基础——MapReduce

1. Hadoop序列化和反序列化及自定义bean对象实现序列化？ 1) 序列化和反序列化的含义序列化是将内存中的对象转换为字节序列，以便持久化和网络传输。反序列化就是将字节序列或者是持久化数据转换成内存中的对象。 Java的序列化是一个重量级序列化框架&a…

HIVE 复制行n次直到某一列等于200

例如需要复制tmp_1表n次，每复制一次，gday1，直到gday200, 借助 lateral view posexplode，首先用space复制多个空格字符串，复制次数200-gday 然后split将字符串分割成数组，此时该数组大小为200-gday 然后l…

Spark本地模式搭建(local模式)

1.下载安装包官网：https://spark.apache.org/ 选择Download 注意选择之前安装过hadoop 2.启动虚拟机并使用moba连接虚拟机 3.将下载好的安装包拖到moba里下方有拖入的进度条，拖不进去就是权限不够 4.解压安装包重命名文件 5.配置环境变量&#xff…

Hadoop基础——HDFS知识点梳理

HDFS基础知识 1. 介绍一下HDFS组成架构？ 组成部分： HDFS Client,NameNode,DataNodeSecondary NameNode( HA模式下是 StandBy NameNode) Client: 客户端文件切分，文件上传HDFS时，client将文件切分成一个一个的block&#xff0…

Hadoop大数据基础篇

Hadoop大数据基础篇一、Hadoop特点 1. Hadoop优势：高可靠性，高扩展性，高效性(MapReduce)，高容错性 2. Hadoop的组成： HDFS(分布式存储系统)：NameNode，Client，DataNode MapReduc…

HBase 在idea中对表(ddl)和数据(dml)的相应操作

HBase 在idea中对表(ddl)和数据(dml)的相应操作新建Idea—项目工程名为HBaseDemo1 1.pom.xml文件（在文件末尾加入如下代码，导入依赖） <dependencies><dependency><groupId>org.apache.hbase</groupId><artifa…

hadoop环境搭建（转）

首先确定hdfs分布式文件系统目前很多大公司都在用，例如百度、腾讯、淘宝等。相信网上也有很多关于这方面的文档，我写这篇文章只是为了自己更加深刻的学习和理解，或者帮助一些不会搭建的童鞋们！有问题请加群234086986讨论&#xff…

[转]Adobe发布Puppet Recipes for Hadoop

转自：http://www.infoq.com/cn/news/2010/07/adobe-released-puppet-recipes 近日，Adobe向社区发布了Puppet recipes ， 该工具用于自动化Hadoop/HBase的部署工作。InfoQ有幸采访到了PuppetLabs的创建者Luke Kanies以了解更多信息。 Puppet是…

[转]Apache Mahout 简介

转自 IBM社区的一篇文章 http://www.ibm.com/developerworks/cn/java/j-mahout/ 当研究院和企业能获取足够的专项研究预算之后，能从数据和用户输入中学习的智能应用程序将变得更加常见。人们对机器学习技巧（比如说集群、协作筛选和分类）的需求…

【Hadoop】（二）mapreduce的知识点总结

文章目录MapReduce历史背景什么是MapReduce什么是MapReduce分布式计算MapReduce特点Map端流程1）Split分片2）键值对3）Combiner4）Partitioner5）Spill：sort&combiner6）MergeReduce端流程1&…

【Hadoop】（一）初识Hadoop

文章目录一、大数据是什么二、大数据的特点三、数据存储单位四、Hadoop是什么五、Hadoop的特点六、Hadoop的1.x和2.x的区别一、大数据是什么大数据（big data）：是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合&#…

Hadoop开发----经验总结3

之前在Hadoop的开发过程中，一直犯了一个比较严重的错误：一直将windows下的hadoop的本地运行模式理解为hadoop的集群运行模式，现将Hadoop的运行模式总结如下： 1、独立模式即本地运行模式（standalone或local mode&#…

Wrong FS: hdfs://hadoop20:9000/word.txt, expected: file:///－－－异常解决方案

今天搭建了一个hadoop2.0(yarn集群平台)，首先在上面测试了一个FileSystem实例程序，代码如下： package IT0701;import java.io.IOException; import java.net.URISyntaxException;import org.apache.commons.compress.utils.IOUtils; import …

教你如何查看识别hadoop和虚拟机是32位还是64位

转载网址：http://www.aboutyun.com/thread-12796-1-1.html （hadoop） https://zhidao.baidu.com/question/2015516634577501748.html（虚拟机）

《Hadoop基础教程》之初识Hadoop

Hadoop一直是我想学习的技术，正巧最近项目组要做电子商城，我就开始研究Hadoop，虽然最后鉴定Hadoop不适用我们的项目，但是我会继续研究下去，技多不压身。《Hadoop基础教程》是我读的第一本Hadoop书籍，当然在…

hadoop distcp命令的使用

hadoop distcp -update -skipcrccheck -m $num_map $old_table_location $new_table_location命令的使用。简单介绍：http://blog.csdn.net/stark_summer/article/details/45869945 如何在两个集群之间进行表数据的拷贝呢？ 复制表结构；获取…

Hadoop开发过程中所遇到的那些坑

核心内容： 1、Hadoop开发过程中常见问题即解决方案在Hadoop开发的过程中，我们总是遇到各种各样的问题，今天就整理总结一下： 万能的解决方案：6个检查具体日志在Hadoop开发的过程中如果遇到各种异常，首先使…

Hadoop集群搭建过程中DataNode与TaskTracker节点的问题

在Hadoop集群搭建的过程中,我们总会发现在slaves文件中的主机名既是DataNode也是TaskTracker，这是为什么呢？ 今天在黄宜华《深入理解大数据》一书中找到了答案：96页原因： 为了实现Hadoop系统设计中本地化计算的原则&#…

Hadoop中SSH免密码登陆的相关知识

Hadoop中SSH免密码登陆的相关知识：

Exception in thread “main” java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop

今天用sqoop从mysql数据库向hdfs中导入数据时，抛出下列异常： Exception in thread “main” java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.JobContext, but class was expected? 原因：sqoop的版…

Hadoop中的自定义数据类型（序列化、反序列化机制）详解

大家都知道，Hadoop中为Key的数据类型必须实现WritableComparable接口，而Value的数据类型只需要实现Writable接口即可；能做Key的一定可以做Value，能做Value的未必能做Key.但是具体应该怎么应用呢？----本篇文章将结合手机…

sparksql 与flinksql 建表与连表记录

启动flink sql:bin/sql-client.sh 建表 flink建立表 create table iceberg.xxx.xxx (id STRING comment id,dt STRING comment 分区字段 )PARTITIONED BY (dt) with (write.format.default parquet, --指定文件存储格式，默认parquetwrite.parquet.c…

ubuntu系统安装hadoop

Hadoop 分布式计算平台，核心是分布式文件系统HDFS ubantu下安装jdk wget https://repo.huaweicloud.com/openjdk/18.0.1.1/openjdk-18.0.1.1_linux-aarch64_bin.tar.gz tar -zxvf openjdk-18.0.1.1_linux-aarch64_bin.tar.gz mv jdk-18.0.1.1/ /usr/java18 ech…

计算机毕设之基于Hadoop+springboot的物品租赁系统的设计与实现(前后端分离，内含源码+文档+教程)

该系统基于Hadoop平台，利用Java语言、MySQL数据库，结合目前流行的 B/S架构，将物品租赁管理的各个方面都集中到数据库中，以便于用户的需要。在确保系统稳定的前提下，能够实现多功能模块的设计和应用。该系统由管理员功能…

hadoop运行WordCount时，Input path does not exist错误原因

修改配置文件core-site.xml 为如下所示 vim /usr/local/hadoop/etc/hadoop/core-site.xmlxml文件改为 <configuration></configuration>如果将core-site.xml文件变动为原来的内容，则程序将不再去hdfs://localhost:9000下寻找input文件，而是…

hadoop启动报错：Attempting to operate on hdfs namenode as root

在hadoop安装路径的 /hadoop/sbin路径下： 将start-dfs.sh，stop-dfs.sh两个文件顶部添加以下参数 #!/usr/bin/env bash HDFS_DATANODE_USERroot HADOOP_SECURE_DN_USERhdfs HDFS_NAMENODE_USERroot HDFS_SECONDARYNAMENODE_USERroot还有，star…

大数据快速入门开发环境篇：CentOS 7安装配置Hadoop大数据框架开发环境

注意：在开始安装之前，请确保您的CentOS 7系统已经正确安装和配置了Java。Hadoop需要Java来运行。目录一、下载与配置Hadoop框架：1.1、下载与环境变量设置1.2、XML配置文件Hadoop设置1.3、格式化HDFS 二、Hadoop 3.x版本中hdfs命令的问题解…

大数据-hadoop

1.hadoop介绍 1.1 起源 1.2 版本 1.3生产环境版本选择 Hadoop三大发行版本:Apache、Cloudera、Hortonworks Apache版本最原始的版本 Cloudera在大型互联网企业中用的较多 Hortonworks文档较好 1.4架构 hadoop由三个模块组成分布式存储HDFS 分布式计算MapReduce 资源调度引擎Y…

Hive【Hive（一）DDL】

前置准备需要启动 Hadoop 集群，因为我们 Hive 是在 Hadoop 集群之上运行的。从DataGrip 或者其他外部终端连接 Hive 需要先打开 Hive 的 metastore 进程和 hiveserver2 进程。 Hive DDL 数据定义语言 1、数据库（database） 创建数据库 c…

yarn的资源优化的调整参数

yarn的资源优化的调整参数官网： https://hadoop.apache.org/docs/r3.3.6/hadoop-yarn/hadoop-yarn-common/yarn-default.xml 没事多看官网哈 yarn.nodemanager.resource.memory-mb：用于设置NodeManager节点的总内存容量，单位为MB。根据集…

hadoop HDFS分布式计算概述，MapReduce概述，YARN概述

1、分布式计算概述 1.1、什么是（数据）计算我们一直在提及：分布式计算， 分布式暂且不论， “计算”到底是指什么呢？ 大数据体系内的计算， 举例： 销售额统计、区域销售占比、季度…

【大数据】Doris 构建实时数仓落地方案详解（一）：实时数据仓库概述

Doris 构建实时数仓落地方案详解（一）：实时数据仓库概述 1.数据仓库的发展历程2.数据仓库技术的发展3.数仓的相关技术栈4.OLAP 查询5.MPP 架构6.实时数仓定义7.实时数仓的难点数据仓库的概念可以追溯到 20 世纪 80 年代，当时 IBM …

Hadoop-sqoop

sqoop 1. Sqoop简介及原理简介： Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysq1.postgresql..)间进行数据的传递，可以将一个关系型数据库（例如: MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop 的HDFS中&…

Hadoop sqoop

0目录 1.安装sqoop 2.补充sqoop流程 1.安装sqoop 解压、改名 [rootkb129 install]# tar -xvf ./sqoop-1.4.7.tar.gz -C /opt/soft/ [rootkb129 soft]# mv sqoop-1.4.7/ sqoop147 拷贝配置文件 [rootkb129 conf]# pwd /opt/soft/sqoop147/conf [rootkb129 conf]# cp sqoop-en…

Hadoop源码阅读（三）：HDFS上传

说明： 1.Hadoop版本：3.1.3 2.阅读工具：IDEA 2023.1.2 3.源码获取：Index of /dist/hadoop/core/hadoop-3.1.3 (apache.org) 4.工程导入：下载源码之后得到 hadoop-3.1.3-src.tar.gz 压缩包，在当前目录打开Pow…

Apache 原生 Hadoop 运维命令

Hadoop 1、检查原生hadoop和压缩库是否可用 hadoop checknative2、打印hadoop环境的配置路径 hadoop classpathHDFS 1、查看hdfs文件系统的状态 hdfs dfsadmin -report2、获取安全模式的状态 hdfs dfsadmin -safemode get安全模式下只可进行读操作 3、文件系统健康检查 …

Hadoop NameNode执行命令工作流程

Hadoop NameNode执行命令工作流程客户端API或者CLI与NameNode的交互命令数据的格式(1) 预处理流程(2) 创建NameNode与NameNodePrcServer流程(3) HDFS API以及CLI的命令到NameNode的工作执行流程(4) 执行命令的参数流动客户端API或者CLI与NameNode的交互命令数据的格式 hadoop…

一百七十四、Hive——Hive动态分区表加载数据时需不需要指定分区名？

一、目的在Hive的DWD层和DWS层建立动态分区表后，发现动态插入数据时可以指定分区名，也可以不指定分区名。因此，研究一下它们的区别以及使用场景，从而决定在项目的海豚调度HiveSQL的脚本里需不需要指定动态分区的分区名&#xff…

Hadoop知识点之Hadoop发展历程

一、Hadoop名字的起源 Hadoop这个名字不是一个缩写，它是一个虚构的名字。该项目的创建者，Doug Cutting如此解释Hadoop： 这个名字是我孩子给一头吃饱了的棕黄色大象命名的。我的命名标准就是简短，容易发音和拼写，没有…

pg数据表同步到hive表数据压缩总结

1、背景 pg库存放了大量的历史数据，pg的存储方式比较耗磁盘空间，pg的备份方式，通过pgdump导出后，进行gzip压缩，压缩比大概1/10，随着数据的积累磁盘空间告警。为了解决pg的压力，尝试采用hive数据…

「大数据-2.1」HDFS集群启停命令

目录一、HDFS集群一键启停脚本 1. HDFS集群的一键启动脚本 2. HDFS集群的一键关闭脚本二、单进程启停 1. hadoop-daemon.sh脚本 2. hdfs脚本三、总结 1. 一键启停脚本 2. 独立进程启停一、HDFS集群一键启停脚本 Hadoop HDFS组件内置了HDFS集群的一键启停脚本。 1. HDFS集群…

hadoop组件HDFS

HDFS里面的几个组件，分别有哪些功能和作用？ Namenode:主角色,负责和客户端进行沟通.Datanode:从角色,负责存储数据Secondary namenode:秘书,服务器数据的收集，将信息传递给namenode注：Namenode宕机时集群会通过选举机制&#xff…

Hive一行拆分成多行/一列拆分成多列

场景： hive有张表armmttxn_tmp，其中有一个字段lot_number，该字段以逗号分隔开多个值，每个值又以冒号来分割料号和数量，如：A3220089:-40,A3220090:-40,A3220091:-40,A3220083:-40,A3220087:-40,A3220086:-4…

Hadoop：YARN、MapReduce、Hive操作

分布式计算概述分散->汇总模式：（MapReduce就是这种模式） 1. 将数据分片，多台服务器各自负责一部分数据处理 2. 然后将各自的结果，进行汇总处理 3. 最终得到想要的计算结果中心调度->步骤执行模式：…

大数据学习1.4-xShell配置Hadoop

1.创建hadoop目录 mkdir /usr/local/hadoop 2.切换到hadoop中 cd /usr/local/hadoop/ 3.将hadoop直接拖到xShell中 4.解压hadoop tar -zxvf hadoop-2.7.1.tar.gz 5.配置环境变量 vi /etc/profile export PATH$PATH:/usr/local/hadoop/hadoop-2.7.1/bin 6.加载配置文件(不能…

hadoop构建数据仓库实践数据仓库简介和数据仓库设计基础章节读书笔记

1.数据仓库简介 1.0演变 1.1什么是数据仓库本质：数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。要解决的问题：多重数据复制带来的高成本问题（在没有数据仓库的时代，需要大量的冗余数据来支撑多个决策支持…

anbari安装HDP配置本地hadoop yum源

现在搞hadoop的有很多java程序员。java程序员大多是windows使用者，linux只能算是初级中的初级。本人也一样。使用anbari安装hadoop过程中遇到了些问题。而配置本地源这种问题貌似linux高手不屑于写，我就在此记录一下以备后查。环境 red hat 6.4服务器一…

Hive面试题系列第二题-行转列问题

视频讲解地址：https://www.bilibili.com/video/BV1BG4y1v7Ps/?spm_id_from333.788&vd_sourceaa4fb0436f6d978af872cafb81a01178 Hive面试题系列第二题-行转列问题题目：求语文课程成绩大于英语课程成绩的学生的学号表结构: create table score_t…

hadoop完全分布式集群搭建

配置网卡 [roothadoop101 桌面]# vim /etc/udev/rules.d/70-persistent-net.rules [roothadoop101 桌面]# vim /etc/sysconfig/network-scripts/ifcfg-eth0 [roothadoop101 桌面]# vim /etc/sysconfig/networkcentos防火墙配置开机不启动，使用chkconfig命令永久…

Hive静态分区和动态分区（二）

文章目录Hive静态分区和动态分区1. 静态分区1.1 增加3个分区向每个分区中添加数据1.2 查询数据1.2.1 直接查询1.2.2 添加分区信息查询2. 动态分区开启Hive的动态分区支持2.2 建原始表2.3 建立分区表2.4 加载数据3. 多级分区Hive静态分区和动态分区 1. 静态分区建立分区表 c…

The authenticity of host '0.0.0.0 (0.0.0.0)' can't be established.

ubuntu安装Hadoop是出现The authenticity of host ‘0.0.0.0 (0.0.0.0)’ can’t be established.（错误）， 代码如下：rootmaster:/usr/local/hadoop/hadoop-2.6.0# sbin/start-dfs.sh Starting namenodes on [localhost] localho…

hadoop集群机架感知 -副本存储节点选择策略

hadoop集群机架感知 -副本存储节点选择策略 http://hadoop.apache.org/docs/r3.1.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Data_Replication 官方解释 For the common case, when the replication factor is three, HDFS’s placement policy is to put one repli…

第一个MapReduce程序——WordCount

通常我们在学习一门语言的时候，写的第一个程序就是Hello World。而在学习Hadoop时，我们要写的第一个程序就是词频统计WordCount程序。一、MapReduce简介 1.1 MapReduce编程模型 MapReduce采用”分而治之”的思想，把对大规模数据集的操作&…

使用DataX实现mysql与hive数据互相导入

文章目录1.安装DataX1.1上传datax压缩包1.2解压至/usr目录下2. 使用DataX实现mysql中student表导数据到student2表。2.1在mysql中创建数据库2.2导入student.sql文件2.3创建student2表2.3 datax.py mysql2mysql.json2.4查看student2数据3. 使用DataX实现mysql的student表导入hiv…

Hadoop序列化——电话流量案列

1.创建maven工程在pom.xml文件中添加如下依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.1.3</v…

Hadoop WordCount实操

1.创建maven工程在pom.xml文件中添加如下依赖 <dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.1.3</version></dependency><!-- 安装java…

Hadoop伪分布式集群配置

一、虚拟机准备工作每台服务器的配置 1.配置动态ip 配置文件 ifcfg-ens33 vim /etc/sysconfig/network-scripts/ifcfg-ens33 BOOTPROTO"static" 将ip改为动态 IPADDR192.168.47.130 设置ip地址 GATEWAY192.168.47.2 设置…

hadoop2.x MapReduce过程

首先要编写一个mapreduce程序：自定义一个Mapper类继承hadoop的Mapper、一个Reducer类继承hadoop的hadoop的Reducer类，然后使用Job对象把它们组装起来；可以通过Configuration的set方法对这个任务进行个性化设置（设置全局的话修改co…

HDFS基于ACL权限控制

一、开起ACL权限开关 （1）如果是Apache Hadoop：修改hdfs-site.xml的配置，并重启 <property> <name>dfs.namenode.acls.enabled</name> <value>true</value> </pr…

大数据入门

文章目录一、大数据内容地图：二、华为大数据产品：三、HDFS：分布式存储四、MapReduce：方法框架平台五、Yarn：改进MapReduce1.0，新的Hadoop的资源(CPU\内存)管理、任务调度六、HBase：分布式数据库…

使用Java跨平台实现Mapreduce词频统计

本文将演示通过JavaAPI在Hadoop集群上使用Mapreduce进行词频统计的简易过程： 创建Maven项目并本地编写Java代码将要处理的数据上传至Hadoop系统将Maven项目打包成jar包并上传至服务器运行系统：Win10，CentOS 7.6 软件：Maven 3.…

linux环境下建立hadoop虚拟机

第一步打开vmware 2.选择新建稍后安装操作系统这里我选择的是centos7 其他点击默认创建点击编辑配置镜像文件启动虚拟机回车后进入安装页面选择中文下一步选择安装位置点击完成软件选择（这里安装的是图像化界面） 点击开始安装在安装时可…

初识大数据，一定要知道的知识！

初识大数据一、大数据的发展历程二、大数据的核心概念三、大数据的影响四、大数据的核心技术一、大数据的发展历程第一阶段：萌芽期(20世纪90年代至21世纪初) 随着数据挖掘理论和数据库技术的逐步成熟，一批商业智能工具和只是管理技术开始被应用&…

Hadoop的YARN高可用

一、YARN简介 Hadoop2.0即第二代Hadoop，由分布式存储系统HDFS、并行计算框架MapReduce和分布式资源管理系统YARN三个系统组成，其中YARN是一个资源管理系统，负责集群资源管理和调度，MapReduce则是运行在YARN上的离线处理框架。 Y…

【hive】列转行—collect_set()/collect_list()/concat_ws()函数的使用场景

文章目录一、collect_set()/collect_list()二、实际运用把同一分组的不同行的数据聚合成一个行用下标可以随机取某一个聚合后的中的值用‘|’分隔开使用collect_set()/collect_list()使得全局有序一、collect_set()/collect_list() 在 Hive 中想实现按某字段分组&#xff0c…

Hive行转列[一行拆分成多行/一列拆分成多列]

场景： hive有张表armmttxn_tmp，其中有一个字段lot_number，该字段以逗号分隔开多个值，每个值又以冒号来分割料号和数量，如：A3220089:-40,A3220090:-40,A3220091:-40,A3220083:-40,A3220087:-40,A3220086:-4…

Hadoop学习总结（搭建Hadoop集群的安装准备）

目录一、安装 jdk 1、查看电脑中安装的 jdk 版本 2、安装 jdk17 3、配置 path（配置jdk） 4、对 jdk8 和 jdk17 版本做自由切换二、安装vmware 三、安装centos 7（虚拟机） 四、虚拟机设置五、虚拟机网络配置 1、查看 NAT…

修炼离线：（三）sqoop插入hbase 报错权限问题

一：报错现象。二：解决方式。方法一：修改文件所有者。切换hadoop用户：export HADOOP_USER_NAMEhdfs hadoop fs -chown -R root:root /方法二：修改权限切换hadoop用户：export HADOOP_USER_NAMEhdfs ha…

Hadoop Hbase

0目录 1.Hbase安装 2.表操作 3.hbase原理 1. Hbase安装 1.1 安装zookeeper 下载解压zookeeper和hbase到soft目录 1.2 安装hbase 配置环境变量 vim /etc/profile #ZK export ZOOKEEPER_HOME/opt/soft/zk345 export PATH$ZOOKEEPER_HOME/bin:$PATH #HBASE_HOME export H…

Hadoop设置固定ip无效的解决办法

今天配置Hadoop的时候，执行vi /etc/sysconfig/network-scripts/ifcfg-ens33修改网络配置文件后，一切正常，但重启后IP改变了，并且在修改以及重启网络连接数次后，IP依旧不按照我在ifcfg-ens33中配置的那样，检…

Hadoop初识及信息安全（大数据的分布式存储和计算平台）

目录什么是Hadoop Hadoop的特点 Hadoop优点 Hadoop的缺点 Hadoop的重要组成信息安全什么是Hadoop Hadoop 是一个适合大数据的分布式存储和计算平台。 Hadoop的广义和狭义区分： 狭义的Hadoop:指的是一个框架，Hadoop是由三部分组成：H…

【Hadoop】HDFS API 操作大全

🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_Linux,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的帮助&#x1…

简单的考试系统

开发一个简单的考试系统，在HTML页面中建立一个表单，通过post方法传递参数。题目类型包括单选题、多选题和填空题，要求程序给出考试成绩。 <!DOCTYPE html> <html> <head><title>question.html</title><met…

Hadoop2复安装过程详细步骤

1、在vmware中更改了虚拟机的网络类型，--->NAT方式，（虚拟交换机的ip可以从vmvare的edit-->vertual network editor看到） 2、根据这个交换机（网关）的地址，来设置我们的客户端windows7的ip&…

Hive【Hive（四）函数-单行函数】

函数函数简介方便完成我们一些复杂的操作，就好像我们 Spark 中的 UDF 函数，避免用户反复写逻辑。 Hive 提供了大量的内置函数，主要可以分为以下几类： 单行函数聚合函数炸裂函数窗口函数下面的命令可以查看内置函数的相关…

[hive]搭建hive3.1.2hiveserver2高可用可hive metastore高可用

参考: Apache hive 3.1.2从单机到高可用部署 HiveServer2高可用 Metastore高可用 hive on spark hiveserver2 web UI 高可用集群启动脚本_薛定谔的猫不吃猫粮的博客-CSDN博客没用里头的hive on spark,测试后发现版本冲突一、Hive 集群规划(蓝色部分) ck1ck2ck3Secondary…

【大数据开发技术】实验02-Hadoop常用命令

文章目录 Hadoop常用命令1、实验描述2、实验环境3、相关技能4、知识点5、实验步骤6、总结练习提高 Hadoop常用命令 1、实验描述熟悉HDFS的命令行接口 2、实验环境虚拟机数量：3 系统版本：Centos 7.5 Hadoop版本：Apache Hadoop 2.7.3 …

hive数据初始化

mysql版本：3.1.3 hive版本： 8.0.31 hive连接配置 <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://node88:3306/hive?createDatabaseIfNotExisttrue</value> </pr…

部署和使用dinky问题总结

flink1.16 dinky（dlink）0.7.4 官方部署文档：http://www.dlink.top/docs/0.7/deploy_guide/build/ github部署文档：https://github.com/DataLinkDC/dinky/blob/v0.7.4/docs/docs/deploy_guide/deploy.md github issues：…

JDBC MySQL任意文件读取分析

JDBC MySQL任意文件读取分析文章首发于知识星球-赛博回忆录。给主管打个广告，嘿嘿。在渗透测试中，有些发起mysql测试流程(或者说mysql探针)的地方，可能会存在漏洞。在连接测试的时候通过添加allowLoadLocalInfileInPath,allowLoadLocalInf…

【hadoop3.x】一搭建集群调优

一、基础环境安装 https://blog.csdn.net/fen_dou_shao_nian/article/details/120945221 二、hadoop运行环境搭建 2.1 模板虚拟机环境准备 0）安装模板虚拟机，IP 地址 192.168.10.100、主机名称 hadoop100、内存 4G、硬盘 50G 1）hadoop100…

实验五熟悉 Hive 的基本操作

实验环境： 1.操作系统：CentOS 7。 2.Hadoop 版本：3.3.0。 3.Hive 版本：3.1.2。 4.JDK 版本：1.8。实验内容与完成情况： （1）创建一个内部表 stocks，字段分隔符为英文逗号…

日常学习记录随笔-大数据之日志(hadoop)收集实战

数据收集(nginx)--->数据分析---> 数据清洗--->数据聚合计算---数据展示可能涉及到zabix 做任务调度我们的项目电商日志分析比如说我们现在有一个系统,我们的数仓建立也要有一个主题我这个项目是什么我要干什么定义方向对用户进行分析,用户信息要懂整个数据的流…

数据仓库Hive（林子雨课程慕课）

文章目录 9.数据仓库Hive9.1 数据仓库的概念9.2 Hive简介9.3 SQL语句转换为MapReduce作业的基本原理9.4 Impla9.4.1 Impala简介9.4.2 Impala系统架构9.4.3 Impala查询执行过程9.4.4 Impala与Hive的比较 9.5 Hive的安装和基本操作9.5.1 Hive安装9.5.2 Hive基本操作 9.数据仓库Hi…

hadoop namenode -format报错显示：命令未找到

这个bug很搞笑，我做分布式搭建时，slaver1和slaver2都可以hadoop name -format，就是master不可以，配置都是一样的，这个第一时间也是想到了环境配置问题打开环境配置文件编辑 sudo vim ~/.bashrc 添加以下代码&#…

HDFS编程实践-从HDFS中下载指定文件到本地

前言：Hadoop采用java语言开发，提供了Java Api与HDFS进行交互先要把hadoop的jar包导入到idea中去为了能编写一个与hdfs交互的java应用程序，一般需要向java工程中添加以下jar包 1）/usr/local/hadoop/share/hadoop/common目录下…

在Linux上快速安装Hadoop（命令行实现）

本文主要讲解了单台虚拟机安装Hadoop的命令行流程（即跳过前期VMstation、Xshell、虚拟机的可视化安装），本机系统为CentOS 1.关闭防火墙运行以下命令并编写脚本： vim close.sh#!/bin/bash #关闭selinux setenforce 0 #清除filt…

hadoop 大数据笔记

1、问题1 localhost: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-na menode-ubuntu-1.out hadooplocalhosts password: localhost: Connection closed by …

在hadoop上搭建hbase集群环境

目录一、搭建ZooKeeper二、配置文件修改三、配置环境变量四、启动ZooKeeper五、启动Hbase六、问题记录问题一，HBase的jar包和Hadoop的jar包有冲突问题二，各个节点的和主节点相差太大一、搭建ZooKeeper 下载最新的zookeeper包，上传到服务器上…

在centos7上搭建hadoop大数据平台

目录一、安装搭建java环境1、安装方法2、查看是否已安装3、卸载4、安装4.1 检查 yum 中有没有 java1.8 包4.2 开始安装5、验证二、 Hadoop安装1、下载2、准备启动 Hadoop 集群2.1配置Hadoop守护进程的环境2.2配置系统环境变量2.3 配置etc/hadoop/core-site.xml文件2.4配置etc/h…

Sqoop--Hadoop和关系型数据库中的数据相互转移的工具

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如 ： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。 Sqoop官方版本&a…

大数据处理分析的六大工具（转）

大数据是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源：传感器、气候信息、公开的信息、如杂志、报纸、文章。大数…

Hadoop之Yarn

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Co…

win7环境hadoop上传异常解决：Failed to set permissions of path

这种问题肯定是某个地方有个权限判断导致的，我们导入源码后，ctrlh 全局搜索“Failed to set permissions”，肯定会有所发现。学习的时候在windows上面测试，那么这个权限开关就无关重要。 1：导入hadoop-1.1.2源码 core部…

Hive面试题系列第五题-Uv累加趋势图问题

视频讲解地址： https://www.bilibili.com/video/BV1114y1b7eP/?spm_id_from333.788&vd_sourceaa4fb0436f6d978af872cafb81a01178 Hive面试题系列第五题-uv累加趋势图问题题目：每个用户访问店铺shop_id的商品时都会产生一条访问日志，求每…

大数据主流技术框架及概述

大数据技术框架1. 简介大数据技术体系主要涉及方面：数据采集，数据处理，数据存储以及分布式协调服务； 数据采集：etl，kettle，flume 数据处理：离线处理hadoop，实时处理spa…

MapReduce开发流程及示例

文章目录MapReduce开发流程（1）输入数据接口：InputFormat（2）逻辑处理接口：Mapper（3）Partitioner分区（4）Comparable排序（5）Combiner合并…

Hive的3种执行引擎区别与适用场景

1. Hive的3种执行引擎适用场景 ● Hive底层的计算由分布式计算框架实现,目前支持三种计算引擎,分别是MapReduce、Tez、 Spark。 ● Hive中默认的计算引擎是MapReduce ,由hive. execution. engine参数属性控制。 MapReduce引擎：多job串联，基于磁盘&…

虚拟形象也需要穿衣打扮？ | MixLab人工智能

只要提起虚拟人像，大家可能首先想到的是苹果的虚拟表情包，但其实 genies 公司在 2018 年就开发了第一个SDK，不过当初由于技术原因，许多细节并不完美，即便如此，成品也已经十分出色。第一个版本中&#xff0c…

数仓开发常用hive命令

在做数仓开发或指标开发时，是一个系统工程，要处理的问题非常多，经常使用到下面这些hive命令： 内部表转外部表 alter table ${tablename} set tblproperties (EXTERNALTrue); 外部表转内部表 alter table ${tablename} set tblpr…

Hive【Hive（二）DML】

启动 hive 命令行： hive DML 数据操作 1、数据导入 1.1、向表中装载数据（load） 语法： hive> load data [local] inpath 数据的path [overwrite] into table student [partition (partcol1val1,…)];（1&#x…

Greenplum 对比 Hadoop

Greenplum属于MPP架构，和Hadoop一样都是为了解决大规模数据的并行计算而出现的技术，两者的相似点在于： 分布式存储，数据分布在多个节点服务器上分布式并行计算框架支持横向扩展来提高整体的计算能力和存储容量都支持X86开放集群架…

【大数据开发技术】实验03-Hadoop读取文件

文章目录 Hadoop读取文件一、实验目标二、实验要求三、实验内容四、实验步骤附：系列文章 Hadoop读取文件一、实验目标熟练掌握hadoop操作指令及HDFS命令行接口掌握HDFS原理掌握HDFS的API使用方法掌握通过URL类读取HDFS上的文件内容的方法掌握FileSystem读取HDFS…

mac docker部署hadoop集群

1. 安装docker 确保电脑已经安装docker docker安装过程可自行查找资料，mac下docker可以使用brew命令安装安装之后，查看docker版本，确认安装成功 docker -v2. 下载jdk 最好下载jdk-8，jdk的版本过高可能hadoop2.x不支持jdk-8的下…

Hive SQL初级练习（30题）

前言 Hive 的重要性不必多说，离线批处理的王者，Hive 用来做数据分析，SQL 基础必须十分牢固。环境准备建表语句这里建4张表，下面的练习题都用这些数据。 -- 创建学生表 create table if not exists student_info(stu_id st…

HDFS最基础使用

文章目录一、简介1、定义2、HDFS优缺点3、HDFS组成架构4、HDFS文件块大小二、HDFS的读写流程1、HDFS写数据流程2、HDFS读数据流程3、网络拓扑-节点距离计算4、机架感知（副本存储节点选择） 三、NameNode和SecondaryNameNode1、NN和2NN工作机制2、Fsimag…

Ubuntu中启动HDFS后没有NameNode解决办法

关闭进程： stop-dfs.sh 格式化： hadoop namenode -format 出现报错信息： 23/10/03 22:27:04 WARN fs.FileUtil: Failed to delete file or dir [/usr/data/hadoop/tmp/dfs/name/current/fsimage_0000000000000000000.md5]: it still exi…

Hadoop、Spark、Storm、Flink区别及选择

hadoop、spark、storm、flink如何选择 hadoop和spark是更偏向于对大量离线数据进行批量计算，提高计算速度storm和flink适用于实时在线数据，即针对源源不断产生的数据进行实时处理。至于storm和flink之间的区别在于flink的实时性和吞吐量等要比storm高。…

Hadoop3教程（十二）：MapReduce中Shuffle机制的概述

文章目录 （95） Shuffle机制什么是shuffle？Map阶段Reduce阶段参考文献 （95） Shuffle机制面试的重点什么是shuffle？ Map方法之后，Reduce方法之前的这段数据处理过程，就叫做shuff…

Hadoop3教程（十三）：MapReduce中的分区

文章目录 （96） 默认HashPartitioner分区（97） 自定义分区案例（98）分区数与Reduce个数的总结参考文献 （96） 默认HashPartitioner分区分区，是Shuffle里核心的一环&#xf…

Hadoop伪分布式环境搭建

什么是Hadoop伪分布式集群？ Hadoop 伪分布式集群是一种在单个节点上模拟分布式环境的配置，用于学习、开发和测试 Hadoop 的功能和特性。它提供了一个简化的方式来体验和熟悉 Hadoop 的各个组件，而无需配置和管理一个真正的多节点集群。在 Ha…

hadoop学习前置—jdk部署和ssh

jdk部署 Hadoop安装前置要求Java版本在1.8 安装过程（本过程在root用户下进行，非root用户目录有轻微变动）： 拷贝本地软件包到服务器（wget等方法均可）解压jdk: # tar -zvxf jdk-8u231-linux-x64.tar.gz -C…

centos7 集群配置常用命令 | 更新中

启动集群 （关闭命令–就把 start 改成 stop 即可） [roothadoop101 hadoop-2.7.2]# sbin/hadoop-daemon.sh start namenode[roothadoop101 hadoop-2.7.2]# sbin/hadoop-daemon.sh start datanode[roothadoop101 hadoop-2.7.2]# sbin/yarn-daemon.sh star…

yarn 8088 页面无法打开：拒绝连接请求

前言：namenode, datanode, resourcemanager, nodemanager全部正常启动，但是无法打开web页面：http:// 虚拟机IP :8088/cluster。这个问题的解决，有两个思考方向： 1.本机与虚拟机网络连接问题：查看本机与虚…

MapReduce 作业状态卡死 ACCEPTED: waiting for AM container to be allocated, launched and register with RM.

前言：配置好了yarn后，跑wordcount的例子，但是一直未完成。web页面查看任务状态为：ACCEPTED: waiting for AM container to be allocated, launched and register with RM. 在web页面查看其状态，如果active nodes为0&am…

centos7 | hdfs的web端下载报错 | 本地可以新建目录、上传文件、跑examples、查看output结果；web端可以查看文件目录；唯独不能从web端下载

前言：如题，系统cenos7。小白，第一次学习配置hdfs，单节点： 按老师示范的顺序，完成了hadoop-env.sh文件中设置Java的绝对路径，修改core-site.xml，hdfs-site.xml。第一次启动格式化了…

win系统下pycharm下py2.x和py3.x双环境的pyspark配置

一、py2.x和py3.x双环境的安装第一步：首先在win上分别安装anaconda2和anaconda3，注意安装在不同的文件路径下，并且在安装二个的时候下边这二个框不一定不勾选，安装第一个时候可以勾选。然后，分别设置好环境变量&…

chmod: changing permissions of ‘/user/hive/warehouse‘: Permission denied. user=hdfs is not the owner

安装hive后发现无法创建表和写入在执行Hadoop的创建目录、写数据等情况，可能会出现该异常，而在读文件的时候却不会报错，这主要是由于系统的用户名不同导致的，由于我们进行实际开发的时候都是用Windows操作系统，而编译…

Hive练习之蚂蚁森林

背景说明： 以下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。 user_low_carbon user_id data_dt low_carbon 用户日期减少碳排放 u_001 2017/1/1 10 u_001 2017/1/2 150 u_001 2017/1/2 110 u_001 2017/1/2 10 u_001 2017/1/4 50 u_001 2017/1/4 10…

Hadoop 运行原理（一）Configuration解析

本系列基于 Apache Hadoop 2.7.2，并附源码。 PS：Apache 基金下所有项目源码都可以在 archive.apache.org 这个网页中找到。强烈鄙视那些拿着公开源码放到论坛中提供有偿下载的行为！！！ Hadoop 运行原理概览 Hadoop 的…

Linux和Hadoop的学习

目录 1. Linux的常用快捷键2. Hadoop集群部署问题汇总 1. Linux的常用快捷键复制：CtrlshiftC 粘贴：CtrlshiftV TAB：补全命令编写输入：i 退出编写：esc 保存并退出：shift： 2. Hadoop集群部署问…

大数据与Hadoop入门理论

一、大数据的3种数据类型 1、结构化数据可定义，有类型、格式、结构的强制约束如：RDBMS（关系型数据库管理系统） 2、非结构化数据没有规律没有数据约束可言，很复杂难以解析如：文本文件，视…

Hadoop设置hdfs全局指令

在终端进入用户个人环境变量配置文件 vim ~/.bashrc 然后添加如下内容 export PATH$PATH:/usr/local/hadoop/bin 添加到你的hadoop下载目录的bin目录为止就可以了重新激活一下配置文件 source ~/.bashrc hdfs有专属于自己的文件存储目录,加上特殊的指令就可以箱终端一…

数据库：Hive转Presto（三）

继续上节代码。 import re import os import tkinter.filedialog from tkinter import *class Hive2Presto:def __int__(self):self.t_funcs [substr, nvl, substring, unix_timestamp] \[to_date, concat, sum, avg, abs, year, month, ceiling, floor]self.time_funcs [d…

【大数据 | 综合实践】大数据技术基础综合项目 - 基于GitHub API的数据采集与分析平台

🤵‍♂️ 个人主页: AI_magician 📡主页地址： 作者简介：CSDN内容合伙人，全栈领域优质创作者。 👨‍💻景愿：旨在于能和更多的热爱计算机的伙伴一起成长！！&…

Hadoop(林子雨慕课课程)

文章目录 2. Hadoop2.1 Hadoop简介2.2 Hadoop版本演变2.3 Hadoop项目结构2.4 Hadoop集群的部署和使用 2. Hadoop 2.1 Hadoop简介 Hadoop可以支持多种编程语言:c,c,java,python Hadoop用java语言开发，具有跨平台特性 Hadoop两大核心：HDFSMapReduce 分别…

手机爬虫用Appium详细教程：利用Python控制移动App进行自动化抓取数据

Appium是一个强大的跨平台工具，它可以让你使用Python来控制移动App进行自动化操作，从而实现数据的抓取和处理。今天，我将与大家分享一份关于使用Appium进行手机爬虫的详细教程，让我们一起来探索Appium的功能和操作，为手…

分布式文件系统HDFS(林子雨慕课课程)

文章目录 3. 分布式文件系统HDFS3.1 分布式文件系统HDFS简介3.2 HDFS相关概念3.3 HDFS的体系结构3.4 HDFS的存储原理3.5 HDFS数据读写3.5.1 HDFS的读数据过程3.5.2 HDFS的写数据过程 3.6 HDFS编程实战 3. 分布式文件系统HDFS 3.1 分布式文件系统HDFS简介 HDFS就是解决海量数据…

Hive窗口函数回顾

1.语法 1.1 基于行的窗口函数 Hive的窗口函数分为两种类型，一种是基于行的窗口函数，即将某个字段的多行限定为一个范围，对范围内的字段值进行计算，最后将形成的字段拼接在该表上。注意：在进行窗口函数计算之前&#…

mac安装hadoop3.2.4

背景：mac自带的brew 安装 brew install hadoop 默认3.3.6，安装后Hadoop version没反应。遂决定手动安装。开始：避免最新版报错，此处安装3.2.4版本。 1.地址： Index of /hadoop/common/hadoop-3.2.4 2.解压 tar -z…

Hadoop3教程（二十）：MapReduce的工作机制总结

文章目录 （109）MapTask工作机制（110）ReduceTask工作机制&并行度ReduceTask工作机制MapTask和ReduceTask的并行度决定机制 （122）MapReduce开发总结参考文献 （109）MapTask工作机制…

Hadoop知识点+面试题大全

20道面试题及详细解答！ 1.说说什么是结构化数据、非结构化数据和半结构化数据结构化数据、非结构化数据和半结构化数据是根据数据的组织结构和格式来划分的不同类型的数据。结构化数据：结构化数据是按照预定义的数据模型进行组织和存储的数据。它通常…

Java Api 操作 Hbase

1.需求主要实践建表、插入数据、删除数据、查询等功能。要求建立一个如下所示的表： 表名：$your_name:student空白处自行填写, 姓名学号一律填写真实姓名和学号2.思路 2.1 建立远程Hbase集群连接 -- HbaseInit.java package com.jike.bigdata;import…

Yarn的运行流程

MapReduce程序提交Yarn流程： 不同计算引擎在Yarn上AppMaster、AppWorker及运行方式： EngineAppMasterAppWorkerTask UnitMapReduceMRAppMasterMapTask / ReduceTaskProcess （JVM进程)SparkApplicationMasterExecutorThread（一个E…

MapReduce全局共享数据

由于继承Mapper基类的Map阶段类和继承Reducer基类的Reduce阶段类的运行都是独立的，并不像代码看起来那样会共享同一个Java虚拟机的资源，所以不能直接使用代码级别的全局变量。下面介绍几种在MapReduce编程中相对有效的设置全局变量的方法。 1、读写HDFS文…

Hadoop版本

（1） Hadoop 1.0 第一代hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，MapReduce由一个JobTracker和多个TaskTracker组成，对应Hadoop版…

MapReduce任务的优化

1、任务调度任务调度是Hadoop中非常重要的一环，这个优化又涉及两个方面的内容。计算方面：Hadoop总会优先将任务分给空闲的机器，使得所有任务能公平地分享系统资源。IO方面：Hadoop会尽量将Map任务分配给InputSplit所在的机器&…

web访问Hadoop无法创建和上传文件

1、现象 Create按钮无法点击，Upload按钮无法点击 2、解决方式修改core-site.xml，指定用户并设置去掉权限检查  <property><name>hadoop.http.staticuser.user</name><value>root</value> </pr…

技术x创造力：谷歌starline、铁磁流｜ Mixlab设计黑客

‍‍Starline项目这是谷歌一个软硬件结合的技术项目，目的是实现远方的人们之间的面对面交流。技术上，使用三维重建来捕获用户，经过实时数据压缩，以利用现有网络传输大量数据。使用一种光场显示系统，用户无需佩戴眼镜&a…

在写hadoop程序时,idea配置maven时出现的错误

错误1 dependency org.apache.hadoop:hadoop-client: XXXnot found 解决办法先看看maven有没有刷新,刷新一下,这里是要等一会的,看右下角进度;clean双击一下,再install双击一下看看有没有在下载,是要等一会的看右下角进度;或者重启一下idea试试; 我的解决-----idea和maven的…

Spark - hadoop.mapred.InvalidInputException matches 0 files sc.textFile 忽略空文件

一.引言 spark 代码执行任务时需要读取一个依赖文件，文件执行时该文件状态未知，有可能存在也有可能是空文件夹，遂增加 Try Catch 进行包装，当 sc.textFile 读取异常时，返回 emptyRdd，但是实际执行中&#…

Spark : local 模式 org.apache.hadoop.conf.Configuration.getPassword(Ljava/lang/String；)[C

一.引言 spark local[*] 模式下本地测试报错: Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.conf.Configuration.getPassword(Ljava/lang/String;)[C 二.解决方案 NoSuchMethodError 报错之前分析过类似解决步骤 : java.lang.NoSu…

Hive【Hive（三）查询语句】

前言今天是中秋节，早上七点就醒了，干啥呢，大一开学后空教室紧缺，还不趁着假期来学校等啥呢。顺便偷偷许个愿吧，希望在明年的这个时候，秋招不知道赶不赶得上，我希望拿几个国奖，蓝桥杯…

一百八十八、Hive——HiveSQL查询表中的日期是星期几（亲测，附截图）

一、目的指标需要查询以工作日和周末维度的数据统计，因此需要根据数据的日期判断这一天属于星期几，周一到周五为工作日，周六到周日为周末二、SQL查询 （一）SQL语句 selectday,case when pmod(datediff(create_tim…

关于一篇什么是JWT的原理与实际应用

目录一.介绍 1.1.什么是JWT 二.结构三.Jwt的工具类的使用 3.1. 依赖 3.2.工具类 3.3.过滤器 3.4.控制器 3.5.配置 3.6. 测试类用于生成JWT 解析Jwt 复制jwt，并延时30分钟测试JWT的有效时间测试过期JWT的解析四.应用今天就到这了，希…

集群分发脚本xysnc

一、scp（secure copy） 安全拷贝 1.定义 scp（Secure Copy）是一个用于在不同计算机之间安全地复制文件和目录的命令行工具。它使用 SSH 协议进行连接和文件传输，提供了加密和身份验证机制，确保数据传输的安…

大型数据集处理之道：深入了解Hadoop及MapReduce原理

在大数据时代，处理海量数据是一项巨大挑战。而Hadoop作为一个开源的分布式计算框架，以其强大的处理能力和可靠性而备受推崇。本文将介绍Hadoop及MapReduce原理，帮助您全面了解大型数据集处理的核心技术。 Hadoop简介 Hadoop是一个基于Google…

Hadoop问题：start-all.sh显示未找到命令

在sbin文件夹下是start-all.sh可以运行的，但是到了别的文件夹下就不行了，于是想到了是文件路径问题，因为hadoop环境是和java环境一起配置的导致sbin写成了bin 解决办法： 打开.bashrc配置hadoop的环境变量 sudo vim ~/.bashrc …

hadoop生态现状、介绍、部署

一、引出hadoop 1、hadoop的高薪现状各招聘平台都有许多hadoop高薪职位，可以看看职位所需求的技能 ----> hadoop是什么，为什么会这么高薪？引出大数据，大数据时代，大数据与云计算 2、大数据时代的介绍大数据的故事…

数据库安全-RedisHadoopMysql未授权访问RCE

目录数据库安全-&Redis&Hadoop&Mysql&未授权访问&RCE定义漏洞复现Mysql-CVE-2012-2122 漏洞Hadoop-配置不当未授权三重奏&RCE 漏洞 Redis-未授权访问-Webshell&任务&密匙&RCE 等漏洞定义：漏洞成因漏洞危害漏洞复现Redis-未授权…

Hadoop3教程（四）：HDFS的读写流程及节点距离计算

文章目录 （55）HDFS 写数据流程（56） 节点距离计算（57）机架感知（副本存储节点选择）（58）HDFS 读数据流程参考文献 （55）HDFS 写数据流程 …

Hadoop3教程（七）：MapReduce概述

文章目录 （68） MR的概述&优缺点（69）MR的核心思想MapReduce进程 （70）官方WC源码&序列化类型（71）MR的编程规范MapperReducerDriver （72）WordCount案例需…

Hadoop3教程（八）：MapReduce中的序列化概述

文章目录 （79）MR序列化概述（80）自定义序列化步骤（81）序列化案例需求分析（82）序列化案例代码参考文献 （79）MR序列化概述什么是序列化，什么是反序…

Hadoop3教程（十一）：MapReduce的详细工作流程

文章目录 （94）MR工作流程Map阶段Reduce阶段参考文献 （94）MR工作流程本小节将展示一下整个MapReduce的全工作流程。 Map阶段首先是Map阶段： 首先，我们有一个待处理文本文件的集合； 客户端…

HDFS 误删恢复

Tip: 这里是hadoop已配置trash功能，没有trash的暂时还不知道怎么恢复 mark一下，手残不小心删掉了自己的根目录 1.找路径误删文件夹后，会出现提示类似于Moved 误删文件 to trash at: 回收站文件地址到trash at路径下ls一步一步找到自己…

日均5亿查询量，京东到家订单中心的ES架构演进

点击上方蓝色“猿芯”关注我们，输入1024，你懂的来源：https://blog.csdn.net/zhuguanghalo/article/details/86552394京东到家订单中心系统业务中，无论是外部商家的订单生产，或是内部上下游系统的依赖，订单查…

Hadoop2.8.5 节点间的数据传输

数据节点 DataNode 在运行中会与三种对端有互动。第一种是 NameNode ,如前所述,对于数据块的存储地点,虽然最初是由 NameNode 分配和指定的,但相关的信息最终来自DataNode 的报告。第二种是用户的 App (包括 Shell ),用户的 App 可以存在于集群内的任何节点上,不过那是在独立的…

Hadoop伪分布配置

Hadoop伪分布配置设置网络设置静态ip准备文件拷贝jdk和hadoop解压更改profile更改hosts配置伪分布更改hadoop配置文件格式化namenode启动hadoop检验是否启动成功设置网络设置静态ip vi /etc/sysconfig/network-scripts/ifcfg-ens330bootproto改为static 注释uuid onboot改为…

【大数据基础】Hadoop2.2.0集群环境搭建文档分享

一，准备环境 PC基本配置如下： 处理器：Intel(R) Core(TM) i5-3230M CPU 2.6GHz 2.60GHz 安装内存（RAM）: 12.0GB 系统类型：64位操作系统初始化四台Ubuntu-14.04_x64虚拟机，配置如下&#xff1a…

Hadoop2.8.5 数据节点 DataNode

数据节点 DataNode 在 HDFS 文件系统中处于从属的地位, 但是其结构却比处于主导地位的查名节点 NameNode 更复杂。这是因为:虽然 NameNode 起着目录的作用,但是文件的内容却是存储在 DataNode 上的,读写文件时一旦知道了哪一个块在什么节点上,或者指定存放在什么节点上,下面就不…

Hadoop2.8.5 MapReduce计算流程

上一篇我们从宏观的角度从作业认领到分发考察了MapReduce框架。今天我们来探究其内部，从宏观上说, MR 框架主要就是 Map 和 Reduce 这两个阶段。但是实际上远不是那么简单,这两个宏观的阶段都进一步划分成好几个更微观的阶段，前面提到过的排序(Sort )阶段…

Hadoop2.8.5 作业的投运

上一篇关于容器的投运是YARN调度在受理作业后分配一个容器并投运到NM节点上，在NM上建立一个 “ 项目组长 ”，该项目组长就是 MRAppMaster。也就是说RM只管到这一级。接下来的事情由 MRAppMaster来处理。根据 ContainerLaunchContext 中的信息将作业分解…

ansi是什么编码_ANSI的完整形式是什么？

ansi是什么编码ANSI：美国国家标准协会 (ANSI: American National Standards Institute) ANSI is an abbreviation of the "American National Standards Institute". ANSI是“美国国家标准协会”的缩写。 It is a privately-owned non-profit organizat…

hadoop常见面试题

1.什么是hadoop Hadoop 是一个开源软件框架，用于存储大量数据，并发处理/查询在具有多个商用硬件（即低成本硬件）节点的集群上的那些数据。HDFS（HadoopDistributed File System，Hadoop 分布式文件系统&#x…

Hadoop2.8.5 容器的投运

上一篇我们考察了YARN调度系统的容器周转和分配，RM受理作业后就为该作业分配容器，最后由发射架将容器发送到对岸的NodeManager上，现在我们来看NM收到容器后如何启动JVM并创建AM作为作业的领头人，之后的事情就交给了AM。今天我们就…

Hadoop2.8.5 容器的周转与分配

上一篇关于作业的受理中，RM端通过RMAppImpl类表示作业，通过调度策略将作业存储后尝试运行该作业，这个时候调度器将为作业分配容器。容器代表着整个系统的资源在RM端的分配形式。 allocate (),其实只是从这个列表中收揽已经分配的容器(RMConta…

Hadoop2.8.5 作业的受理

上一篇作业的提交最终流转到RMAppManager手中，RM节点上的ClientRMService对象相当于接待站，而RMApp Manager对象则专门管理与作业的申请和运行相关。两个对象均由 ResourceManager 创建,都在同一个 JVM 上。ClientRMService 是通过调用 rmAppManager…

Hadoop2.8.5 RPC 机制二

由上一篇我们知道 Hadoop 是利用 ProtoBuf 和 Proxy 搭建起自己的 RPC 机制的。Hadoop 的 RPC 机制在 Client 一侧就是通过 Proxy 实现的。Proxy ,即“代理”,是 JDK 提供的一个类,可以说是专为RMI 定制的。Proxy 对象的创建一定是与 InvocationHandler 联系在一起的。Invocati…

amc用什么打开_AMC的完整形式是什么？

amc用什么打开AMC：年度维护合同/美国汽车公司 (AMC: Annual Maintenance Contract / American Motors Corporation) 1)AMC：年度维护合同 (1) AMC: Annual Maintenance Contract) AMC is an abbreviation of the Annual Maintenance Contract. It is also…

Hadoop2.8.5 RPC机制一

RPC 是“ RemoteProcedureCall ”即“远地过程调用”的缩写。这个机制的目的,是让一台机器上的程序能像调用本地的“过程”那样来调用别的机器上的某些过程。需要特别说明的是,RPC 并非针对远地的所有过程,并不是对远地所有的过程都可以随心所欲地通过 RPC 加以调用,而只能针对…

Hadoop之倒排索引

前言： 　　从IT跨度到DT,如今的数据每天都在海量的增长。面对如此巨大的数据，如何能让搜索引擎更好的工作呢？本文作为Hadoop系列的第二篇，将介绍分布式情况下搜索引擎的基础实现，即“倒排索引”。 1.问题描述　将所有…

hadoop之yarn部署

yarn伪分布式部署： 官网要求： YARN on Single Node You can run a MapReduce job on YARN in a pseudo-distributed mode by setting a few parameters and running ResourceManager daemon and NodeManager daemon in addition. The following instruct…

Hadoop2.8.5 资源管理器（RM）

YARN调度使用状态机（StateMachine）来驱动，我们以RM（ResourceManager）为例来看状态机如何驱动其运行。作为YARN的框架核心管理者整个集群的计算资源，对于宿主机而言,执行着ResourceManager 的 Java …

Hadoop2.9.2 源码编译

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Apache Hadoop软件库是一个框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高…

理解Hadoop Spark

Hadoop Spark 1. Spark与Hadoop的关系 2. Spark的特点 3. Spark架构&工作流程名词解释运行过程补充Job，Stage，Task的关系 DAG和RDD是什么 RDD的相关操作(creation, transformation, action) 开发者需要做哪部分工作 Hadoop 在大数据的…

java连接mysql失败Path does not chain with any of the trust anchors

连接地址： jdbcUrljdbc:mysql://127.0.0.1:3306/test?characterEncodingutf8&zeroDateTimeBehaviorconvertToNull&useSSLtrue在windows上是MySql5.5没有问题，到了Mac上MySql5.7就连接失败了。可能是证书问题，把useSSLtrue改为use…

java连接Mysql8.0.11

java连接Mysql8.0.11与之前版本有些不同。其中driver为com.mysql.cj.jdbc.Driver url为jdbc:mysql://localhost/studentuseSSLFALSE&serverTimezoneUTC（student为数据库的名字） 代码如下： package study;import java.sql.Connection…

JAVA 8 ‘‘ 关键字

Java 8 中我们可以通过:: 关键字来访问类的构造方法，对象方法，静态方法。现有一个类 Something class Something {// constructor methodsSomething() {}Something(String something) {System.out.println(something);}// static methodsstatic Strin…

idea中maven无法导包问题

今天帮公司的实习生看一项目导包问题，多次清缓存，配置，发现maven配置的并没有问题！ 最后发现可能是他安装idea的时候没有配置好，有个地方配置一下就可以了，如下： 首先maven配置如上，…

hadoop容器化

下载或构建hadoop docker镜像下载hadoop docker镜像 $ docker pull krejcmat/hadoop-master:latest $ docker pull krejcmat/hadoop-slave:latest构建hadoop docker镜像 $ git clone https://github.com/krejcmat/hadoop-docker.git $ cd hadoop-docker $ ./build-image.sh…

[Hadoop]How MapReduce Works

[Hadoop]Hadoop Training Roadmap

记录一次的spark-submit报错： scheduler.ShuffleMapStage: ShuffleMapStage 0 is now unavailable on executor

必须要记录一次的spark-submit报错 spark任务若出现由于内存不足导致任务失败的情况： 一：大多数情况想的是可能因为shuffle过程太耗内存，导致executor执行不成功，所以增大executor-memory的大小和core的数量二、也要记住&#x…

【Hive】join时的小技巧

有时候join或者where两表时会报错： FAILED: SemanticException Cartesian products are disabled for safety reasons. If you know what you are doing, please sethive.strict.checks.cartesian.product to false and that hive.mapred.mode is not set to strict…

使用元数据服务的方式访问 Hive 使用 JDBC 方式访问 Hive

目录 1.使用元数据服务的方式访问 Hive 2.使用 JDBC 方式访问 Hive 首先一定要开启hadoop集群！！！如果报错连接拒绝，注意有没有开启 1.使用元数据服务的方式访问 Hive 1）在 /opt/module/hive/conf/hive-site.xml 文…

Hadoop_MapReduce_Join应用

目录 1.Reduce Join 2.Reduce Join案例实操 1）需求 2）需求分析 3）代码实现 4）测试 5）总结 3.Map Join 4.Map Join案例实操 1）需求 2）需求分析 3）实现代码 1.Reduce Joi…

Hadoop_MapReduce_WritableComparable排序

目录 1.排序分类 2.自定义排序WritableComparable原理分析 3.WritableComparable排序案例实操（全排序） 1）需求 2）需求分析 3）代码实现 4.WritableComparable排序案例实操（二次排序） 1&…

聊聊Hadoop、Storm、Spark Streaming、Flink在大数据领域的现状

Hadoop 生态组件竞争激烈，Spark 优势明显，MapReduce 已进入维护模式曾有开发人员表示，Hadoop 主要是被 MapReduce 拖累了，其实 HDFS 和 YARN 都还不错。堵俊平（ 腾讯云专家研究员）则认为 MapReduce 拖累 …

大数据处理技术：MapReduce案例WordCount遇到的问题

在第一次接触大数据处理技术时，跟着老师的步骤写了一个MapReduce程序的统计单词案例，由于能力有限，一开始在hadoop集群上运行时就遇到了各种问题，所幸后面再老师和同学帮助下都一一解决了 MapReduce编程 MapReduce编写程序的步…

MongoDB服务器部署问题

error while loading shared libraries: libssl.so.10: cannot open shared object file: No such file or 问题描述： ./mongod: error while loading shared libraries: libssl.so.10: cannot open shared object file: No such file or directory；启…

Hadoop系列文章 Hadoop部署

Hadoop系列文章 Hadoop部署Apache Hadoop 3.2.1 单节点部署Java安装下载安装包在服务器中解压到指定目录配置环境变量HDFS Shell命令一览测试Hadoop安装成果Apache Hadoop 3.2.1 伪分布式部署hadoop环境配置文件配置文件设置添加HDFS操作账户设置SSH格式化HDFSyarn部署让我们先…

Windows平台Hadoop的安装与配置

Windows下运行Hadoop，通常有两种方式： 第一种是用VM方式安装一个Linux操作系统，这样基本可以实现全Linux环境的Hadoop运行。第二种是通过Cygwin模拟Linux环境。后者的好处是使用比较方便，安装过程也简单。在这里咱们就基于第二…

Hadoop系列文章 Hadoop架构、原理、特性简述

Hadoop系列文章 Hadoop架构、原理、特性简述Hadoop HDFSHDFS介绍HDFS架构图HDFS写入数据流程图HDFS读取数据流程图数据块的副本集Hadoop YARNYARN工作流程图YARN的原理及目标Hadoop MapReduceMapReduce工作流程MapReduce编程模型Apache™Hadoop项目开发用于可靠、可伸缩的分布式…

namenode的启动

我们简单看下namenode启动需要经历的步骤。 namenode启动要做什么启动9870服务端口加载镜像文件和编辑日志文件初始化RPC服务启动资源检查检查心跳检查是否进入安全模式启动9870服务端口因为namenode是一个进程，所以找到它的main方法： 进入createNameN…

[BigData：Hadoop]：安装部署篇

文章目录一：机器103设置密钥对免密登录二：机器102设置密钥对免密登录三：机器103安装Hadoop安装包3.1：wget拉取安装Hadoop包3.2：解压移到指定目录3.2.1：解压移动路径异常信息3.2.2：切换指定目录…

Hadoop 配置 Kerberos 认证

1、安装 Kerberos 服务器和客户端 1.1 规划服务端： bigdata3 客户端（Hadoop集群）： bigdata0 bigdata1 bigdata2 192.168.50.7 bigdata0.example.com bigdata0 192.168.50.8 bigdata1.example.com bigdata1 192.168.50.9 b…

Hadoop3教程（二十一）：MapReduce中的压缩

文章目录 （123）压缩概述在Map阶段启用在Reduce阶段启用 （124）压缩案例实操如何在Map输出端启用压缩如何在Reduce端启用压缩参考文献 （123）压缩概述压缩也是MR中比较重要的一环，其可以应用于M…

Hive用户中文使用手册系列（一）

Apache Hive 在标题为“Information Platforms and the Rise of the Data Scientist”的文章一文中，Jeff Hammerbacher把“信息平台”描述为“企业摄取(ingest)、处理(process)、生成(generate)信息的行为”与“帮助加速从经验数据中学习”的“中心”。在Facebook…

【大数据】Hadoop MapReduce与Hadoop YARN（学习笔记）

一、Hadoop MapReduce介绍 1、设计构思 1）如何对付大数据处理场景对相互间不具有计算依赖关系的大数据计算任务，实现并行最自然的办法就是采取MapReduce分而治之的策略。不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算！ …

[Hive] explode

在 Hive 中，explode 函数用于将数组（Array）或者Map类型的列拆分成多行， 每个元素或键值对为一行。这允许我们在查询中对数组或 Map 进行扁平化操作。下面是使用 explode 函数的示例： 假设我们有一个包含数组字段的表…

Hive 【Hive（七）窗口函数练习】

窗口函数案例数据准备 1）建表语句 create table order_info (order_id string, --订单iduser_id string, -- 用户iduser_name string, -- 用户姓名order_date string, -- 下单日期order_amount int -- 订单金额 ); 2）装载语句 i…

Hadoop3教程（二十四）：Yarn的常用命令与参数配置实例

文章目录 （132）YARN常用命令查看任务查看日志查看容器查看节点状态rmadmin更新配置查看队列 （133）生产环境核心配置参数（135）生产环境核心参数配置案例（140/141）Tool接口案例参考文献…

搭建 Hadoop 生态集群大数据监控告警平台

目录一、部署 prometheus 环境 1.1 下载安装包 1.2 解压安装 1.3 修改配置文件 1.3.1 hadoop-env.sh 1.3.2 prometheus_config.yml 1.3.3 zkServer.sh 1.3.4 prometheus_zookeeper.yaml 1.3.5 alertmanager.yml 1.3.6 prometheus.yml 1.3.7 config.yml 1.3.8 t…

Hadoop3教程（二十三）：Yarn的三大调度器

文章目录 （129）FIFO调度器（130）容量调度器特点资源分配算法 （131）公平调度器特点缺额的定义队列资源分配方式基于FIFO策略基于Fair策略资源分配算法 DRF策略参考文献 （129）FIFO调度…

Hadoop3教程（二十九）：（生产调优篇）集群扩容及缩容（白名单与黑名单）

文章目录 （150）添加白名单（151）服役新服务器（152）服务器间数据均衡（153）黑名单退役服务器参考文献这一章还算是比较重要的。 （150）添加白名单白名单&#…

Hadoop3教程（三十一）：（生产调优篇）异构存储

文章目录 （157）异构存储概述概述异构存储的shell操作 （158）异构存储案例实操参考文献 （157）异构存储概述概述异构存储，也叫做冷热数据分离。其中，经常使用的数据被叫做是热数据&…

Hadoop3教程（三十三）：（生产调优篇）慢磁盘监控与小文件归档

文章目录 （161）慢磁盘监控（162）小文件归档小文件过多的问题如何对小文件进行归档参考文献 （161）慢磁盘监控慢磁盘，是指写入数据时特别慢的一类磁盘。这种磁盘并不少见，当机器运行…

云服务器搭建Hadoop分布式

文章目录 1.服务器配置2.Java环境3. 安装Hadoop4. 集群配置5. 编写集群的启动脚本 1.服务器配置服务器主机名配置115.157.197.82s110核115.157.197.84s210核115.157.197.109s310核115.157.197.31s410核115.157.197.60gracal10核所有的软件安装在/opt/module下，软…

hive字段关键字问题处理

最近在xxl_job部署shell调度任务时,发现在编写Hql时，对一些使用关键字命名的字段无法解析，按开发规范，字段命名不应该有关键字,但是数据来源是第三方,无法修改,需要通过flume对从kafka的数据到hdfs上，数据是json格式,所以需要对关…

离线电商数仓（一）

一、数据仓库概述 1. 数据仓库数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个数据源的大量数据，企业可以从数据仓库中获取宝贵数据进行决策。数据分类：业务数据、日志数据将这两种数据从业务系统采集到Hive中&…

Hadoop3教程（十六）：MapReduce中的OutputFormat

文章目录 （105）OutputFormat概述（106）自定义OutputFormat案例需求分析（107/108）自定义OutputFormat案例实现自定义Mapper自定义Reducer自定义OutputFormatDriver 参考文献 （105）Outp…

Hadoop3教程（十五）：MapReduce中的Combiner

文章目录 （103）Combiner概述什么是CombinerCombiner有什么用处Combiner有什么特点如何自定义Combiner （104）Combiner合并案例实操如何从日志里查看Combiner如果不存在Reduce阶段，会发生什么自定义Combiner的两种方式参…

Hadoop分布式文件系统-HDFS

1.介绍 HDFS （Hadoop Distributed File System）是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。 2.HDFS 设计原理 2.1 HDFS 架构 HDFS 遵循主/从架构，由单个 NameNode(NN) 和多个 DataNode(DN) 组成：

Flink之转换算子Transformation

转换算子Transformation 概述基本转换算子映射Map扁平映射flatMap过滤Filter 聚合算子按键分区keyBy归约聚合reduce简单聚合sum、min、max、minBy、maxBy 物理分区算子随机分配轮询分配重缩放广播全局分区自定义分区分流操作Filter分流SideOutPut分流Split分流合流操作联合Un…

Hudi第四章：集成Hive

系列文章目录 Hudi第一章：编译安装 Hudi第二章：集成Spark Hudi第二章：集成Spark(二) Hudi第三章：集成Flink Hudi第四章：集成Hive 文章目录系列文章目录前言一、环境准备1.拷贝jar包二、Flink集成hive1.配置模版2.案…

Hive跨集群数据迁移过程

文章目录环境数据迁移需求迁移过程记录环境 Hive集群AHive集群B跳转机一台数据迁移需求本次迁移数据100G，15亿条，数据流转方向从集群A经过跳转机到集群B，通过HDFS拉取和重新建表导入的方式完成数据库迁移。迁移过程记录 - 当前操作…

HiveServer2负载均衡

有多个HiveServer2服务时，可以借助Zookeeper服务实现访问HiveServer2的负载均衡，将HiveServer2的压力分担到多个节点上去。本文详细介绍HiveServer2负载均衡的配置及使用方法，请根据EMR集群（普通集群和Kerberos集群）的…

MapReduce之Reduce

我们接着MapReduce之Shuffle ReduceCopyMergeReduceCopy 走到这里，我们就进入到reduce了。 reduce有三个明确的阶段：copy，sort，reduce。在初始化ShuffleConsumerPlugin的时候，他需要创建一个MergeManager&#xff1a…

MapReduce之Shuffle

承接上文MapReduce之Map阶段。我们需要将map后的数据往外写。 shuffle收集数据排序和溢写合并收集数据我们写出的数据是("I", 1)。我们需要往kvbuffer中写key和value。写key的时候我们既要写I，又要写它的位置，不然怎么能找到它呢&#…

Hadoop伪分布集群搭建（Hadoop）

Hadoop伪分布集群搭建 1.安装vmware workstation软件（版本15或16，12也可），配置centos 7镜像文件。需注意如下： （1）centos安装后无法打开，一般是虚拟化的问题，在bios界面…

大数据学习-hadoop -第一课

今天开学， 学习内容来源网络。一、是什么 Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。在线的大数据可以用storm对…

hadoop读写副本放置策略

转自：https://www.cnblogs.com/felixzh/p/8530053.html 根据Maneesh Varshney的漫画改编，以简洁易懂的漫画形式讲解HDFS存储机制与运行原理，非常适合Hadoop/HDFS初学者理解。一、角色出演如上图所示，HDFS存储相关角色与功能如下…

大数据入门（一）

大数据入门 hadoopHDFSYARNSPARKhadoop hadoop生态圈包括以下各个组成部分： HDFS：用于分布式文件存储,切分成块，多副本存于多台机器。 YARN：用于资源管理和调度，job scheduling & cluster mangment Zookeeper…

基于Greenplum构建下一代数据分析平台

了解更多Greenplum相关内容，欢迎访问Greenplum中文社区网 7月3日，《Greenplum走遍中国》系列技术研讨会走进了大明湖畔的济南。上一篇文章，我们已经为大家整理了活动中的第一个演讲内容《基于fdw的跨Greenplum集群数据库查询实现》。今天&…

Hadoop之运行wordcount

MapReduce map，映射；reduce，化简。 MapReduce处理大数据集的过程如下图所示每个MapReduce任务都被初始化为一个Job，每个Job又可以分为两种阶段：map阶段和reduce阶段。这两个阶段分别用两个函数表示，即map…

开源中国OSC源创会记录

一.StrataHadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop Hadoop是一…

Java，php，运维工程师转型大数据开发怎么样？你属于哪一类？

一：java转型大数据 “2019年可能会是过去十年里最差的一年，但却是未来十年里最好的一年”。市场发展的受限，不仅波及了各个行业的从业者，就连IT领域也受到了影响，很多IT人开始寻找新的出路，其中&#xff0…

Java进行Hbase查询

Hbase存储结构和查询方式已经有所了解，如何调用连接并且进行数据查询呢，可以使用jmeter的Java脚本进行操作. Hbase查询主要是scaner通过滤器filter进行操作，根据要查询列族还是rowkey可分为多种filter，可根据具体条件来进行查询&a…

大数据应用日志采集之Scribe 安装配置指南

大数据应用日志采集之Scribe 安装配置指南 1.概述 Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它能从各种日志源收集日志，存储到一个中央存储系统上，便于进行集中统计分析处理。它为日志的”分布式收集&#x…

Rancher 自带监控收集非自定义集群 ETCD 监控数据

本文永久链接: https://www.xtplayer.cn/rancher/monitors/rancher-monitors-collection-external-etcd-data/目前，rancher 自带监控暂时只支持收集 rancher 自定义集群的 ETCD 监控数据。对于 rke 导入集群或者其他导入类型的集群，因为架构的差异&#…

Centos6下安装伪分布式hadoop

安装环境：Centos 6 Hadoop版本：2.7.2 用户名：huwei Hadoop2.7.2下载链接：https://pan.baidu.com/s/1AK4CXh2jBKOSa-bN4NA8nQ 提取码：bemy 下载好的hadoop压缩包如下图所示： 提示：全文中所有cd命…

hadoop:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using b

在使用bin/hdfs dfs -mkdir /user 创建目录时，会有一个警告：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 问题在哪里？有人说这是hadoop的预编译包…

hive优化、调优

hive调优是比较大的专题，需要结合实际的业务，数据的类型，分布，质量状况等来实际的考虑如何进行系统性的优化，hive底层是mapreduce，所以hadoop调优也是hive调优的一个基础,hvie调优可以分为几个模块进行考虑…

Flink Standlone集群搭建

文章目录Flink1.12 standalone集群模式搭建一、集群搭建准备（1）服务器资源（2）JAVA 执行环境（3）flink安装包（4）服务间需要配置免密登录① 执行生成SSH KEY 命令② 将公钥发送给需要免…

大数据技术基础之系统安装

前言 Linux系统有很多分支，比如Ubuntu, Centos, Redhat等，我在这篇博客采用的是Ubuntu-16.04的系统，之前使用的是Centos 6.8操作系统，结果发现操作起来不是很舒服，画面也有些粗糙（我没有尝试过优化&#xf…

Hadoop集群搭建的前期准备

我在上一篇博客中已经将dm-1的用户权限提升，时间校对，这里就不再赘述，具体操作可去查看， 链接如下：https://blog.csdn.net/weixin_44510906/article/details/104969742 我们先来说说搭建的大致思路，方便…

Hadoop完全分布式集群搭建（新手式）

在上一篇博客中，Hadoop集群搭建的前期准备，我们已经进行到了1，2两步，下面开始3，4步。配置JDK配置Hadoop（单机模式）固定IP，配置ssh无密码登录完全克隆2台机器（Hadoop集群…

Zookeeper分布式集群安装（新手式）

在上一篇博客中，我们已经完成了Hadoop的完全分布式集群安装，在这篇博客中，我们将进行Zookeeper的安装。我们先来说说，为什么需要安装Zookeeper。就拿我之前创建的3台机器来说，dm-1(master),dm-2(slave1),dm-3(slave2),…

【Impala】基于Hive的快速大数据查询引擎——Impala知识点总结

content Impala简介Impala系统架构Impala核心组件Impala查询执行过程Impala的优缺点Impala与Hive的比较 Impala简介 Impala是由Cloudera公司开发的新型查询系统Imapla提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据Impala基于MPP （Massive…

【Hive】位于Hadoop顶层的数据仓库——Hive知识点总结（图解）

content Hive简介Hive工作原理Hive系统架构Hive HAHive编程 Hive简介 ▍初见 Hive是一个构建于Hadoop顶层的数据仓库工具某种程度上的用户编程接口——因为Hive本身不存储和处理数据Hive依赖分布式文件系统HDFS存储数据Hive依赖分布式并行计算模型MapReduce处理数据定义了简单…

2万字详解，彻底讲透全文搜索引擎 Elasticsearch

来源：cnblogs.com/jajian/p/11223992.html由于近期在公司内部做了一次 Elasticsearch 的分享，所以本篇主要是做一个总结，希望通过这篇文章能让读者大致了解 Elasticsearch 是做什么的以及它的使用和基本原理。生活中的数据搜索引擎是对数据的…

Hadoop之MapReduce运行原理

MapReduce1.x架构客户端向JobTracker提交一个作业，JobTracker把这个作业拆分成很多份，然后分配给TaskTracker（任务执行者）去执行，TaskTracker会隔一段时间向JobTracker发送心跳信息，如果JobTracker在一段时…

【实战】Greenplum平台扩展框架PXF与Hadoop的数据交互

了解更多Greenplum相关内容，欢迎访问Greenplum中文社区网站本文转自掌数科技一、与HADOOP HDFS的交互 01 PXF是什么 PXF是 Greenplum平台扩展框架（PXF），通过内置连接器提供对外部数据的访问。PXF作为Greenplum与hadoop集群数据交…

第三章 Flink 部署

Standalone 模式安装解压缩flink-1.10.1-bin-scala_2.12.tgz， 进入 conf 目录中。修改 flink/conf/flink-conf.yaml 文件： 修改 /conf/slaves 文件：分发给另外两台机子： 启动：访问 http://localhost:8081 可以对 fl…

Hadoop知识点总结（一）

HADOOP hadoop的概念 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。它主要有以下几个优点： 高可靠性:Hadoop按位存储和处理数据的能力值得…

利用Yarn多队列实现Hadoop资源隔离

大数据处理离不开hadoop集群的部署和管理，对于本来硬件资源就不多的创业团队来说，做好资源的共享和隔离是很有必要的，毕竟不像BAT那么豪，那么怎么样能把有限的节点同时分享给多组用户使用而且互不影响呢，我们来研究一下…

揭秘大数据时代秒级查询响应引擎的架构设计

近年来，大数据技术发展迅速，从过去的 Hive、Spark，到现在的 Flink、ClickHouse、Iceberg 等，各种大数据技术推陈出新，不断演进大数据存储和引擎系统的架构，来适应大数据时代的海量数据处理需求。而随着技…

Hadoop3教程（二十二）：Yarn的基础架构与工作流程

文章目录 （126）基础架构（127）YARN的工作机制（128）作业全流程参考文献 （126）基础架构之前基本介绍完了Hadoop的几个核心组件，接下来可以思考下，在MR程序运行…

Hive用户中文使用手册系列（二）

命令和 CLI 语言手册命令命令是 non-SQL statements，例如设置 property 或添加资源。它们可以在 HiveQL 脚本中使用，也可以直接在CLI或Beeline中使用。命令描述退出使用 quit 或 exit 退出交互式 shell。重启将 configuration 重置为默认值(从 Hive…

Kali Linux 安装搭建 hadoop 平台详细教程

1）前期环境准备：（虚拟机、jdk、ssh） 2）SSH相关配置安装SSH Server服务器：apt-get install openssh-server 更改默认的SSH密钥 cd /etc/ssh mkdir ssh_key_backup mv ssh_host_* ssh_key_backup 创建新…

Hive知识梳理(好文)

Hive是建立在 Hadoop 上的数据仓库基础构架。可以将SQL查询转换为MapReduce的job在Hadoop集群上执行。元数据 Hive元数据信息存储在Hive MetaStore中，或者mysql中。分隔符 Hive默认的分格符有三种，分别是（Ctrl/A）、&#xff0…

大数据开发中的秘密武器：探索Hadoop纠删码的奇妙世界

随着大数据技术的发展，HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了系统的可靠性，HDFS通过复制来实现这种机制。但在HDFS中每一份数据都有两个副本，这也使得存储利用率仅为1/3，每TB数据都需要占用3TB的存储空间。因此&…

[hive]中的字段的数据类型有哪些

Hive中提供了多种数据类型用于定义表的字段。以下是Hive中常见的数据类型： 布尔类型（Boolean）：用于表示true或false。字符串类型（String）：用于表示文本字符串。整数类型（Intege…

hadoop hdfs的API调用，在mall商城代码中添加api的调用

在网上下载了现成的商城代码的源码本次旨在熟悉hdfs的api调用，不关注前后端代码的编写，所以直接下载现成的代码，代码下载地址。我下载的是前后端在一起的代码，这样测试起来方便 GitHub - newbee-ltd/newbee-mall: 🔥 …

Hadoop HDFS(分布式文件系统)

一、Hadoop HDFS(分布式文件系统) 为什么要分布式存储数据假设一个文件有100tb，我们就把文件划分为多个部分，放入到多个服务器靠数量取胜，多台服务器组合，才能Hold住数据量太大，单机存储能力有上限，需要…

Sqoop的安装和使用

目录一.安装二.导入 1.全量导入一.MySQL导入HDFS 二.MySQL导入Hive 2.增量导入一.过滤导入hdfs/hive 二.导出一.安装 1.下载地址：sqoop下载地址 2.解压 tar -zxvf ./sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C ../module/ 3.改名和配置归属权限 #改名…

大数据毕业设计选题推荐-旅游景点游客数据分析-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

Hadoop相关知识点

文章目录一、主要命令二、配置虚拟机2.1 设置静态ip2.2 修改主机名及映射2.3 修改映射2.4 单机模式2.5 伪分布式2.6 完全分布式三、初识Hadoop四、三种模式的区别4.1、单机模式与伪分布式模式的区别4.2、特点4.3、配置文件的差异4.3.1、单机模式4.3.2、伪分布式模式4.3.3、完…

windows本地搭建mmlspark分布式机器平台流程

文章目录 windows本地搭建mmlspark分布式机器平台流程安装环境pyspark环境spark环境java环境hadoop环境1.修改hadoop配置文件下的jdk地址为自己的实际地址2.修改bin文件离线环境jar包环境1mmlsprk第三方包jar包环境2参考代码我有话说其他问题记录概要参考文献windows本地搭建mm…

携程Hadoop跨机房架构实践

本文将分享携程Hadoop跨机房架构实践，包含Hadoop在携程的发展情况，整个跨机房项目的背景，我们跨机房的架构选型思路和落地实践，相关的改造和对未来的展望，希望给大家一些启迪。一、Hadoop在携程的落地及发展情况携…

Hive2.3.9部署

Hive2.3.9部署解压安装改名 tar -zxvf apache-hive-2.3.9-bin.tar.gz -C /opt cd /opt/ mv apache-hive-2.3.9-bin/ hive cd hive cd conf/ mv hive-env.sh.template hive-env.sh vim hive-env.sh添加以下内容 export HADOOP_HOME/opt/hadoop export HIVE_CONF_DIR/opt/hiv…

hadoop_day07

sqoop Apache Sqoop 介绍:Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它能将数据从关系型数据导入到HDFS,Hive;也能将HDFS数据导出到关系型数据库archives 1.Apache Archives 介绍:Archives可以有效的将多个小文件归档为一个文件,archives本质是运行一个MapRed…

hadoop_day05

Hive 1.hive简介:hive是基于hadoop的一个数据仓库工具,它可以将结构化数据文件映射为一张数据库表,并提供hive SQL查询功能;hive的本质是将hive SQL转化为MapReduce程序;使用hive来完成离线数据分析,比直接使用MapReduce开发效率高 2.hive与hadoop的关系:hive利用HDFS存储结构…

hadoop_day04

Apache Flume 1.flume介绍:flume是cloudera提供的一款高性能,高可用,分布式的能够完成海量日志的采集,传输和聚合的软件 2.flume核心功能:flume能够收集数据源(source)下的数据,并下沉到指定目的地(sink);为了保证数据不发生失,flume 会将采集数据先放到缓存(channel)中,只有文…

hadoop_day03

MapReduce 1.MapReduce介绍:MapReduce是一个分布式运算程序的编程框架,它采用分而治之的思想解决海量数据的计算问题;MapReduce的核心功能是将用户编写的业务逻辑代码和它自带的默认组件整合成一个完整的分布式运算程序,并发运行在hadoop集群上 2.MapReduce程序运行阶段: * Ma…

hadoop_day01

大数据介绍 1.数据流转流程:数据采集-->数据存储-->数据计算-->数据分析-->数据展示 2.实时,离线数据分析系统按照数据分析的时效性,通常会把大数据分析系统分成实时系统和离线系统两种;实时系统对数据的实时要求非常高,而离线系统相对来说,实时性要求不高 3.js自…

Hadoop生态圈

Hadoop生态圈 Linux： 操作系统 Hadoop: 解决海量数据的分布式存储，分布式计算 Hbase 大数据的数据库，列式存储的数据（可存储TB，EB以上的数据） Hive： 数据仓库 scala： 函数式编程&am…

Spark架构原理和生态系统

参考一文读懂 Apache Spark Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 深入浅出理解 Spark：环境部署与工作原理一文弄懂Spark基本架构和原理 Spark vs Hadoop Hadoop 是大数据处理领域的开创者&#xf…

ETCD集群安装

ETCD集群安装本文使用vultr虚拟主机实现邀请注册链接：http://www.vultr.com/?ref6940267 购买三台位于东京的主机，东京的主机下载速度比较快每个主机安装一下常用的软件 yum upgrade -y yum install -y tree git wget p7zip bridge-utils net-tools…

大数据Storm相比于Spark、Hadoop有哪些优势

摘要： 一、可能很多初学大数据的伙伴不知道strom是什么，先给大家介绍一下strom：分布式实时计算系统，storm对于实时计算的意义类似于hadoop对于批处理的意义。一、可能很多初学大数据的伙伴不知道strom是什么，先给大家…

[Hive] lateral view explode

当在Hive中使用 LATERAL VIEW EXPLODE 时， 它用于将一个复杂类型（如数组或Map）的列展开成多行数据， 并将这些展开后的数据与其他列进行关联。下面是一个简单的例子来解释 LATERAL VIEW EXPLODE 的用法： 假设有一个…

大数据技术学习笔记（二）—— Hadoop 运行环境的搭建

目录 1 准备模版虚拟机hadoop1001.1 修改主机名1.2 修改hosts文件1.3 修改IP地址1.3.1 查看网络IP和网关1.3.2 修改IP地址 1.4 关闭防火墙1.5 创建普通用户1.6 创建所需目录1.7 卸载虚拟机自带的open JDK1.8 重启虚拟机 2 克隆虚拟机3 在hadoop101上安装JDK3.1 传输安装包并解压…

Hive引擎MR、Tez、Spark

Hive引擎包括：默认MR、Tez、Spark 不更换引擎hive默认的就是MR。 MapReduce：是一种编程模型，用于大规模数据集（大于1TB）的并行运算。 Hive on Spark：Hive既作为存储元数据又负责SQL的解析优化&#xff0…

【大数据】Hadoop环境搭建及运行

Hadoop概述 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。主要解决，海量数据的存储和海量数据的分析计算问题。广义上来说， Hadoop 通常是指一个更广泛的概念 —— Hadoop 生态圈。 Hadoop优势高可靠性：Hadoop底层维…

[Hive] 常见函数

文章目录字符串函数数值函数随机函数日期和时间函数字符串转时间聚合函数数组函数结构体函数数组函数映射函数 map正则处理JSON 字符串函数 CONCAT(string1, string2, …)：将多个字符串连接成一个字符串。 LENGTH(string)：返回字符串的长度。 LOWER…

一、修改Ubuntu的IP

1、配置虚拟机三台虚拟机，分别为node1、node2、node3，内存分别为4G、2G、2G，现存最好为（>40G），如下： 2、修改主机名分别打开三台虚拟机，root用户输入一下命令： no…

[hive] 窗口函数 ROW_NUMBER()

文章目录 ROW_NUMBER() 示例窗口函数 ROW_NUMBER() 在 Hive SQL 中，ROW_NUMBER()是一个用于生成行号的窗口函数。它可以为查询结果集中的每一行分配一个唯一的行号。以下是 ROW_NUMBER() 函数的基本语法： ROW_NUMBER() OVER (PARTITION BY column…

HDFS 读写架构

一、组成架构 1、NameNode(NN) : 集群的Master，它是一个主管，管理者 (1) 管理HDFS的命名空间 (2) 配置副本策略 (3) 管理数据块(Block)映射信息 (4) 处理客户端读写请求 2、DataNode(DN) : 集群的Slave。NN下达命令，DataNode执行实际操作。…

【Java 进阶篇】Java ServletContext详解：在Web应用中获取全局信息

在Java Web开发中，ServletContext是一个重要的概念，它允许我们在整个Web应用程序中共享信息和资源。本篇博客将深入探讨ServletContext的作用、如何获取它，以及如何在Web应用中使用它。无论您是刚刚入门的小白还是有一定经验的开发者&#xf…

hadoop进程启停管理(看这一篇就足够了！)

一、一键启停脚本 Hadoop HDFS组件内置了HDFS集群的一键启停脚本 $HADOP_HOME/sbin/start-all.sh,一键启动HDFS集群执行原理： 在执行此脚本的机器上，启动SecondaryNameNode 读取core-site.xml内容(fs.defaultFS项)，确认NameNode所在机器&…

Hive客户端和Beeline命令行的基本使用

本专栏案例数据集链接： https://download.csdn.net/download/shangjg03/88478038 1.Hive CLI 1.1 命令帮助Help 使用 `hive -H` 或者 `hive --help` 命令可以查看所有命令的帮助，显示如下： usage: hive-d,--define <key=value> Variable subsitution to ap…

Hadoop、Hive安装

一、工具 Linux系统：Centos，版本7.0及以上 JDK：jdk1.8 Hadoop：3.1.3 Hive：3.1.2 虚拟机：VMware mysql：5.7.11 工具下载地址: https://pan.baidu.com/s/1JYtUVf2aYl5–i7xO6LOAQ 提取码: xavd…

4.3 Hadoop发行版的选择/4.4 大数据产品与互联网产品结合/4.5 大数据应用--数据分析/4.6 数据分析案例

4.3 Hadoop发行版的选择 Apache Hadoop 开源社区版最新的Hadoop版本都是从Apache Hadoop发布的Hadoop Hive Flume 版本不兼容的问题 jar包 spark scala Java->.class->.jar ->JVMCDH: Cloudera Distributed Hadoop Cloudera 在社区版的基础上做了一些修改 http://arch…

namenode和datanode无法启动解决方案

安装Hadoop（伪分布式环境）namenode和datanode无法启动解决方案先附上我参考的安装教程链接 10.1.88.4/index_1.php?urlhttp://www.msftconnecttest.com/redirect 我在执行./start-all.sh之后发现，没有任何错误提示，输入jps得到如…

业界首发倒计时，云智技术论坛来了！

伴随 AI 基建的不断发展，AI 需求也日益增大。数据显示市场上的 AI 需求中，定制需求占比高达86%，AI 开发如何做到高效率、高质量、低成本成为众多企业思考的问题。AI 开发是一个系统性的工程，从数据的获取到特征提取，从…

Hadoop namenode重新格式化需注意问题

Hadoop namenode重新格式化需注意问题 1、重新格式化意味着集群的数据会被全部删除，格式化前需考虑数据备份或转移问题； 2、先删除主节点（即namenode节点），Hadoop的临时存储目录tmp、namenode存储永久性元数据目录dfs…

Hadoop 搭建单机版

准备好文件，jdk1.8cd /homemkdir javamkdir Hadoop将jdk文件放到java夹中将hadoop文件放到hadoop文件夹下载jdk1.8wget --no-check-certificate --no-cookies --header "Cookie: oraclelicenseaccept-securebackup-cookie" http://download.oracle.com/ot…

Hadoop HA部署

Hadoop2.7.2 HA部署文章目录Hadoop2.7.2 HA部署解压改名配置环境变量配置 hadoop-env.sh配置yarn-env.sh配置mapred-env.sh配置slaves配置 core-site.xml配置 hdfs-site.xml配置yarn-site.xml初始化解压 tar -zxvf hadoop-2.7.2.tar.gz -C /opt/改名 cd /optmv hadoop-2.7.2…

Hadoop集群安装配置教程(Hadoop2.7.6_Ubuntu 32位)

1.环境本文使用两个节点作为集群，hadoop1主机作为主节点，hadoop2主机作为从节点。hadoop1通过Hadoop安装教程_伪分布式配置(Hadoop2.7.6/Ubuntu14.04 32位)，hadoop2为hadoop1虚拟机的复制。在一台电脑上运行两个虚拟机搭建集群。 2.配置IP…

Hadoop安装教程_伪分布式配置(Hadoop2.7.6/Ubuntu14.04 32位)

Hadoop官方教程:Hadoop: Setting up a Single Node Cluster 1.环境本文使用 Ubuntu 版本为 14.04 32位 ，请自行安装。Ubuntu需要安装JDK(JDK安装教程)，因hadoop官方高版本只发布64位编译版，因此安装32位需要自行编译，编译过程可…

ubuntu编译hadoop源码

1.环境配置 1.1安装JDK 详细步骤可查看JDK安装教程 1.2安装maven 详细步骤可查看Maven安装教程 1.3安装依赖库 sudo apt-get install build-essential cmake libglib2.0-dev libssl-dev autoconf automake libtool curl make g unzip #部分为运行protobuf所需的依赖库 1.4…

Datanode Information无信息

原因是多次格式化namenode，查看/opt/module/hadoop-2.7.2/logs下的某个log文档可知，WARN org.apache.hadoop.hdfs.server.common.Storage: java.io.IOException: Incompatible clusterIDs in /opt/module/hadoop-2.7.2/data/tmp/dfs/data: namenode clus…

新媒体运营高级教程：如何最低成本最好用户增长裂变？

裂变是用户增长的一个标配功能，是一个值得长期投入的引流方式。那具体应该怎么做呢？如何利用裂变去实现用户增长呢？相信本文会带来启发。互联网用户增量时代结束，导致获客成本越来越高。作为新媒体运营人，首席新媒体…

hadoop使用简介

git clone hadoop源码地址：https://gitee.com/CHNnoodle/hadoop.git git clone错误： Filename too long错误，使用git config --global core.longpaths true git clone https://gitee.com/CHNnoodle/hadoop.git -b rel/release-3.2.2 拉取指定…

大数据-玩转数据-大数据平台搭建工具 Ambari

一、Ambari 是什么 Ambari 跟 Hadoop 等开源软件一样，也是 Apache Software Foundation 中的一个项目，并且是顶级项目。目前最新的发布版本是 2.0.1，未来不久将发布 2.1 版本。就 Ambari 的作用来说，就是创建、管理、监视 Hadoop 的集群，但是这里的 Hadoop 是广义，指的是…

Hadoop YARN功能介绍--资源管理、调度任务

Hadoop YRAN介绍 YARN是一个通用资源管理系统平台和调度平台，可为上层应用提供统一的资源管理和调度。他的引入为集群在利用率、资源统一管理和数据共享等方面带来了好处。 1.资源管理系统集群的硬件资源，和程序运行无关，比如内存、cu…

CentOS 安装 Hadoop Local (Standalone) Mode 单机模式

CentOS 安装 Hadoop Local (Standalone) Mode 单机模式 Hadoop Local (Standalone) Mode 单机模式 1. 修改yum源并升级内核和软件 curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repoyum clean allyum makecacheyum -y update2. 安…

Sqoop导入到Hive，Hive使用 HA

Sqoop写入Hive卡在连接Hive的JDBC上不执行 Sqoop访问启用 HA模式的Hive 找到Hive的安装根目录：$HIVE_HOME/conf 创建一个新的配置文件：beeline-hs2-connection.xml <?xml version"1.0"?> <?xml-stylesheet type"text/xsl…

Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决

文章目录 Hadoop 安装Hive 安装Hive On Spark 与 Spark On Hive 区别Hive On SparkSpark On Hive 部署 Hive On Spark查询 Hive 对应的 Spark 版本号下载 Spark解压 Spark配置环境变量指定 Hadoop 路径在 Hive 配置 Spark 参数上传 Jar 包并更换引擎测试 Hive On Spark解决依赖…

【漏洞复现】CNVD-2023-08743

【漏洞复现】 CNVD-2023-08743 【漏洞介绍】 Hongjing Human Resource Management System - SQL Injection 【指纹】 title”人力资源信息管理系统” 【系统UI】【payload】 /servlet/codesettree?flagc&status1&codesetid1&parentid-1&categories~31…

springboot+vue基于Hadoop短视频流量数据分析与可视化系统的设计与实现【内含源码+文档+部署教程】

博主介绍：✌全网粉丝10W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久，选择我们就是选择放心、选择安心毕业✌ 🍅由于篇幅限制，想要获取完整文章或者源码，或者代做&am…

Hadoop RPC简介

数新网络-让每个人享受数据的价值https://www.datacyber.com/ 前言 RPC（Remote Procedure Call）远程过程调用协议，一种通过网络从远程计算机上请求服务，而不需要了解底层网络技术的协议。RPC它假定某些协议的存在，例…

viewfs://为Hadoop 中的一个特殊文件系统

解释 viewfs:// 是 Hadoop 中的一个特殊文件系统 URI，用于访问 Hadoop 的视图文件系统（ViewFS）。 ViewFS 是 Hadoop 提供的一种虚拟文件系统，它可以将来自多个底层文件系统的文件统一管理和访问。通过 ViewFS，你可…

Hive 解析 JSON 字符串数据的实现方式

文章目录通过方法解析现实示例通过序列化实现示例通过方法解析现实在 Hive 中提供了直接解析 JSON 字符串数据的方法 get_json_object(json_txt, path)，该方法参数解析如下： json_txt：顾名思义，就是 JSON 字符串；…

core-site.xml,yarn-site.xml,hdfs-site.xml,mapred-site.xml配置

core-site.xml <?xml version"1.0" encoding"UTF-8"?> <?xml-stylesheet type"text/xsl" href"configuration.xsl"?> <!--Licensed under the Apache License, Version 2.0 (the "License");you may no…

Hadoop学习总结（使用Java API操作HDFS）

使用Java API操作HDFS，是在安装和配置Maven、IDEA中配置Maven成功情况下进行的，如果Maven安装和配置不完全将不能进行Java API操作HDFS。由于Hadoop是使用Java语言编写的，因此可以使用Java API操作Hadoop文件系统。使用HDFS提供的Java API构…

Hadoop学习总结（Shell操作）

HDFS Shell 参数命令参数功能描述-ls查看指定路径的目录结构-du统计目录下所有文件大小-mv移动文件-cp复制文件-rm删除文件 / 空白文件夹-put上传文件-cat查看内容文件-text将源文件输出文本格式-mkdir创建空白文件夹-help帮助一、ls 命令 ls 命令用于查看指定路径的当前目录…

【Hadoop】Apache Hadoop YARN

🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 感谢点赞和关注 ，每天进步一点点！加油！ 目录一、YARN概述二、YARN基础架构 2.1 ResourceManager&#x…

二、Hadoop分布式系统基础架构

1、分布式分布式体系中，会存在众多服务器，会造成混乱等情况。那如何让众多服务器一起工作，高效且不出现问题呢？ 2、调度 （1）架构在大数据体系中，分布式的调度主要有2类架构模式&#xff1a…

Hadoop知识点全面总结

文章目录什么是HadoopHadoop发行版介绍Hadoop版本演变历史Hadoop3.x的细节优化Hadoop三大核心组件介绍HDFS体系结构NameNode介绍总结 SecondaryNameNode介绍DataNode介绍DataNode总结 MapReduce介绍分布式计算介绍MapReduce原理剖析MapReduce之Map阶段MapReduce之Reduce阶段实…

【Hadoop】YARN容量调度器详解

🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁🪁🍁🪁🍁🪁🍁 🪁🍁&am…

sqoop笔记（安装、配置及使用）

sqoop简介 ----sqoop是一个用来在hadoop体系和关系型数据库之间进行数据互导的工具 ----实质就是将导入导出命令转换成mapreduce程序来实现 sqoop安装：安装在一台节点上就可以了。 1.上传sqoop 2.安装和配置 ----修改配置文件 sqoop-env.sh #Set path to where…

集群搭建（1）

[yarn]yarn异常

一、运行一下算圆周率的测试代码，看下报错 cd /home/data_warehouse/module/hadoop-3.1.3/share/hadoop/mapreduce hadoop jar hadoop-mapreduce-examples-3.1.3.jar pi 1000 1000 后面2个数字参数的含义： 第1个1000指的是要运行1000次map任务 …

【Python大数据笔记_day04_Hadoop】

分布式和集群分布式:多台服务器协同配合完成同一个大任务(每个服务器都只完成大任务拆分出来的单独1个子任务) 集群:多台服务器联合起来独立做相同的任务(多个服务器分担客户发来的请求) 注意:集群如果客户端请求量(任务量)多,多个服务器同时处理不同请求(不同任务),如果请求量…

在Windows 10上安装单机版的hadoop-3.3.5

1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以不需要了解分布式底层细节的情况下，开发分布式程序。充分利用集群进行高速运算和存储。 2、下载Hadoop，我们在清华大学的镜像站下载 Index of /apache/hadoop/core/hadoop-3.3.6 (t…

【Hadoop】MapReduce详解

🦄 个人主页——🎐开着拖拉机回家_大数据运维-CSDN博客 🎐✨🍁 🪁🍁🪁🍁🪁🍁🪁🍁 🪁🍁🪁&#x1f…

你觉得程序员是一个需要天赋的职业吗？

是！没天赋和有天赋区别太大了，开始都是12k，慢慢人家就22k，32k了，而你只能2k，2k的慢慢加。摆脱天赋，还有兴趣这帮人在你前面，剩下的只能天道酬勤了。但是程序员需要量最多的就是天道酬…

Facebook大数据：每天处理逾25亿条内容和500TB数据

当地时间今日，Facebook在加州总部向几位记者透露了一些关于“大数据”的统计数字，诸如Facebook系统每天要处理25亿条消息、500 TB的数据、用户点击Like按钮的次数达到27亿次、上传3亿张照片、每半个小时扫描的数据大约为105TB。另外Facebook还首次透露了…

Hadoop如何将TB级大文件的上传性能优化上百倍

目录一、上传原理二、原始的文件上传方案三、HDFS对大文件上传的性能优化 1. Ch

实战windows7下eclipse远程调试linux hadoop

恩，之所以有这篇博客，是因为最近又有童鞋咨询怎么在 windows 7 下用eclipse远程调试部署在linux下的hadoop，其实我自己不这么混搭的，既然有童鞋这么问了，那我就索性随着折腾一把了。首先说明几点： 远程调试…

大数据的真正价值在哪里？你get到了吗？

信息爆炸这个词，想必对于大家来说，已经没有多少新鲜感了，而信息爆炸所引发的大数据，却日益成为了企业的宠儿，越来越多的企业也逐步认识到了大数据的重要性，但是大部分企业往往只看表面，盲目跟风…

HDFS HA配置

文章目录Hadoop的HDFS HA搭建重新解压安装Hadoop-2.7.2到/opt/ha上进入/opt/ha/hadoop-2.7.2/etc/hadoop配置hadoop-env.shcore-site.xmlhdfs-site.xml重新配置/etc/profile的Hadoop位置，并重启测试测试没有问题，就开始启动Hadoop的HDFS HA搭建重新解压…

大数据方向学习面试知识图谱

正所谓，无招胜有招。愿读到这篇文章的技术人早日明白并且脱离技术本身，早登彼岸。一切技术最终只是雕虫小技。大纲本系列主题是大数据开发面试指南，旨在为大家提供一个大数据学习的基本路线，完善数据开发的技术栈&…

大数据开发实战系列之Spark电商平台

源于企业级电商网站的大数据统计分析平台，该平台以 Spark 框架为核心，对电商网站的日志进行离线和实时分析。该大数据分析平台对电商网站的各种用户行为（访问行为、购物行为、广告点击行为等）进行分析，根据平台统计出…

Java大数据开发：Hadoop(8)-java操作HDFS

在上一节的学习中，我们认识了HDFS的结构，知道了HDFS的优点：适合大数据处理，无论是数据规模还是文件规模。当然也有他的缺点：不适合低延时数据访问，比如毫秒级的数据存储，那做不到，不…

基于Hadoop的数据仓库Hive 基础知识

Hive是基于Hadoop的数据仓库工具，可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理，提供了类似于SQL语言的查询语言–HiveQL，可通过HQL语句实现简单的MR统计，Hive将HQL语句转换成MR任务进行执行。一、概述 1…

智能客服小讲堂丨解密为什么机器人客服能做到秒回？

同学们好，智能客服小讲堂又上线啦~上一期智能客服小讲堂讲解了智能客服的知识处理能力——知识图谱技术（点击蓝字直达）。本期小讲堂将会带来新的技术解读，让大家秒懂客服机器人是如何和用户实现自如对话的。任务型对话系统&#x…

Linux Hadoop平台伪分布式安装

Linux Hadoop 伪分布式安装 1. JDK2. Hadoop3. MysqlHive3.1 Mysql8安装3.2 Hive安装 4. Spark4.1 Maven安装4.2 Scala安装4.3 Spark编译并安装 5. Zookeeper6. HBase 版本概要： jdk： jdk-8u391-linux-x64.tar.gzhadoop：hadoop-3.3.1.tar.gzh…

2023.11.12 hive中分区表,分桶表与区别概念

1.分区表分区表的本质就是在分目录当Hive表对应的数据量大、文件多时，为了避免查询时全表扫描数据。比如把一整年的数据根据月份划分12个月（12个分区），后续就可以查询指定月份分区的数据，尽可能避免了全表扫描查询。…

2023.11.14-hive之表操作练习和文件导入练习

目录需求1.数据库基本操作需求2. 默认分隔符案例需求1.数据库基本操作 -- 1.创建数据库test_sql,cs1,cs2,cs3 create database test_sql; create database cs1; create database cs2; create database cs3; -- 2.1删除数据库cs2 drop database cs2; -- 2.2在cs3库中创建…

hadoop 大数据环境配置 ssh免密登录 centos配置免密登录 hadoop(四)

1. 找到.ssh文件夹 cd ~ 2. 生成私钥公钥命令： ssh-keygen -t rsa3. 发送到需要免密机器： # hadoop23 是我做了配置。在host配置得机器ip和名称得映射 ssh-copy-id hadoop23 4. 成功

hadoop安装网址

Hadoop是什么 1）Hadoop是一个有Apache基金会所开发的分布式系统基础架构。 2）主要解决海量数据的存储和海量数据的分析计算问题。 3）广义上来说，Hadoop通常是指一个更广泛的概念---Hadoop生态圈。 Hadoop发行版本 Hadoop发行的…

hadoop 大数据集群环境配置配置hadoop配置文件 hadoop(七)

1. 虚拟机的三台机器分别以hdfs 存储, mapreduce计算，yarn调度三个方面进行集群配置 hadoop 版本3.3.4 官网：Hadoop – Apache Hadoop 3.3.6 jdk 1.8 三台机器尾号为：22， 23， 24。（没有用hadoop102, 103,10…

MapReduce 读写数据库

MapReduce 读写数据库经常听到小伙伴吐槽 MapReduce 计算的结果无法直接写入数据库， 实际上 MapReduce 是有操作数据库实现的本案例代码将实现 MapReduce 数据库读写操作和将数据表中数据复制到另外一张数据表中准备数据表 create database htu; use htu; creat…

mongodb数据同步到hive

背景用户需求: 需要将 mongodb 的数据同步到 hive 表，共 2 亿条数据，总数据量约 30G 查阅一些博客后，大致同步方法有以下几种手动离线对于比较小的数据，可以先通过 mongoexport 将数据导出到本地 json 文件，再将…

hadoop 大数据环境配置同步时间 centos服务器时间同步 linux 安装ntp服务更新时间 hadoop（六）

1. 安装ntp软件 yum install -y ntp 2.创建软连接 # 删除之前得时间 sudo rm -rf /etc/localtime;# 更新时区sudo ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime3. 更新时间 # root 权限运行 sudo ntpdate -u ntp.aliyun.com 4. 开机自启，更新时间 …

集群搭建2

2023.11-9 hive数据仓库,概念,架构

目录一.HDFS、HBase、Hive的区别二.大数据相关软件三. Hive 的优缺点 1）优点 2）缺点四. Hive 和数据库比较 1）查询语言 2）数据更新 3）执行延迟 4）数据规模五.hive架构流程六.MetaStore元…

【hive遇到的坑】—使用 is null / is not null 对string类型字段进行null值过滤无效

项目场景： 查看测试表test_1，发现表字段classes里面有null值，过滤null值。 --查看 > select * from test_1; ----------------------------- | test_1.id | test_1.classes | ----------------------------- | Mary | class 1 …

hadoop 大数据环境配置配置jdk, hadoop环境变量配置centos环境变量 hadoop（五）

1. 遗漏一步配置系统环境变量，下面是步骤，别忘输入更新系统环境命令 2. 将下载好得压缩包上传至服务器： /opt/module 解压缩文件存放地址 /opt/software 压缩包地址 3. 配置环境变量： 在/etc/profile.d 文件夹下创建shell文件 …

跟着 Tubi 同事吃遍全世界

在过去的一年里，Tubi 北京办公室的 Pantry 非常忙，忙于接收 Tubi 同事从全球各地带回的美食。而我们也有幸跟随慷慨的同事们尝遍了大江南北的味道。细数这 30 多次美食分享，我们发现，大家分享的不仅是食物，还是…… …

root用户启动beeline时报错User: root is not allowed to impers....

原报错信息： bin/beeline -u jdbc:hive2://hadoop05:10000 -n root Connecting to jdbc:hive2://hadoop05:10000 23/07/14 08:15:00 [main]: WARN jdbc.HiveConnection: Failed to connect to hadoop05:10000 Could not open connection to the HS2 server. Please…

2023.11.16 hivesql 函数之类型转换,脱敏,与加密函数

1.类型转换函数 cast:主要用于类型转换,如果转换失败则返回null select cast(3.14 as int); -- 3 select cast(3.14 as string) ; -- 3.14 select cast(3.14 as float); -- 3.14 select cast(3.14 as int); -- 3 select cast(binzi as int); -- null 很多时候,底层也默认做了…

搭建完全分布式Hadoop

文章目录一、Hadoop集群规划二、在主节点上配置Hadoop（一）登录虚拟机（二）设置主机名（三）主机名与IP地址映射（四）关闭与禁用防火墙（五）配置免密登录&#xff…

大数据毕业设计选题推荐-智慧消防大数据平台-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

Hadoop架构、Hive相关知识点及Hive执行流程

Hadoop架构 Hadoop由三大部分组成:HDFS、MapReduce、yarn HDFS：负责数据的存储其中包括： namenode：主节点，用来分配任务给从节点 secondarynamenode：副节点，辅助主节点 datanode：从节点&#x…

2023.11-9 hive数据仓库,概念,架构,元数据管理模式

目录 0.数据仓库和数据库数据仓库和数据库的区别数据仓库基础三层架构一.HDFS、HBase、Hive的区别二.大数据相关软件三. Hive 的优缺点 1）优点 2）缺点四. Hive 和数据库比较 1）查询语言 2）数据更新 3）…

wsl [Ubuntu20.04.6] 安装 Hadoop

文章目录 1.安装WSL2.安装Java安装Hadoop3.3配置文件1.修改hadoop-env.sh2.修改core-site.xml3.修改hdfs-site.xml ssh启动 1.安装WSL 重启电脑管理员打开powershell PS C:\windows\system32> wsl --list --online PS C:\windows\system32> wsl --install -d Ubuntu-2…

2023.11.11 hive中的内外部表的区别

一.内部表操作 ------------------------------1内部---------------------------- --建库 create database hive2; --用库 use hive2; --删表 drop table t1; --建表 create table if not exists t1(id int,name string,gender string ); --复制内部表 --复制表结构:CREATE T…

从HDFS到对象存储，抛弃Hadoop，数据湖才能重获新生？

Hadoop与数据湖的关系 1、Hadoop时代的落幕2、Databricks和Snowflake做对了什么3、Hadoop与对象存储（OSD）4、Databricks与Snowflake为什么选择对象存储5、对象存储面临的挑战 1、Hadoop时代的落幕十几年前，Hadoop是解决大规模数据分析的“白…

一、Hadoop3.1.3集群搭建

一、集群规划 hadoop01(209.2)hadoop02(209.3)hadoop03(209.4)HDFSNameNode DataNodeDataNodeSecondaryNameNode DataNodeYARNNodeManagerResourceManager NodeManagerNodeManager NameNode和SecondaryNameNode不要放在同一台服务器上二、创建用户 useradd atguigu passwd *…

2023.11.17 hadoop之HDFS进阶

目录 HDFS的机制 edits和fsimage文件 HDFS的存储原理写入数据原理: 读取数据原理: 元数据简介元数据存储流程 HDFS安全机制 HDFS归档机制 HDFS垃圾桶机制接着此前的内容 https://blog.csdn.net/m0_49956154/article/details/134298109?spm1001.2014.3001.5501 …

大数据毕业设计选题推荐-生产大数据平台-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

从Hadoop到对象存储，抛弃Hadoop，数据湖才能重获新生？

Hadoop与数据湖的关系 1、Hadoop时代的落幕2、Databricks和Snowflake做对了什么3、Hadoop与对象存储（OSD）4、Databricks与Snowflake为什么选择对象存储5、对象存储面临的挑战 1、Hadoop时代的落幕十几年前，Hadoop是解决大规模数据分析的“白…

hadoop 大数据环境配置 rsync命令 hadoop(三)

1. rsync : 意思 remote sync. rsync 被用在UNIX / Linux执行备份操作操作. rsync 用来从一个位置到另一个位置高效地同步文件和文件夹. rsync可以实现在同一台机器的不同文件直接备份,也可以跨服务器备份. 2.rsync特点： 速度快安全:…

6. hdfs的命令操作

简介本文主要介绍hdfs通过命令行操作文件操作文件有几种方式，看个人习惯 hdfs dfs hdfs fs hadoop fs个人习惯使用 hadoop fs 可操作任何对象，命令基本上跟linux命令一样 Usage [hadoophadoop01 ~]$ hadoop fs Usage: hadoop fs [generic option…

Hive常见的面试题（十二道）

Hive 1. Hive SQL 的执行流程⾸先客户端通过shell或者Beeline等⽅式向Hive提交SQL语句,之后sql在driver中经过解析器（SQL Parser）：将 SQL 字符串转换成抽象语法树 AST，这一步一般都用第三方工具库完成，比如 ANTLR&…

GZ033 大数据应用开发赛题第04套

2023年全国职业院校技能大赛赛题第04套赛项名称： 大数据应用开发英文名称： Big Data Application Development 赛项组别： 高等职业教育组赛项编号： GZ033 …

2023.11.18 -自用hadoop高可用环境搭建命令

启动hadoop高可用环境 # 1.先恢复快照到高可用环境 # 2.三台服务器启动zookeeper服务 [rootnode1 ~]# zkServer.sh start [rootnode2 ~]# zkServer.sh start [rootnode3 ~]# zkServer.sh start # 3.在node1中启动hadoop集群 [rootnode1 ~]# start-all.sh # 4.检查服务 [rootnod…

【大数据分布并行处理】单元测试（五）

文章目录第五单元单选题多选题判断题填空题第五单元单选题下列说法正确的是？ A. HDFS HA可用性不好 B. 第二名称节点是热备份 C. 第二名称节点无法解决单点故障问题 D. HDFS HA可以实现可扩展性、系统性能和隔离性正确答案： C HDFS Federation设计…

Hive 定义变量变量赋值引用变量

Hive 定义变量变量赋值引用变量变量 hive 中变量和属性命名空间命名空间权限描述hivevar读写用户自定义变量hiveconf读写hive相关配置属性system读写java定义额配置属性env只读shell环境定义的环境变量语法 Java对这个除env命名空间内容具有可读可写权利； …

五、hdfs常见权限问题

1、常见问题 2、案例 （1）问题 （2）hdfs的超级管理员 （3）原因没有使用Hadoop用户对hdfs文件系统进行操作。在Hadoop文件系统中，Hadoop用户相当于Linux系统中的root用户，是最高级别用…

9 HDFS架构剖析

问题 100台服务器，存储空间单个200GB 20T 5T文件如何存储？ 128MB一块 128MB81GB 1288*10241TB 5T数据分成的128MB的块数 8192 * 5 客户端(client)代表用户通过与namenode和datanode交互来访问整个文件系统。 HDFS集群有两类节点： 一个na…

GZ033 大数据应用开发赛题第06套

2023年全国职业院校技能大赛赛题第06套赛项名称： 大数据应用开发英文名称： Big Data Application Development 赛项组别： 高等职业教育组赛项编号： GZ033 …

Hadoop-- hdfs

1、HDFS中的三个进程：NameNode（NN）、DataNode(DN)、SecondNameNode(SNN) 2、NameNode（NN） 1、作用： 1、接收客户端的一个读、写的服务，在namenode上存储了数据文件和datanode的映射的关系。 …

[hive] posexplode函数

在Hive SQL中，posexplode是一个用于将数组（array）拆分为多行的函数。它返回数组中的每个元素以及其在数组中的位置（索引）作为两列输出。这是posexplode函数的语法： posexplode(array)其中，…

2023.11.15-hivesql之炸裂函数explode练习

把一个容器的多个数据炸裂出单独展示: explode(容器) 需求:将NBA总冠军球队数据使用explode进行拆分，并且根据夺冠年份进行倒序排序。 1.建表 --step1:建表 create table the_nba_championship(team_name string,champion_year array<string> ) row format…

2023.11.14 hivesql的容器,数组与映射

目录 https://blog.csdn.net/m0_49956154/article/details/134365327?spm1001.2014.3001.5501https://blog.csdn.net/m0_49956154/article/details/134365327?spm1001.2014.3001.5501 8.hive的复杂类型 9.array类型: 又叫数组类型,存储同类型的单数据的集合 10.struct类型…

Hive开窗函数根据特定条件取上一条最接近时间的数据（根据条件取窗口函数的值）

一、Hive开窗函数根据特定条件取上一条最接近时间的数据（单个开窗函数，实际取两个窗口） 针对于就诊业务，一次就诊，多个处方，处方结算时间可能不一致，然后会有多个AI助手推荐用药，会…

hive数仓-数据的质量管理

版本20231116 要理解数据的质量管理，应具备hive数据仓库的相关知识文章目录 1.理解什么是数据的质量管理：2.数据质量管理的规划数据质量标准的分类 3.数据质量管理解决方案1.ods层的数据质量校验1）首先在hive上建立一个仓库，添加…

4. hdfs高可用集群搭建

简介前面把hadoop机器已经准备好了，zk集群搭建好了，本本就是开始搭建hdfs环境 hadoop环境准备创建hadoop用户三台机器都创建hadoop用户 useradd hadoop -d /home/hadoop echo "1q1w1e1r" | passwd --stdin hadoophadoop用户相互免密登…

【hive基础】hive常见操作速查

文章目录一. hive变量操作1. 查看当前hive配置信息2. 设置变量3. 修改变量4. 进入hive终端重新加载配置二. 执行hive sql三. 启动hive 一. hive变量操作 1. 查看当前hive配置信息 # 查看当前所有配置信息 hive > set ;# 查看某一项配置信息 hive >set hive.metastore…

【大话Presto 】- 核心概念

文章目录前言Operator Model And Iterator Model系统组成Connector数据模型查询执行模型StatementStageTaskSplitDriverOperatorExchangePipeLine 总结前言 Presto（PrestoDB）是一个FaceBook开源的分布式MPP SQL引擎，旨在处理大规模数据的查…

2023.11.17-hive调优的常见方式

目录 0.设置hive参数 1.数据压缩 2.hive数据存储格式 3.fetch抓取策略 4.本地模式 5.join优化操作 6.SQL优化(列裁剪,分区裁剪,map端聚合,count(distinct),笛卡尔积) 6.1 列裁剪: 6.2 分区裁剪: 6.3 map端聚合(group by): 6.4 count(distinct): 6.5 笛卡尔积: 7…

关于提示SLF4J: Class path contains multiple SLF4J bindings的问题解决

今天搭建hbase的时候启动hbase的时候shell面板输入了一大堆日志，如下： stopping hbase.....................SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt/software/hadoop-3.1.3/share/hadoop/common/l…

2023.11.25-电商项目建设业务学习1-指标,业务流程,核销

目录 1.指标分类(原子指标,派生指标,衍生指标) 2.一些业务名词 3.四大业务流程-销售需求 3.1-线上线下销售 3.2线上线下退款 4.四大业务流程-会员业务 5.四大业务流程-供应链业务 6.四大业务流程-商城业务 7.核销主题需求分析 1.指标分类(原子指标,派生指标,衍生指标) 原…

Duplicate 模型中的 ROLLUP（十六）

因为 Duplicate 模型没有聚合的语意。所以该模型中的 ROLLUP，已经失去了“上卷”这一层含义。而仅仅是作为调整列顺序，以命中前缀索引的作用。下面详细介绍前缀索引，以及如何使用 ROLLUP 改变前缀索引，以获得更好的查询效率。前…

Doris中的物化视图-查询（十九）

物化视图创建完成后，用户的查询会根据规则自动匹配到最优的物化视图。比如我们有一张销售记录明细表，并且在这个明细表上创建了三张物化视图。一个存储了不同时间不同销售员的售卖量，一个存储了不同时间不同门店的销售量，以及每…

Hive内置表生成函数

Hive内置UDTF 1、UDF、UDAF、UDTF简介2、Hive内置UDTF 1、UDF、UDAF、UDTF简介在Hive中，所有的运算符和用户定义函数，包括用户定义的和内置的，统称为UDF（User-Defined Functions）。如下图所示： UDF官方文档…

hadoop 配置历史服务器开启历史服务器查看 hadoop (十)

1. 配置了三台服务器，hadoop22, hadoop23, hadoop24 2. hadoop文件路径: /opt/module/hadoop-3.3.4 3. hadoop22机器配置历史服务器的配置文件： 文件路径：/opt/module/hadoop-3.3.4/etc/hadoop 文件名称：mapred-size.xml 新增历…

Hadoop -- 分布式文件系统

1、分布式文件系统的思想：文件切分的思想（分而治之） 当文件存储在磁盘中，不仅效率比较低，并且文件的大小可能会超出单机的存储的范围。所以分而治之的思想就是： 不管文件有多大，所有的文件都是…

Hadoop技术与应用的习题

第一章测验 1、下面哪个选项不属于Google的三驾马车？A A.HDFS B.MapReduce C.BigTable D.GFS 2、下面哪个思想是为了解决PageRank（网页排名）的问题？C A.GFS B.BigTable C.MapReduce D.YARN 3、GFS 存储的文件都被分割成固定大小…

hive 报错return code 40000 from org.apache.hadoop.hive.ql.exec.MoveTask解决思路

参考学习 https://github.com/apache/hive/blob/2b57dd27ad61e552f93817ac69313066af6562d9/ql/src/java/org/apache/hadoop/hive/ql/ErrorMsg.java#L47 为啥学习error code 开发过程中遇到以下错误，大家觉得应该怎么办？从哪方面入手呢？ 1.百…

Hadoop实践指南：揭秘HDFS元数据并解析案例

1.什么是元数据元数据（Metadata），描述数据的数据（data about data）。 1.1 HDFS元数据元数据：关于文件或目录的描述信息，如文件所在路径、文件名称、文件类型等等，这些信息称为文…

Hadoop性能调优建议

一、服务器配置 1. BIOS配置： 关闭smmu/关闭cpu预取/performance策略 2. 硬盘优化 raid0 打卡cache /jbod scheduler/sector_size/read_ahead_kb 3. 网卡优化 rx_buff/ring_buffer/lro/中断绑核/驱动升级 4. 内存插法：要用均衡插法…

hadoop 日志聚集功能配置 hadoop(十一)

由图所示，本文主要是将三台机器log 进行日志聚集查看。图更加直观 1. 首先需要配置历史服务器配置，才可以配置日志聚集功能： hadoop 配置历史服务器开启历史服务器查看 hadoop (十)-CSDN博客 2. 配置了三台服务器，hadoop22, ha…

格式化名称节点，启动Hadoop

1.循环删除hadoop目录下的tmp文件，记住在hadoop目录下进行 rm tmp -rf 使用上述命令，hadoop目录下为： 2.格式化名称节点 # 格式化名称节点 ./bin/hdfs namenode -format 3.启动所有节点 ./sbin/start-all.sh 效果图： 4.查看节…

Hive删除符合条件的记录

Hive在使用中不支持update和delete操作，那么如果想删除部分条件的记录需要怎么操作？本文记录下解决方法。思路：使用selectwhere选出想要保留的数据，使用insert overwrite向原表覆盖插入数据. insert overwrite table dbname.tab…

Doris 数据模型-Duplicate 模型（十二）

Doris 的数据模型主要分为 3 类：Aggregate、Uniq、Duplicate Aggregate: Doris 数据模型-Aggregate 模型 Uniq：Doris 数据模型-Uniq 模型 Duplicate：Doris 数据模型-Duplicate 模型在某些多维分析场景下，数据既没有主键&…

2023.11.22 数据仓库2-维度建模

目录 1.数仓建设方案 2.数仓结构图,项目架构图 2.1项目架构图 2.2数仓结构图 3.建模设计 4.维度建模什么是事实表: 什么是维度表: 数据发展模式y以及对应的模型 5.数仓建设规范数据库划分规范表命名规范表字段类型规范 1.数仓建设方案 ODS: 源数据层(临时存储层) 贴…

Doris动态分区（十四）

动态分区是在 Doris 0.12 版本中引入的新功能。旨在对表级别的分区实现生命周期管理（TTL），减少用户的使用负担。目前实现了动态添加分区及动态删除分区的功能。动态分区只支持 Range 分区。原理在某些使用场景下，用户会将表…

educoder中Hive -- 索引和动态分区调整

第1关：Hive -- 索引 ---创建mydb数据库 create database if not exists mydb; ---使用mydb数据库 use mydb; ---------- Begin ---------- ---创建staff表 create table staff( id int, name string, sex string) row format delimited fields terminated by , stored…

hadoop在本地创建文件，然后将文件拷贝/上传到HDFS

1.要$cd {对应目录}进入到对应目录，一般为 cd /usr/local/hadoop/ 2.创建文件，$sudo gedit {文件名}，例 sudo gedit test.txt 然后在弹出的txt文件输入内容，点击右上角的保存之后，关闭即可。 3.拷贝本地文件到HDF…

2023.11.22 -数据仓库的概念和发展

目录 https://blog.csdn.net/m0_49956154/article/details/134320307?spm1001.2014.3001.5501 1经典传统数仓架构 2离线大数据数仓架构 3数据仓库三层数据运营层,源数据层（ODS）（Operational Data Store） 数据仓库层&#…

Windows安装Hadoop运行环境

1、下载Hadoop 2、解压Hadoop tar zxvf hadoop-3.1.1.tar.gz3、设置Hadoop环境变量 3.1.1、系统环境变量 # HADOOP_HOME D:\software\hadoop-3.1.13.1.2、Path 环境变量 %HADOOP_HOME%\bin %HADOOP_HOME%\sbin3.1.3、修改Hadoop文件JAVA_HOME 注 : 路径中不要出现空格 ,…

SparkSession介绍

一、介绍 SparkSession是Spark 2.0中引入的新概念，它是Spark SQL、DataFrame和Dataset API的入口点，是Spark编程的统一API，也可看作是读取数据的统一入口；它将以前的SparkContext、SQLContext和HiveContext组合在一起&#xff0…

Hive VS Spark

spark是一个计算引擎，hive是一个存储框架。他们之间的关系就像发动机组与加油站之间的关系。类似于spark的计算引擎还有很多，像mapreduce，flink等等。类似于hive的存储框架也是数不胜数，比如pig。最底层的存储往往都是使用h…

Apach Ozone部署

前言最近由于工作需要，要部署一套ozone。我自己对hadoop这套体系不是很熟悉，所以过程磕磕碰碰，好不容易勉强搭起来，所以记录一下部署方式准备三台主机，主机均已安装jdk、hdfs，相关的安装配置就不另外写…

hadoop2.x linux集群部署

hadoop2.x 集群部署下载hadoop需要提前准备好jdk1.8 和rsync 和ssl集群信息解压安装配置环境变量配置site配置文件(/hadoop/etc/hadoop目录下)core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xmlhadoop-env.sh要追加java_home!配置节点slaves 配置免密ssh访问没有ssh-co…

Hadoop学习笔记：运行wordcount对文件字符串进行统计案例

文/朱季谦我最近使用四台Centos虚拟机搭建了一套分布式hadoop环境，简单模拟了线上上的hadoop真实分布式集群，主要用于业余学习大数据相关体系。其中，一台服务器作为NameNode，一台作为Secondary NameNode，剩下两台当…

Hive日志默认存储在什么位置？

在hive-log4j.properties配置文件中，有这么一段配置信息 hive.log.thresholdALL hive.root.loggerWARN,DRFA hive.log.dir${java.io.tmpdir}/${user.name} hive.log.filehive.log hive.log.dir就是日志存储在目录/tmp/${user.name}(当前用户名)/下而hive.log就是h…

ke12Servlet规范有三个高级特性,,文件上传下载

1Servlet规范有三个高级特性分别是Filter、Listener和文件的上传下载。Filter用于修改request、response对象，Listener用于监听context、session、request事件。熟悉Filter的生命周期了解Filter及其相关API 掌握Filter的实现掌握Filter的映射与过滤器链的使用…

【解决】HDFS JournalNode启动慢问题排查

文章目录一. 问题描述二. 问题分析1. 排查机器性能2. DNS的问题三. 问题解决一句话：因为dns的问题导致journalnode启动时很慢，通过修复dns对0.0.0.0域名解析，修复此问题。一. 问题描述从journalnode启动到服务可用，完成RPC…

hive里如何高效生成唯一ID

常见的方式： hive里最常用的方式生成唯一id，就是直接使用 row_number() 来进行，这个对于小数据量是ok的，但是当数据量大的时候会导致，数据倾斜，因为最后生成全局唯一id的时候，这个任务是放在一个…

【Hadoop】分布式文件系统 HDFS

目录一、介绍二、HDFS设计原理2.1 HDFS 架构2.2 数据复制复制的实现原理三、HDFS的特点四、图解HDFS存储原理1. 写过程2. 读过程3. HDFS故障类型和其检测方法故障类型和其检测方法读写故障的处理DataNode 故障处理副本布局策略一、介绍 HDFS （Hadoop Distribute…

八、hdfs文件系统副本块数量的配置

1、配置方式 2、实际操作演示 （1）在Hadoop用户的根目录下创建text.txt文件 （2）上传文件 hadoopnode1:~$ hdfs dfs -ls hdfs://node1:8020/ Found 4 items drwxr-xr-x - hadoop supergroup 0 2023-11-21 23:06 hdfs:/…

【Hadoop】集群资源管理器 YARN

一、yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.x 引入的分布式资源管理系统。主要用于解决 hadoop 1.x 架构中集群资源管理和数据计算耦合在一起，导致维护成本越来越高的问题。 yarn主要负责管理集群中的CPU和内存用户可以将各种服…

Structured Streaming的模型介绍与实际操作

微批处理（Micro-Batching） 微批处理是 Structured Streaming 默认的处理模型。微批处理 (Micro-batching): 在微批处理模型中，实时数据流被分割成小的批次。这些批次按顺序处理，每个批次处理像一个小的批处理作业。处理完一个…

HDFS JAVA API的应用

首先把hadoop服务起来 1. (简答题) 使用HDFS 的JAVA API 进行编程： （1）获取自己HDFS集群下的所有文件和目录； //获取自己HDFS集群下的所有文件和目录；import org.apache.hadoop.conf.Configuration; import org.apa…

hive杂谈

数据仓库是一个面向主题的、集成的、非易失的、随时间变化的，用来支持管理人员决策的数据集合，数据仓库中包含了粒度化的企业数据。数据仓库的主要特征是：主题性、集成性、非易失性、时变性。数据仓库的体系结构通常包含4个层次&#xff…

Doris-Stream Load（二十六）

Stream load 是一个同步的导入方式，用户通过发送 HTTP 协议发送请求将本地文件或数据流导入到 Doris 中。Stream load 同步执行导入并返回导入结果。用户可直接通过请求的返回体判断本次导入是否成功。适用场景 Stream load 主要适用于导入本地文件，或…

Hive -- 基本概念

1、什么是Hive： Hive是数据仓库建模的工具之一，通过向hive中写一个交互式的sql，在海量数据中查询分析得到结果的平台。 2、Hive的优缺点： 1、优点： 1、操作接口采用类sql语法，提供快速开发的能力&#x…

hive 命令记录(随时更新)

1.进入 hive 数据库： hive 2.查看hive中的所有数据库： show databases; 3.用 default 数据库 use default; 4.查看所有的表 show tables; 5.查询 book 表结构： desc book ; 6.查询 book 表数据 select * from book; 7.创建 shop 数据库 creat…

00Hadoop数据仓库平台

在这里是学习大数据的第一站什么是数据仓库常见大数据平台组件及介绍什么是数据仓库在计算领域，数据仓库（DW 或 DWH）也称为企业数据仓库（EDW），是一种用于报告和数据分析的系统，被认为是商业智…

hive两张表实现like模糊匹配关联

testa表(字段a)aaabbacccddddddaaatestb表(字段b)ab1. 使用likeconcat模糊配对 selecta.a from testa a ,testb b where a like concat(%,b.b,%) group by a.a2. 使用locate函数 selecta.a from testa a ,testb b where locate(b.b,a.a)>0 group by a.a3. 使用instr函数 sel…

大数据之 Hadoop

hadoop主要解决：海量数据的存储和海量数据的分析计算 hadoop发展历史 Google是hadoop的思想之源（Google在大数据方面的三篇论文） 2006年3月，Map-reduce和Nutch Distributed File System(NDFS)分别被纳入到Hadoop项目&#xff0c…

【运维】hive 高可用详解： Hive MetaStore HA、hive server HA原理详解；hive高可用实现

文章目录一. hive高可用原理说明1. Hive MetaStore HA2. hive server HA 二. hive高可用实现1. 配置2. beeline链接测试3. zookeeper相关操作一. hive高可用原理说明 1. Hive MetaStore HA Hive元数据存储在MetaStore中，包括表的定义、分区、表的属性等信息。 hi…

二百零八、Hive——HiveSQL异常：Select查询数据正常,但SQL语句加上group by查询数据为空

一、目的在HiveSQL的DWD层中，需要对原始数据进行去重在内的清洗，结果一开始其他数据类型的清洗工作都正常，直到碰到转向比数据。一般的SQL查询有数据，但是加上group by以后就没数据； 一般的SQL查询有数据&#xf…

Windows11编译Hadoop3.3.6源码

由于https://github.com/kontext-tech/winutils还未发布3.3.6版本，因此尝试源码编译目录环境和安装包准备，见2zlib编译方法一：方法二： 配置文件更改1. maven阿里云镜像2. Node版本3. 越过Javadoc检查编译HadoopError,其他报错…

hive创建ES外部表过程中的问题

一、缺少jar包：httpclient 报错： “HiveServer2-Handler-Pool: Thread-696” java.lang.NoClassDefFoundError: org/apache/commons/httpclient/protocol/ProtocolSocketFactory 需要加载commons-httpclient-3.1.jar 二、缺少jar包：eshado…

和gpt聊天，学一手hdfs

我把聊天中间的主题，用标题标出来了，可以跳转直接观看，纯小白的求知道路。目录文章目录目录[toc] 计划学习**主题**: 1.1 HDFS概述**问题**: 他和mysql有什么区别**主题**: 1.1 HDFS概述HDFS 的设计和工作原理选择最佳的 DataNode策略配置…

hive- 18~18区间找最晚批次

开始时间：14:20 15:20 16:20 17:20 19:20 计算【18,18）内的最晚时间开始时间大于等于18点，开始时间减去18小时； 开始时间小于18点，开始时间加上(24-18)小时 select from_unixtime(if(unix_timestamp(t0.start_…

大数据平台/大数据技术与原理-实验报告--部署ZooKeeper集群和实战ZooKeeper

实验名称部署ZooKeeper集群和实战ZooKeeper 实验性质 （必修、选修） 必修实验类型（验证、设计、创新、综合） 综合实验课时 2 实验日期 2023.11.04-2023.11.05 实验仪器设备以及实验软硬件要求专业实验室&#xff08…

基于Hadoop的异构网络协同过滤推荐算法设计

基于Hadoop的异构网络协同过滤推荐算法设计基于Hadoop的异构网络协同过滤推荐算法设计 Design of Heterogeneous Network Collaborative Filtering Recommendation Algorithm based on Hadoop 目录目录 2 摘要 3 关键词 4 第一章引言 4 1.1 研究背景 4 1.2 研究意义 5 1.3 国…

大数据平台/大数据技术与原理-实验报告--部署全分布模式HBase集群和实战HBase

实验名称部署全分布模式HBase集群和实战HBase 实验性质 （必修、选修） 必修实验类型（验证、设计、创新、综合） 综合实验课时 2 实验日期 2023.11.07-2023.11.10 实验仪器设备以及实验软硬件要求专业实验室&#xff…

hadoop集群环境搭建和常用命令

搭建过程 1.集群配置 cat /etc/hosts 2.步骤安装 Java是否安装 which java 或者 echo $JAVA_HOME 3.解压安装包 tar -zxvf 4.修改配置文件 cd $HADOOP_HOME/etc/hadoop/ 下面是需要修改的配置文件 hadoop-env.sh yarn-env.sh hdfs-site.xml core-site.xml mapred-site.xml yar…

Hadoop数据仓库平台搭建

在这里是学习大数据的第一站什么是数据仓库常见大数据平台组件及介绍什么是数据仓库在计算领域，数据仓库（DW 或 DWH）也称为企业数据仓库（EDW），是一种用于报告和数据分析的系统，被认为是商业智…

九、hdfs中Namenode元数据处理

1、元数据的由来在hdfs文件系统中，用户的每一次操作，都会对文件系统产生响应的影响，那么谁来记录这些影响呢？ 在hdfs文件系统中，edits文件记录了hdfs中的每一次操作，以及本次操作影响的文件其对应的block。…

大数据基础 HDFS客户端操作

一、Maven概述 Maven是一个专门用于管理和构建Java项目的工具。我们之所以要使用Maven，是因为Maven可以为我们提供一套标准化的项目结构、一套标准化的构建流程和一套方便的依赖管理机制，这些功能可以使得我们的项目结构更加清晰，导入jar包的…

Hive_last_value()

在SQL中，LAST_VALUE()函数是一个窗口函数，用于返回窗口内的最后一个值。窗口函数允许你在一组行上执行计算，这组行与当前行有某种关系。可以将它们想象为与当前行相关的“窗口”。 LAST_VALUE()函数通常与OVER()子句一起使用，后者…

【物联网与大数据应用】Hadoop数据处理

Hadoop是目前最成熟的大数据处理技术。Hadoop利用分而治之的思想为大数据提供了一整套解决方案，如分布式文件系统HDFS、分布式计算框架MapReduce、NoSQL数据库HBase、数据仓库工具Hive等。 Hadoop的两个核心解决了数据存储问题（HDFS分布式文件系统&#…

2023.11.30 -hzmx电商平台建设项目05 - member会员主题建模开发

1.需求说明 1.11各类数据信息说明说明:公司为了对不同会员进行不同的营销策略，对各类会员的数量都非常敏感，比如注册会员、消费会员、复购会员、活跃会员、沉睡会员。不仅需要看新增数量还要看累积数量。 9个指标:新增注册会员数,累计注册会员数(上一…

CentOS7.5搭建Hadoop-3.3.6集群的详细操作流程-实操版本

一、准备工作 1、安装 VMware，已安装的，跳过此步骤即可官方正版VMware下载（16 pro）：https://www.aliyundrive.com/s/wF66w8kW9ac 安装：选一下安装地址，一直下一步即可。（可能会要…

ClassNotFoundException: org.apache.hive.spark.client.Job

hive使用的是3.13版本，spark是3.3.3支持hadoop3.x hive将engine从mr改成spark，通过beeline执行insert、delete时一直报错，sparkTask rpc关闭， 查看yarn是出现ClassNotFoundException: org.apache.hive.spark.client.Job。开始…

2023.12.1 --数据仓库之拉链表

目录什么是拉链表为什么要做拉链表? 没使用拉链表: 使用了拉链表: 题中订单拉链表的形成过程实现语句什么是拉链表拉链表是缓慢渐变维的一种解决方案. 拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始…

大数据Kylin（二）：Kylin安装使用

文章目录 Kylin安装使用一、Kylin安装要求二、Kylin安装 1、Kylin安装前环境准备

Hive 连接及使用

1. 连接有三种方式连接 hive： cli：直接输入 bin/hive 就可以进入 clihiveserver2、beelinewebui 1.1 hiveserver2/beeline 1、开启 hiveserver2 服务 // 前台运行，当 beeline 输入命令时，服务端会返回 OK [roothadoop1 bin]…

大数据全方位学习路线

大数据全方位学习路线一、大数据处理流程上图是一个简化的大数据处理流程图，大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应用等主要环节。下面我们逐一对各个环节所需要的技术栈进行讲解： 1.1 数据收集大数据处理的第一步是数据的收…

大数据框架之Hadoop：MapReduce（二）Hadoop序列化

2.1序列化概述 1、什么是序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者…

hadoop中使用 Gzip 压缩格式支持笔记

hadoop中支持的压缩方式有多种，比如Gzip，bzip2，zlib等，其中Gzip是hadoop中内置就支持的一种压缩方式，这种压缩方式在平时linux 的开发人员和管理员中使用的比较广泛，压缩比也比较高，压缩速度也…

Apache Flume

Apache Flume 一、概述 http://flume.apache.org/ Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. Flume分布式、可靠、高效的数据采集、聚合和传输工具。具备容错和故障恢复…

HDFS常用命令常用

常用HDFS命令说明hadoop fs -mkdir dir新建HDFS目录dirhadoop fs -mkdir -p /dir1/dir2/dir3建立多层目录hadoop fs -ls /Input列出”/Input”目录下的文件和目录hadoop fs -ls -R /Input列出”/Input”目录下所有子目录及目录里的文件hadoop fs -copyFromLocal file dir将本地…

Oozie入门笔记

概述 Apache官网：https://oozie.apache.org/ Oozie文档：http://blog.cloudera.com/blog/category/oozie/ Oozie是一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，它能够提供对MR和Pig Jobs的任务调度与协调&#xff…

1.2 Hadoop

1.2 Hadoop 1.2.1 Hadoop常用端口号 hadoop2.x Hadoop3.x 访问HDFS端口 50070 9870 访问MR执行情况端口 8088 8088 历史服务器 19888 19888 客户端访问集群端口 9000 8020 1.2.2 Hadoop配置文件配置文件： hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml…

hive连接mysql之疯狂踩坑

这次真的是非常吐血，虽然网上有很多排错教程，但介于我踩的坑实在太多，所以记录一下整个汇总信息故事要从hive启动开始，如果你的hive启动不起来， 是因为你的$HADOOP_HOME/etc/hadoop/hadoop-env.sh 当中的HADOOP_CLAS…

Ubuntu配置hadoop——（六）配置Hbase

我犯了个错误，Hbase里面自带了zookeeper，其实不需要另外装zookeeper，但装了就装了，把端口用不同的就可以。然后如果刚刚启动了另外的zookeeper,就先把zookeeper停掉 $ sudo su hadoop $ zkServer.sh stop下面开始配置hbase 第一步…

Hadoop完全分布式安装（HA、Yarn、ZKFC、flumeGanglia、sqoop一步到位）

文章目录Hadoop完全分布式安装（HA、Yarn、ZKFC、flume/Ganglia、sqoop一步到位）1. 基础环境安装1.1 时间同步1.2 安装jdk1.3 配置 hosts文件1.4 修改主机名1.5 免密钥设置2. hadoop完全分布式安装3. hadoop HA高可用集群搭建3.1 安装zookeeper3.2 配置HA…

MapReduce原理剖析（深入源码）

文章目录1. 概述1.1 提交任务1.2 初始化作业1.3 任务分配1.4 任务执行1.5 进度和状态更新1.6 作业完成2. 提交任务&切片源码分析2.1 提交任务源码分析2.2 提交核心之切片流程源码分析2.3 FileInputFormat 切片机制2.3.1 切片机制2.3.2 案例分析2.3.3 源码中计算切片大小的公…

MapReduce实战小案例（自定义排序、二次排序、分组、分区）

文章目录1. MapReduce概念2. 单词计数3. 排序数字4. 🎯求平均成绩5. 天气统计1. MapReduce概念 MapReduce是什么？ 我们来看官方文档的解释（我们下载的hadoop中有离线文档：hadoop-2.10.1/share/doc） Hadoop MapReduce 是…

完全分布式的安装

先准备三台虚拟机，依次分别命名Hadoop01，Hadoop02，Hadoop03. IP地址依次为192.168.10.101；192.168.10.102；192.168.10.103； 完全分布式搭建环境准备1. 总纲 1. 三台机器的防⽕墙必须是关闭的. 2. 确保三台…

hadoop 的启动和停止命令(史上最全)

命令如下 sbin/start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager sbin/stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager sbin/star…

local-dirs usable space is below configured utilization percentage/no more

最近新搭建了spark2.3 on yarn的集群,遇到这么一个问题,刚开始没有仔细看,最后才发现是由于datanode节点的磁盘空间不足,造成的,查看了一下机器的磁盘使用,发现确实是没有空间了,已经使用了98%,清理了一下磁盘的空间,或者给磁盘扩容就可以解决这个问题,如下图所示. 箭头所指地方…

解决: Command failed with error 18: 'Authentication failed.' on server localhost:2

#2020云栖大会#阿里云海量offer来啦！投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格！>>> 原因: 角色无权限解决: 修改角色为包含读权限的角色 db.createUser({user:"root",pwd:"1234",roles:[{"role"…

Sql通过存储过程生成全年日历考勤表数据

#2020云栖大会#阿里云海量offer来啦！投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格！>>> 需求: 生成考勤日历表 CREATE TABLE year_date_all (id int primary key AUTO_INCREMENT COMMENT id,repDate date NOT NULL COMMENT 日期,repY…

零基础学习大数据，搭建Hadoop处理环境

由于Hadoop需要运行在Linux环境中，而且是分布式的，因此个人学习只能装虚拟机，本文都以VMware Workstation为准，安装CentOS7，具体的安装此处不作过多介绍，只作需要用到的知识介绍。 VMware的安装&#xff0c…

$java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.$

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

如何解决winutils.exe的问题什么原因导致的？？？windows是客户端，读取linux的文件。客户端没有hadoop的环境重新在windows上面编译hadoop，编译出来window版本的客户端。解决办法： 下载hadoop对应版本的 …

Flink1.10.1编译hadoop2.7.2 编译flink-shaded-hadoop-2-uber

从Flink 1.11开始，flink-shaded-hadoop-2-uberFlink项目不再正式支持使用发行版。如果想建立flink-shaded对供应商特定的Hadoop版本，您必须首先描述配置特定供应商的Maven仓库在本地Maven安装在这里。这是已经编译好的flink-shaded-hadoop-2-uber-2.7.…

大数据---Hadoop安装jdk简易版

编写自动安装的shell脚本完整流程: 大数据—Hadoop安装教程（一） 文章目录编写自动安装的shell脚本上传压缩包编写shell脚本vim autoinstall.sh解压更名添加环境运行上传压缩包在opt目录下创建连个目录install和soft 将压缩包上传到install目录下 …

【Spark分布式内存计算框架——Spark Core】7. RDD Checkpoint、外部数据源

第五章 RDD Checkpoint RDD 数据可以持久化，但是持久化/缓存可以把数据放在内存中，虽然是快速的，但是也是最不可靠的；也可以把数据放在磁盘上，也不是完全可靠的！例如磁盘会损坏等。 Checkpoint的产生就是…

大数据处理技术导论（1） | Datawhale组队学习44期

文章目录前言1. 大数据概述1.1 数据量大 Volume1.2 数据种类多 Variety1.3 处理速度快 Velocity1.4 价值密度低 Value2. hadoop2.1 hadoop 简介2.2 hadoop 特性前言 2023年2月份，本月又要参加 datawhale 组队学习了，本次是第 44 期，本期参加…

如何通过合理的学习规划，快速入门大数据开发

对于很多初级开发者，或者还没什么实际开发经验的人来说，大数据相关技能看起来特别吓人，因为一堆特别复杂的英文名词，以及听起来难度极高的各种“架构”。但真正去学习上手，你就会发现，这个被传得神乎其技…

Hive 之 DML 数据操作

1. 数据导入 1.1 向表中 load 数据 load 可以从本地服务器、hdfs 文件系统加载数据到数据表中： load data [local] inpath /opt/module/datas/student.txt [overwrite] into table student [partition (partcol1val1,…)];// 加载到 default 库 student 表 load …

zookeeper 复习 ---- install

zookeeper 复习 ---- install下载 zk https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper 上传 zk /home/niit/ 解压 zk tar -xzvf apache-zookeeper-3.6.1-bin.tar.gz移动 zk 到 /usr/local/ sudo cp -r apache-zookeeper-3.6.1-bin /usr/local/zookeeper1 sudo cp …

【Spark分布式内存计算框架——Spark Core】10. Spark 内核调度（中）

8.3 Spark Shuffle 首先回顾MapReduce框架中Shuffle过程，整体流程图如下 Spark在DAG调度阶段会将一个Job划分为多个Stage，上游Stage做map工作，下游Stage做reduce工作，其本质上还是MapReduce计算框架。Shuffle是连接map和reduce之…

B站基于缓存优化 PRESTO 集群查询性能

导读：本次分享主题为 B 站 Presto 集群查询性能的优化，首先会简单介绍 Presto以及 B 站内部 Presto 集群的架构。接下来讲解针对 Presto 做的改造，主要是 Presto 搭配 Alluxio 和 Presto 搭配 Alluxio local cache 的使用。最后会对后续计划开…

【大数据】大数据学习路线

职位选择首先明确一点：大数据涉及的知识面广度还是有的，需要学习的组件繁多，想要每一项精通几乎不可能，所以企业在招聘的时候会进行细分，基于某个方向进行招聘，比如关键字，数据仓库工程师、数…

《Hadoop篇》------大数据及Hadoop入门

目录一、大数据及Hadoop入门 1.1 单节点、分布式、集群 1.1.1 大数据的概念 1.1.2 大数据的本质二、HDFS Shell命令 2.1、常用相关命令 2.2、上传文件 2.2.1、上传文件介绍 2.2.2上传文件操作 2.3、下载文件 2.4、删除文件 2.5、创建目录 2.6、查看文件系统 2.…

02Hadoop环境搭建

版本 hadoop-3.1.3.tar.gz解压安装文件到/opt/module下面 [sarahhadoop102 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/将Hadoop添加到环境变量 （1）获取Hadoop安装路径 [sarahhadoop102 hadoop-3.1.3]$ pwd /opt/module/hadoop-3.1.3&…

hive自定义函数

hive自定义函数 hive内置的函数满足不了所有的业务需求，可以考虑自己定义函数 UDF：一对一输出(upper) UDTF：一对多输出 (lateral view explode) UDAF：多对一输出(count, max, min) 自定义UDF 用java实现一个UDF 引入依赖 …

Hive优化篇-Hive数据存储格式

前言本文讲解 Hive 的数据存储，是 Hive 操作数据的基础。选择一个合适的底层数据存储文件格式，即使在不改变当前 Hive SQL 的情况下，性能也能得到数量级的提升。这种优化方式对学过 MySQL 等关系型数据库的小伙伴并不陌生，选择不…

一手教你如何搭建Hadoop基于Zookeeper的集群(5台主机)

文章目录一、设计集群图二、准备五台虚拟机2.1、下载安装文件2.2、创建虚拟机2.3、配置网络2.4、修改主机名称2.5、关闭防火墙2.6、同步时间2.7、设置/etc/hosts文件2.8、设置免密登录2.9、为后面可以主备替换安装psmisc三、安装JDK3.1、安装jdk3.2、测试jdk是否安装成功3.3、将…

一文讲透sparkHistoryServer与yarnHistoryServer关系

1、spark history 和 yarn history 的区别？ Spark History Server 和 YARN History Server 是用于查看和分析Spark和YARN 应用程序的执行情况的两个不同的工具。 Spark历史服务器是专门用于Spark应用程序的工具，它提供了一个界面，可以查看S…

彷徨 | 执行start-dfs.sh后，namenode正常启动 , datenode没有启动

解决启动集群后namenode正常显示,datanode却没启动的问题启动Hadoop2.8.3集群后，遇到namenode启动 , 但是datanode进程没启动，查看日志发现如下报错： java.io.IOException: Incompatible clusterIDs in /home/casliyang/hadoop2/hadoop-2.…

彷徨 | Hadoop的详细安装过程

安装HDFS，其实就是准备大量的Linux服务器，安装hadoop软件，然后在不同的机器上启动不同的程序，包括namenode，datanode，客户端。准备4台Linux服务器，1台用于启动namenode，3台用于启动…

彷徨 | [Hadoop异常处理] Namenode和Datanode都正常启动,但是web页面不显示

异常 namenode和data都正常启动但是web页面却不显示,都为零解决办法一: 在hdfs-site.xml配置文件中,加入 <property> <name>dfs.namenode.datanode.registration.ip-hostname-check</name> <value>false</value> </property> 重新加…

Hadoop源码编译支持Snappy压缩（Linux环境下联网利用Maven编译）

前言 hadoop的类库中是不带有snappy的，但是考虑到snappy的优点（压缩速度较快，压缩比率较好，虽然不支持切片，但是满足在mr中的shuffle阶段和map输出结果压缩！多job串联情况，保证reduce输出能切片…

代码思路分享计算机毕业设计Python+Hadoop+Spark+Hive旅游可视化旅游数据分析数据仓库旅游推荐系统旅游大数据大数据毕业设计大数据毕设

涉及技术 hadoop hive azkaban python爬虫 hue sqoop mysql 运行截图

程序好思路分享计算机毕业设计Hadoop+Spark交通大数据地铁客流量分析大数据数据仓库大数据毕业设计大数据毕设

简介该项目主要分析深圳通刷卡数据，通过大数据技术来研究深圳地铁客运能力及探索优化服务的方向主要讲解Flink流处理实时分析部分，离线部分较简单，暂时略过项目流程采用python请求深圳地铁数据API，将数据发送至Kafka和MyS…

原创代码思路分析需求分析分享计算机毕业设计Hadoop+Spark电影推荐系统电影用户画像系统电影大数据电影可视化电影爬虫电影数据分析电影大屏echarts 大数据毕设大数据毕业设计

本章详细介绍了本系统的需求分析。本系统旨在实现一个用户不仅能方便地查看电影信息，而且能获取自己感兴趣的推荐电影的系统。本系统的功能应当是较为完善的，推荐结果应当较为精准化，推荐效率应当高效，并且面对不断增长的电影数据…

原创分享计算机毕业设计PySpark+LSTM+Hadoop招聘推荐系统招聘大数据招聘数据分析协同过滤算法(基于物品+基于用户) 招聘可视化大屏就业推荐系统就业数据分析

开发技术前端：vue.js 后端API：springbootmybatis-plus 数据分析：PySpark、Spark_Java_API、Spark_SQL 数据可视化：echarts Spider(数据源)：Python、requests 机器学习：协同过滤算法(基于用户、基于物…

分享思路：Python+Spark招聘爬虫可视化系统招聘数据分析 Hadoop职位可视化大数据毕业设计 51job数据分析(可选加推荐算法)

开发技术 Hadoop、HDFS、Spark、SpringBoot、echarts、PySpark、Python、MySQL 创新点大数据架构、爬虫、数据可视化啰里啰嗦适合大数据毕业设计、数据分析、爬虫类计算机毕业设计可二次开发选加推荐算法(协同过滤算法等或者调用SparkML库) 数据处理流程本环节主要…

大数据架构五个顶级框架你知道几个

自从像AWS这样的公共云产品开辟了大数据分析功能以来，小企业通过挖掘大量的数据做到只有大企业才能做到的事情，至今大约有10年时间。这些事情其中包括网络日志、客户购买记录等，并通过按使需付费的方式提供低成本的商品集群。在这十年中&…

大数据零基础如何入门学习

我们学习一个新知识，第一步应该是给它个明确的定义。这样才能知道你学的是什么，哪些该学，哪些又可以先不用管。　　然而，大数据虽然很火，但其实是个概念没那么清晰的东西，不同的人可能有不同的理解。　　…

如何使用HBase？大数据存储的两个实战场景

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，适用于结构化的存储，底层依赖于Hadoop的HDFS，利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。因此HBase被广泛使用在大数据存储的解决方案中。　　为何使用HBas…

老程序员告诉你什么是大数据框架

大数据架构是用于摄取和处理大量数据(通常称为“大数据”)的总体系统，因此可以针对业务目的进行分析。该架构可视为基于组织业务需求的大数据解决方案的蓝图。大数据架构旨在处理以下类型的工作： •批量处理大数据源。 •实时处理大数据。 •预测分析和机…

大数据所具备的四个特点，清楚知道大数据原理原则

说起大数据，估计大家都觉得只听过概念，但是具体是什么东西，怎么定义，没有一个标准的东西，因为在我们的印象中好像很多公司都叫大数据公司，业务形态则有几百种，感觉不是很好理解，所以…

大数据和深度学习有什么区别？

简单来说： 1)深度学习(Deep Learning)只是机器学习(Machine Learning)的一种类别，一个子领域。机器学习 > 深度学习 2)大数据(Big Data)不是具体的方法，甚至不算具体的研究学科，而只是对某一类问题，或需处理的数据…

数据统计、数据挖掘、大数据、OLAP的区别

大数据、OLAP、数据统计的区别。一、数据分析数据分析是一个大的概念，理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程，都叫数据分析。从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看，可以把数据分析分为以下…

大数据技术面临的三个重要技术问题

大数据技术面临的三个重要技术问题，我们一起来看看。当今，大数据的到来，已经成为现实生活中无法逃避的挑战。每当我们要做出决策的时候，大数据就无处不在。大数据术语广泛地出现也使得人们渐渐明白了它的重要性。大数据渐渐向人们…

CentOS8.2安装Hadoop3.3.1

1、安装Hadoop之前，环境的配置 1、配置免密登录当我们远程登录一个机子的时候，ssh hostname(ip) 会发现需要输入密码，每次输入密码未免太麻烦，就需要我们配置免密，如果不配的话，传输文件的时候输密码会输…

大数据 hadoop 经典面试题 | 三

1、MapReduced的工作流程输入分片（inputsplit）：在进行map计算之前，mapreduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务&…

Spark与Hadoop相比的优缺点

1. Spark 概述 1.1. 什么是 Spark（官网：http://spark.apache.org） spark 中文官网：http://spark.apachecn.org Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校AMPLab，2…

彷徨 | MapReduce实例七 | Join拼接

以用户订单数据为例 : JoinBean import java.io.DataInput; import java.io.DataOutput; import java.io.IOException;import org.apache.hadoop.io.Writable;public class JoinBean implements Writable{private String oid;private String uid;private String name;private…

如何成为一名大数据工程师？

作为IT类职业中的“大熊猫”，大数据工程师这个职业在国内人才市场可谓是一颗闪耀的新星。由于刚刚出于萌芽阶段，这个领域出现很大的人才缺口。大数据是眼下非常时髦的技术名词，与此同时自然也催生出了一些与大数据处理相关的职业&#xff0…

彷徨 | Hadoop之Yarn个人浅谈

分布式资源调度平台 : Yarn YARN的服务进程角色 ResourceManager(只能在一台机器上 , 负责任务调度的) : 1 接收客户端请求 2 为整个Yarn集群分配资源 NodeManager(可以在很多台机器上运行,负责创建容器运行程序) : 1 能够根据客户端提交的任务的请求 , 会在NodeManager…

彷徨 | Hadoop之HDFS个人浅谈

小白所写 , 写的不好 , 请大神指点目录 1 . Hadoop中有三个核心组件 : 2 . 大数据的基本概念 : 处理海量数据的核心技术 : 分布式存储的框架： 分布式的计算框架： 辅助类工具有: 3 . 分布式文件存储系统HDFS 4 . Hadoop集群Shell端操作HDFS…

关于新手入门：Spark 部署实战入门

Spark简介整体认识 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。 Spark在整个大数据系统中处于中间偏上层的地位，如下图，对…

Hdoop学习笔记（HDP）-Part.16 安装HBase

十六、安装HBase 1.安装选择HBase进行安装 2.HMaster HA ACTIONS->ADD HBase Master 3.Ranger授权在HBase中新建策略先以hbase/hdp01.hdp.comHDP315.COM身份分别创建两个表空间及表 kinit -kt /etc/security/keytabs/hbase.service.keytab hbase/hdp01.…

最小化安装 Neokylin7.0 用于搭建 Hadoop 集群

文章目录环境搭建背景虚拟机创建和环境配置安装过程注意事项虚拟机设置软件选择KOUMP系统分区网络和主机名打开以太网，并记录信息配置 IPv4修改主机名创建用户 hadoop完全分布式搭建-CSDN博客环境搭建背景为什么不从hadoop100或者hadoop101开始，而是…

Hdoop学习笔记（HDP）-Part.13 安装Ranger

十三、安装Ranger 1.安装服务 (1)Choose Services (2)Assign Masters (3)Assign Slaves and Clients 选择不安装Ranger Tagsync (4)Customize Services 设置RANGER ADMIN DB FLAVOR：选择MySQL，依据ambari使用的数据库来定 Ranger DB name&#xff…

spark3.x 读取hudi报错

报错信息如下： Exception in thread "main" org.apache.hudi.exception.HoodieUpsertException: Failed to upsert for commit time 20231201203145254 at org.apache.hudi.table.action.commit.BaseWriteHelper.write(BaseWriteHelper.java:64) at org.apa…

【DBeaver】驱动添加-Hive和星环

驱动 Hive驱动 hive驱动可以直接去官网下载官网地址，填一下个人信息。如果想直接下载可以去我上次的资源下地址，需要用zip解压。星环驱动星环驱动是我第一次接触，是国产的基于开源Hive驱动自研的产品，我看到官网上有很多类…

Hdoop学习笔记（HDP）-Part.17 安装Spark2

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hdoop学习笔记（HDP）-Part.01 关于HDP

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hdoop学习笔记（HDP）-Part.14 安装YARN+MR

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop MapReduce任务的执行过程

注：本文注重原理介绍，较少涉及编程实现，有错误请指正，感谢~ 在进入正文之前需要了解这几个概念： HDFS：可以先简单理解为它是一个大型分布式的文件系统，里面存放了大量文件，也可以理…

大数据学习-Hadoop-HDFS

Yarn 调度器 1. FIFO 2. 容量调度器 3. 公平调度器

你竟然是这样的端智能?

很久以前，我还是个保洁员，直到有一天上帝说不了解端智能的保洁员不是好保洁员，于是我向隔壁小哥偷学了端智能这项技术，写下了这篇文章，如有错误，请找隔壁小哥~本文将谈谈端智能以及端智能在西瓜视频的发展。…

MapReduce在Zookeeper集群上鉴权失败

MapReduce在Zookeeper集群上鉴权失败这是zookeeper上的一封邮件问答。内容比较简单，请大家直接查看正文。我现在使用配置了Kafka的zookeeper集群，这个Kafka没有任何SASL安全配置。另外我还有一个hadoop集群，这个集群使用了另一个配置了安全…

Spark学习之Hadoop安装与测试

Spark是跑在Hadoop上（依赖YARN和HDFS）的内存计算引擎，内置了多种丰富组件如Spark SQL、Spark Stream等，是大数据分析挖掘的一种技术趋势。本文为学习Spark技术的第一篇日志，主要记录了Hadoop环境的搭建、安装与测试。 …

【Hadoop】Hbase总结

一、shell命令进行操作 1：基本操作 start-hbase.sh #运行hbase hbase shell #进入shell命令 list #列出表名 stop-hbase.sh #关闭 2：创建表 create tbname,f1,f2 create tb,{NAME>f1,VERSIONS>5} #创建时指定保存版本 3&am…

【Hadoop】HDFS编程

1、初始化配置信息： Testpublic void init() throws IOException, URISyntaxException, InterruptedException {Configuration configuration new Configuration();configuration.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSyst…

【Hadoop】Hadoop相关错误及解决方案

1：hive运行错误 ： HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 不能实例化org.apache.hadoop.hive.ql.metadata这个包下的SessionHiveMetaStoreClient&#xff…

Hdoop学习笔记（HDP）-Part.11 安装Kerberos

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hdoop学习笔记（HDP）-Part.07 安装MySQL

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hdoop学习笔记（HDP）-Part.05 Yum源配置

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hive数据倾斜之：数据类型不一致导致的笛卡尔积

Hive数据倾斜之：数据类型不一致导致的笛卡尔积目录 Hive数据倾斜之：数据类型不一致导致的笛卡尔积一、问题描述二、原因分析三、精度损失四、问题解决一、问题描述如果两张表的jion，关联键分布较均匀，没有明显的热点问题&…

基于hadoop下的hbase安装

简介 HBase是一个分布式的、面向列的开源数据库，该技术来源于Fay Chang所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，…

9.3.2 map端连接-CompositeInputFormat连接类

1.1.1 map端连接-CompositeInputFormat连接类 （1）使用CompositeInputFormat连接类需要满足三个条件： 1）两个数据集都是大的数据集，不能用缓存文件的方式。 2）数据集都是按照相同的键进行排序&am…

通过NFSv3挂载HDFS到本地目录

http://blog.csdn.net/dmcpxy/article/details/18257065 1.1 配置编辑$HADOOP_HOME/etc/hadoop/hdsf-site.xml文件，增加如下配置： <property> <name>dfs.access.time.precision</name> <value>3600000</value> <desc…

Hadoop 概念环境搭建启动测试

Hadoop 概念 1.Hadoop是什么？广义：Hadoop生态圈的代名词狭义：Apache 软件基金会下用Java 语言开发的一个开源分布式计算平台2.Hadoop发展历史来源：2005年，Hadoop作为Lucene子项目Nutch的一部分正式被引入Apache基金会…

Hadoop学习笔记（HDP）-Part.17 安装Spark2

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

7-HDFS的文件管理

单选题题目1：下列哪个属性是hdfs-site.xml中的配置？ 选项: A fs.defaultFS B dfs.replication C mapreduce.framework.name D yarn.resourcemanager.address 答案：B ------------------------------ 题目2：HDFS默认备份数量&…

Hadoop学习笔记（HDP）-Part.13 安装Ranger

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop学习笔记（HDP）-Part.15 安装HIVE

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop学习笔记（HDP）-Part.14 安装YARN+MR

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop学习笔记（HDP）-Part.11 安装Kerberos

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop学习笔记（HDP）-Part.10 创建集群

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop学习笔记（HDP）-Part.03 资源规划

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop学习笔记（HDP）-Part.01 关于HDP

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop学习笔记（HDP）-Part.12 安装HDFS

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop学习笔记（HDP）-Part.06 安装OracleJDK

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop学习笔记（HDP）-Part.07 安装MySQL

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop学习笔记（HDP）-Part.02 核心组件原理

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop学习笔记（HDP）-Part.04 基础环境配置

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hdoop学习笔记（HDP）-Part.09 安装OpenLDAP

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

idea本地调试hadoop 遇到的几个问题

1.DEA对MapReduce的toString调用报错：Method threw ‘java.lang.IllegalStateException‘ exception. Cannot evaluate org.apache.hadoop.mapreduc 解决方法：关闭 IDEA 中的启用“ tostring() ”对象视图 2.代码和hdfs路径都对的情况下，程序…

Hdoop学习笔记（HDP）-Part.20 安装Flume

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hdoop学习笔记（HDP）-Part.03 资源规划

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

基于hadoop下的Kafka分布式安装

简介 Kafka是一种分布式流处理平台，它具有高吞吐量、可扩展性、可靠性、实时性和灵活性等优点。它能够支持每秒数百万条消息的传输，并且可以通过增加节点来增加吞吐量和存储容量。Kafka通过将数据复制到多个节点来实现数据冗余和高可用性，即使…

使用 Kettle 完成数据 ETL

文章目录使用 Kettle 完成数据 ETL数据清洗数据处理使用 Kettle 完成数据 ETL 现在我们有一份网站的日志数据集，准备使用Kettle进行数据ETL。先将数据集加载到Hadoop集群中，然后对数据进行清洗，最后加载到Hive中。在本地新建一个数据集文…

【HDFS】dfs.datanode.max.transfer.threads 配置

文档介绍如下： The dfs.datanode.max.transfer.threads parameter is used to specify the size of the thread pool for a DataNode to process read and write data streams. Default value: 4096. If the value of this parameter is small, the number of Xceiver thread…

Hadoop——分布式计算MapReduce和资源调度Yarn

分布式计算 MapReduce YARN架构 YARN集群部署一、Hadoop安装目录下/etc/hadoop修改mapred-env配置文件，mapred-site.xml文件二、etc/hadoop文件内，修改yarn-env.sh，yarn-site.xml 三、将配置好的文件分发到其他服务节点 start-dfs.…

海量数据处理：从并发编程到分布式系统

本系列文章主要围绕高并发这一话题展开，分享笔者在并发处理上的学习思路以及踩过的坑。具体思路大体分为三部分： Java多线程编程；高并发的解决思路；分布式架构中Redis、Zookeeper分布式锁的应用。本文将重点讲解第一部分——Jav…

大数据平台架构及主流技术栈

互联网和移动互联网技术开启了大规模生产、分享和应用数据的大数据时代。面对如此庞大规模的数据，如何存储？如何计算？各大互联网巨头都进行了探索。Google的三篇论文 GFS(2003)，MapReduce(2004)，Bigtable(2006)为大数据…

大数据平台框架、组件以及处理流程详解

数据产品和数据密不可分作为数据产品经理理解数据从产生、存储到应用的整个流程，以及大数据建设需要采用的技术框架Hadoop是必备的知识清单，以此在搭建数据产品时能够从全局的视角理解从数据到产品化的价值。本篇文章从三个维度： 1.大数据的…

对即将学习大数据专业的学生有什么建议和推荐的书籍？

大数据现在是个很宽泛的职业方向了。广义的大数据在工业界分为： 基础架构。这个岗位主要为大数据提供底层的存储、基础设施等，要求是熟悉Hadoop、Spark等分布式集群。数据仓库。这个岗位和业务紧密挂钩，主要做的工作是深入了解业务&#xf…

这个女人不简单，解决了大数据重大问题

ClearStory Data是一家大数据创业公司，这家公司，不论技术，创始人还是风险投资发方，实力不可小觑。 ClearStory Data利用Google技术帮助公司利用好已经存于许多不同系统上的大量数据，让公司以一种新的眼光看待之前被忽略…

全面系统的大数据工程师必备知识与工具 | 经验

前言如何才能成为一名真正的“全栈（full-stack）”数据科学家？需要了解哪些知识？掌握哪些技能？ 概括来讲，一名全能型选手要把数据科学过程中从数据存储到把预测模型投入正式生产的每一步都能 hold 住。一…

0基础入门大数据开发的Hadoop体系

上文介绍了大数据开发学习需要的基础知识，接下来继续介绍大数据技术学习的重点之一：Hadoop。 Hadoop技术体系 （1）简介： Hadoop是Apache开源组织的一个分布式基础框架，提供了一个分布式文件系统 (HDFS)、…

Hadoop + HBase + Hive 完全分布式部署笔记

完全分布式Hadoop HBase Hive 部署过程的的一些问题。 NameNode: 192.168.229.132 DataNode: 192.168.229.133/192.168.229.134 -------------------------------------------------------------------------------- 配置 Hadoop 无密码SSH 首先是NameNode需要通过ssh来…

新旧 Hadoop 框架配置项变化表

表 2. 新旧 Hadoop 框架配置项变化表配置文件配置项 Hadoop 0.20.X 配置 Hadoop 0.23.X 配置说明 core-site.xml 系统默认分布式文件 URI fs.default.name fs.defaultFS hdfs-site.xml DFS name node 存放 name table 的目录 dfs.name.dir dfs.namenode.name.dir 新框架中 …

启动Hadoop HDFS时的“Incompatible clusterIDs”错误原因分析

“Incompatible clusterIDs”的错误原因是在执行“hdfs namenode -format”之前，没有清空DataNode节点的data目录。网上一些文章和帖子说是tmp目录，它本身也是没问题的，但Hadoop 2.4.0是data目录，实际上这个信息已经由日志的“/…

Hadoop 2.4.0和YARN的安装过程

Hadoop 2.x新特性将Mapreduce框架升级到Apache YARN，YARN将Map reduce工作区分为两个：JobTracker组件：实现资源管理和任务JOB；计划/监视组件：划分到单独应用中。使用MapReduce的2.0，开发人员现在可以直接…

大数据采集与处理相关脚本

自动创建文件 #!/bin/bash beg_datedate -d "${1}" %s end_datedate -d "${2}" %s if((${beg_date} > ${end_date}));thenecho "beg_date < end_date"exit 0; fi currentDate"" for((ibeg_date;i<${end_date};ii86400)) doc…

hadoop2.x集群安装配置

第1步：准备三台虚拟机，一台作为master，两台作为slave。第2步：三台虚拟机必须能访问外网，并且能相互ping通。第3步：查看三台主机的名字，为后续使用ssh能互相连接。分别为master，…

Apache Hadoop三大模块和生态

目录 HDFS架构 MapReduce架构 MapReduce具体过程 Yarn架构 Yarn的主要工作流程 Hadoop生态地图 Apache™ Hadoop 项目为实现可靠的、可扩展的分布式计算而开发了一系列开源软件。 Apache Hadoop软件库是一个框架，它允许使用简单的编程模型来实现跨计算机集群分…

Hadoop必将风靡2012年的六个理由

毫无疑问，Hadoop已经赢得了大量投资者和IT媒体的青睐，但却很少看到任何的实际产出。即将过去的2011是风暴来袭前的准备阶段，为很多新公司新用户建立了一个海量数据的分析平台。就连微软这样的互联网巨头都已放弃其他平台而选择Hadoop&#xf…

集群启动与停止

Hadoop的存储策略

Hadoop的存储策略策略 ID策略名称块分布creationFallbacksreplicationFallbacks15Lazy_PersistRAM_DISK: 1, DISK: n-1DISKDISK12All_SSDSSD: nDISKDISK10One_SSDSSD: 1, DISK: n-1SSD, DISKSSD, DISK7Hot (default)DISK: n< none >ARCHIVE5WarmDISK: 1, ARCHIVE: n-1A…

Hadoop半点启动配置

系统：ubuntu-14.04.3-desktop-amd64mac.iso hadoop版本： hadoop-2.7.1 jdk版本：jdk-7u79-linux-x64.tar.gz 1. 安装配置JDK 1.1） 解压jdk sudo tar zxvf jdk-7u79-linux-x64.tar.gz -C /usr/lib/java 1.2) 修改环境变量 sud…

集群环境配置

整体步骤 1.修改ip、修改host主机名 2.配置SSH免密登录 3.关闭防火墙 4.安装JDK、Hadoop安装包解压 5.配置Hadoop核心文件core-site.xml;hdfs-site.xml,mapred-site.xml 6.格式化hadoop namenode-foemat 启动节点start-all.sh 过程截图如下：

Hadoop集群所有或者部分的DataNode启动不了的解决方案

原因可能是多次Hadoop namenode -format导致clusterID不一致，具体可以在失败的.log文件中看到两个clusterID不一致，在这就先说具体解决方法 （1）先去hadoop路径下的配置文件hdfs-site.xml可知dfs.namenode.name.dir的地址和dfs.dat…

win10编译hadoop-3.X出现 Cannot run program bash

问题如下图： 问题解决： 没有安装 msys64

hadoop一键关闭脚本

windows7下编译hadoop-2.X源码

一、工具 1. jdk1.8 2. hadoop-2.8.3-src（hadoop源代码文件） 3. apache-maven-3.5.4 4. protobuf-2.5.0 5. protobuf-2.5.0.tar 二、环境配置 2.1 配置maven（1）解压到E盘 （2）进入环境变量 &#x…

Flume 安装部署

文章目录 Flume 概述Flume 安装部署官方网址下载安装配置文件启动 Flume 进程启动报错输出文件乱码问题 Flume 概述 Flume（Apache Flume）是一个开源的分布式日志收集、聚合和传输系统，属于 Apache 软件基金会的项目之一。其主要目标是简化大…

Hdoop学习笔记（HDP）-Part.04 基础环境配置

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop运行模式及目录结构

文章目录 Hadoop运行模式本地模式伪分布式模式完全分布式模式 Hadoop目录结构配置文件说明默认配置文件：自定义配置文件： Hadoop运行模式本地模式这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件…

二百一十、Hive——Flume采集的JSON数据文件写入Hive的ODS层表后字段的数据残缺

一、目的在用Flume把Kafka的数据采集写入Hive的ODS层表的HDFS文件路径后，发现HDFS文件中没问题，但是ODS层表中字段的数据却有问题，字段中的JSON数据不全二、Hive处理JSON数据方式 （一）将Flume采集Kafka的JSON数据…

Hadoop架构---HDFS补充知识点---三个模式/机制

1.安全模式在安全模式下不允许HDFS客户端进行任何修改文件的操作,包括上传文件，删除文件等操作。 #查看安全模式状态: [rootnode1 /]# hdfs dfsadmin -safemode get Safe mode is OFF #开启安全模式: [rootnode1 /]# hdfs dfsadmin -safemode enter Safe mod…

1-Hadoop原理与技术

单选题题目1：安装Hadoop集群时，是在哪个文件指定哪些机器作为集群的从机？ 选项: A datanode B slaves C yarn-site.xml D core-site.xml 答案：B ------------------------------ 题目2：Hadoop配置文件所在目录是哪…

Hadoop进阶学习---Yarn资源调度架构

1.Yarn执行MR流程 1.客户端提交一个MR程序给ResourceManager(校验请求是否合法…) 2.如果请求合法,ResourceManager随机选择一个NodeManager用于生成appmaster(应用程序控制者,每个应用程序都单独有一个appmaster) 3.appmaster会主动向ResourceManager的应用管理器(applicatio…

【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移

【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移 1）Distcp 工具简介及参数说明2）Shell 脚本 1）Distcp 工具简介及参数说明【Hadoop-Distcp】工具简介及参数说明 2）Shell 脚本应用场景： 两个实时集…

Hadoop学习笔记（HDP）-Part.08 部署Ambari集群

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

hive-3.1.2环境安装实验

1.修改hadoop相关参数 1-修改core-site.xml [bigdata@master hive]$ vim /opt/module/hadoop/etc/hadoop/core-site.xml <property><name>hadoop.proxyuser.bigdata.hosts</name><va…

Scala--2

package scala02object Scala07_typeCast {def main(args: Array[String]): Unit {// TODO 隐式转换// 自动转换val b: Byte 10var i: Int b 10val l: Long b 10 100Lval fl: Float b 10 100L 10.5fval d: Double b 10 100L 10.5f 20.00println(d.getClass…

Hive的安装配置、初始化元数据、启动

Hive的安装配置、初始化元数据、启动 1、解压hive到指定目录/usr/local/src 改名，将mysql的驱动包拷贝到hive的lib目录下 2、环境变量 1） vi /etc/profile export HIVE_HOME/usr/local/src/hive export PATH P A T H : PATH: PATH:HIVE_HOME/bin echo…

Hadoop学习笔记（HDP）-Part.20 安装Flume

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

【HDFS运维】HDFS回收箱机制：原理、配置、配置可能导致的问题分析

文章目录一. HDFS回收箱机制逻辑1. 基本逻辑2. 举例说明二. 配置测试1. 配置2. 回收箱相关命令三. 其他问题讨论1. api不会走trash机制2. 因为设置了Trash configuration导致nn无法响应一. HDFS回收箱机制逻辑 1. 基本逻辑 If trash configuration is enabled, files remo…

【Hadoop_01】Hadoop介绍与安装

1、Hadoop、HDFS、YARN介绍（1）Hadoop简介与优势（2）Hadoop组成（3）HDFS概述（4）YARN概述（5）MapReduce概述 2、安装（1）Centos7.5软硬件安装…

毕设：《基于hive的音乐数据分析系统的设计与实现》

文章目录环境启动一、爬取数据1.1、歌单信息1.2、每首歌前20条评论1.3、排行榜二、搭建环境1.1、搭建JAVA1.2、配置hadoop1.3、配置Hadoop环境：YARN1.4、MYSQL1.5、HIVE(数据仓库)1.6、Sqoop（关系数据库数据迁移） 三、hadoop配置内存四、导…

Hadoop3.x完全分布式环境搭建Zookeeper和Hbase

先在主节点上进行安装和配置，随后分发到各个从节点上。 1. 安装zookeeper 1.1 解压zookeeper并添加环境变量 1）解压zookeeper到/usr/local文件夹下 tar -zxvf /usr/local2）进入/usr/local文件夹将apache-zookeeper-3.8.0-bin改名为zookeep…

基于Hadoop的电商数据分析系统设计与实现

基于Hadoop的电商数据分析系统设计与实现 Design and Implementation of E-commerce Data Analysis System based on Hadoop 目录目录 2 摘要 3 关键词 3 第一章绪论 4 1.1 研究背景 4 1.2 研究目的与意义 5 1.3 现有研究综述 6 第二章 Hadoop技术介绍 8 2.1 Hadoop概述 8 2.…

hadoop安装与配置-shell脚本一键安装配置（集群版）

文章目录前言一、安装准备1. 搭建集群二、使用shell脚本一键安装1. 复制脚本2. 增加执行权限3. 分发脚本4. 执行脚本5. 加载用户环境变量三、启动与停止1. 启动/停止hadoop集群(1) 复制hadoop集群启动脚本(2) 增加执行权限(3) 启动hadoop集群(4) 停止hadoop集群(5) 重启hado…

物联网架构之 Hadoop

修改/etc/hosts文件 192.168.107.197 node1 192.168.107.196 node2 192.168.107.195 node3 创建用户并加入组 groupadd hadoop useradd -g hadoop hduser passwd hduser vim /etc/sudoers hduser ALL(ALL) ALL 安装JDK rpm -ivh jdk-8u171-linux-x64.rpm vim /etc/profile e…

查看hive表储存在hdfs的哪个目录下

查看hive表储存在hdfs的哪个目录下使用Hive的DESCRIBE FORMATTED命令。具体步骤如下： 打开Hive终端，并连接到Hive数据库。运行以下命令，将表名替换为你要查询的表名： DESCRIBE FORMATTED your_table_name;在输出中&#x…

Hive HWI 配置

前言 1、下载安装好hive后，发现hive有hwi界面功能，研究下是否可以运行，于是使用hive –service hwi命令启动hwi界面报错。启动hwi功能 2、访问192.168.126.110:9999/hwi，发现访问错误一、HWI介绍 HWI（Hive Web Int…

Hive中parquet压缩格式分区表的跨集群迁移记录

文章目录环境与需求集群环境需求描述操作步骤STEP 1STEP 2STEP 3STEP 4STEP 5STEP 6 环境与需求集群环境华为FushionInsight A 华为FushionInsight B 华为集群管理机 local Hive 3.1.0 HDFS 3.3.1 需求描述从华为A集群中将我们的数据迁移到华为B集群，其…

十二、MapReduce概述

1、MapReduce （1）采用框架 MapReduce是“分散——>汇总”模式的分布式计算框架，可供开发人员进行相应计算 （2）编程接口： ~Map ~Reduce 其中，Map功能接口提供了“分散”的功能&#xff…

hive聚合函数之排序

1 全局排序（Order By） Order By：全局排序，只有一个Reduce。 (1）.使用Order By子句排序 asc（ascend）：升序（默认） desc（descend）&#…

头歌—Hive的安装与配置

第1关：Hive的安装与配置在修改 conf 下面的hive-site.xml文件这里，题目给的信息是错误的，正确的内容如下： <?xml version"1.0" encoding"UTF-8" standalone"no"?> <?xml-stylesheet…

Hadoop进阶学习---HDFS分布式文件存储系统

1.hdfs分布式文件存储的特点分布式存储:一次写入,多次读取 HDFS文件系统可存储超大文件,时效性较差. HDFS基友硬件故障检测和自动快速恢复功能. HDFS为数据存储提供很强的扩展能力. HDFS存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改. HDFS可以在普通廉价的机器…

Hadoop进阶学习---MapReduce分布式计算架构

1.单词统计流程(文字简单描述) 已知文件内容: hadoop hive hadoop spark hive flink hive linux hive mysql 计算每个单词出现的次数 2.MR底层计算原理[重点] MAP阶段第一阶段是把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认情况下Split s…

windows下DSS界面本地集成linkis管理台

说明：当前开发环境为windows，node版本使用16.15.1。启动web时，确保后端服务已准备就绪。 1.linkis web编译 #进入项目WEB根目录 $ cd linkis/linkis-web #安装项目所需依赖 $ npm install参考官方编译说明，windows下编译一直异常…

WordCount 源码解析 Mapper，Reducer，Driver

创建包 com.nefu.mapreduce.wordcount ，开始编写 Mapper ， Reducer ， Driver 用户编写的程序分成三个部分： Mapper 、 Reducer 和 Driver 。 （ 1 ） Mapper 阶段 ➢ 用户自定义的 Mapper 要继承自己的父…

WPF仿网易云搭建笔记(1):项目搭建

文章目录前言项目地址动态样式组合样式批量样式覆盖Prism新建UserControler修改Material Design 笔刷收放列表可以滚动的StackPanel列表点击展开或折叠实现效果前言今天接着继续细化代码，把整体框架写出来项目地址 WPF仿网易云 Gitee仓库动态样式【WPF】C#…

【Hadoop_02】Hadoop运行模式

1、Hadoop的scp与rsync命令（1）本地运行模式（2）完全分布式搭建【1】利用102将102的文件推到103【2】利用103将102的文件拉到103【3】利用103将102的文件拉到104 （3）rsync命令（4）xsync…

scala编码

1、Scala高级语言 Scala简介 Scala是一门类Java的多范式语言，它整合了面向对象编程和函数式编程的最佳特性。具体来讲Scala运行于Java虚拟机（JVM)之上，井且兼容现有的Java程序，同样具有跨平台、可移植性好、方便的垃圾回收等特性…

WPF仿网易云搭建笔记(2):组件化开发

文章目录前言专栏和Gitee仓库依赖属性实战：缩小，全屏，关闭按钮依赖属性操作封装主窗口传递this本身给TitleView标题控件主要代码MainWindow.xmalMainWindow.cs依赖属性方法封装TitleView.csTitleViewModelTitleViewModel实现效果前言这次…

【大数据-Hadoop】从入门到源码编译-概念篇

【大数据-Hadoop】从入门到源码编译-概念篇 Hadoop与大数据生态（一）Hadoop是什么？（二）Hadoop组成1. HDFS1.1 NameNode（nn）1.2 DataNode（dn）1.3 Secondary NameNode&#…

Centos7下Hadoop3.x源码编译（支持zstd压缩方式）

工具安装组件版本下载地址JDK1.8.0_131https://www.oracle.com/technetwork/java/javase/downloads/index.htmlHadoop3.1.1http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-3.1.1/hadoop-3.1.1-src.tar.gzMaven3.6.0http://mirrors.hust.edu.cn/apache/maven/maven-3…

Spark中的Standalone 模式配置时的坑

1、sbin/start-all.sh直接群起 --可能错误原因：之前已经开启了Hadoop集群，all会重复启动，会造成DataNode假死； --解决 （1）重启能解决99%的问题 （2）重启不行，要是集群没有…

YARN架构

1. ResourceManager ResourceManager管理整个集群的资源调度通常在独立的机器上以后台进程的形式运行，它是整个集群资源的主要协调者和管理者。ResourceManager 负责给用户提交的所有应用程序分配资源，它根据应用程序优先级、队列容量、ACLs、数据位置…

MapReduce优化

1MapReduce 跑的慢的原因系统资源限制：内存、CPUI/O问题小文件太多超大文件不能切片Map和Reduce参数设置不合理Map运行太长，Reduce等待太久溢写次数太多merge合并次数太多 2 MapReduce优化方法 MapReduce优化方法主要从六个方面考虑：数…

Hadoop搭建配置信息

文章目录一、etc/hadoop/core-site.xml二、etc/hadoop/hdfs-site.xml1、NameNode的配置：2、DataNode的配置：三、etc/hadoop/yarn-site.xml1、ResourceManager 和 NodeManager 的配置：2、ResourceManager的配置：3、NodeManager 的配…

数据湖及其相关概念

一、数据湖定义下面是维基百科对于数据的定义： 其，大概的意思就是将没有经过清洗的等操作的原生数据，将这些数据进行相关数据的存储，这些数据可以运用于计算机视觉，大数据分析甚至机器的数据支撑。数据湖&#xff…

MapReduce阶段的排序

MapReduce阶段的排序 map阶段：全排序、二次排序、部分排序二次排序实现：对map端输出的key进行排序，实现compareTo方法。在compareTo方法中排序条件有两个。 reduce阶段：分组排序

对Hadoop-HDFS性能造成重大影响的杀手-Shell

在测试Hadoop时, 使用NameNode身上的dfshealth.jsp管理页面发现，DataNode在运行的过程中,Last Contact参数时常会超过3。LC（Last Contact）的意思是表明DataNode有多少秒的时间未向NameNode发送心跳包了。然而默认DataNode是3秒发送一次&#…

HDFS的缺点及改进策略

HDFS是一个不错的分布式文件系统，它有很多的优点，但也存在有一些缺点。目前而言，它在以下几个方面就效率不佳：低延时访问HDFS不太适合于那些要求低延时（数十毫秒）访问的应用程序，因为HDFS是设计…

分布式服务框架_Zookeeper--管理分布式环境中的数据

安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。单机模式

Mybatis-Plus(连接Hive)

序号类型地址1MySQLMySQL操作之概念、SQL约束（一）2MySQLMySQL操作之数据定义语言（DDL)（二）3MySQLMySQL操作之数据操作语言（DML)（三）4MySQLMySQL操作之数据查询语言：(DQL)…

数据科学导论复习个人整理

综合了各方的材料整理综合了这一份但是考试被EDA打脸（doge） 把图片删了，老师课件外传不好所以涉及老师课件的图都删了，只写知识点名称大数据概述 1.大数据时代技术支撑：存储设备容量不断增加、CPU处理能力大幅提升…

MapReduce工作流程

2.3 MapReduce工作流程整个MapReduce的重点 Map阶段步骤1，已有数据，在/user/input下步骤2，该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value其实就是切片步骤3，提交信息&a…

HADOOP基础1

HADOOP Hadoop是一个开源软件框架，用于存储大量数据，并发处理/查询在具有多个商用硬件（即低成本硬件）节点的集群上的那些数据。总之，Hadoop包括以下内容： HDFS（Hadoop Distributed File System…

山东大学软件学院2020-2021数据科学导论试题回忆

2021.1.2 16:00 刚出考场，心情沉重考试前半小时，院表白墙有人发帖说表白某老师，之前说不考试，后来又考考啥也不明确复习起来像开天辟地评论区开始接龙“他甚至连天和地是啥都没说” 属实给我逗乐了一、简答 1.大数据的全生…

Hadoop端口号、配置文件

端口号 2.x 50070 8088 19888 9000 web端查看HDFS文件系统 http://hadoop101:50070/dfshealth.html#tab-overview 注意：如果不能查看，看如下帖子处理 http://www.cnblogs.com/zlslch/p/6604189.htmldfs.namenode.http-address:50070 SecondaryNameNode:…

linux scp 【全新思路解决】出现Permission denied问题

前言欢迎大家来到我的博客，请各位看客们点赞、收藏、关注三连！ 欢迎大家关注我的知识库，Java之从零开始语雀你的关注就是我前进的动力！ CSDN专注于问题解决的博客记录，语雀专注于知识的收集与汇总，…

openTSDB+Hadoop+HDFS+Hbase+Zookeeper单点安装部署

1.zookeeper安装部署下载：https://www.apache.org/dyn/closer.cgi/zookeeper/ 解压：tar -zxvf zookeeper-3.4.13.tar.gz cd zookeeper-3.4.13/conf mv zoo_sample.cfg zoo.cfg vim zoo.cfg 编辑配置文件 dataDir和clientPort可…

Hadoop的初步认识

Hadoop是一种分布式数据和计算的框架。它很擅长存储大量的半结构化的数据集。数据可以随机存放，所以一个磁盘的失败并不会带来数据丢失。Hadoop也非常擅长分布式计算——快速地跨多台机器处理大型数据集合。 Hadoop的组成 Common 一组分布式文件系统和通用I/0 的…

大数据之Hadoop

文章目录一、大数据概论1、大数据概念2、大数据的特点3、大数据应用场景4、大数据部门的业务流程分析5、大数据部门组织结构（重点）二、从Hadoop框架讨论大数据生态1、什么是Hadoop2、Hadoop发展历史3、Hadoop三大发行版本1.Apache Hadoop2.Cloudera Hado…

Hadoop之——WordCount案例与执行本地jar包

目录一、WordCount代码 (一)WordCount简介 1.wordcount.txt (二)WordCount的java代码 1.WordCountMapper 2.WordCountReduce 3.WordCountDriver (三)IDEA运行结果 (四)Hadoop运行wordcount 1.在HDFS上新建一个文件目录 2.新建一个文件，并上传至该目录下…

2月datawhale组队学习：大数据

文章目录一、大数据概述二、 Hadoop2.1 Hadoop概述2.2 su:Authentication failure2.3 创建用户datawhale，安装java8：2.4设置SSH登录权限2.5 安装单机版Hadoop2.5.1 安装Hadoop2.5.2 修改hadoop-env.sh文件配置2.5.3 Hadoop伪分布式安装2.5.4 启动Hadoop2…

EMR集群运行TPC-DS在云盘和OSS中的对比

1.简介 TPC-DS是大数据领域最为知名的Benchmark标准。本文介绍使用阿里云EMR集群运行TPC-DS在云盘和OSS中的表现对比。 2.环境准备 1.创建EEMR-5.10.1集群 1个master,2个core,3台机器都s是4c16g。 2.安装Git和Maven sudo yum install -y git maven3.下载TPC-DS Benchmark工…

Hadoop权威指南（第2版）--第2章

1.MapReduce编程模型：线性可伸缩，使用无共享框架，将问题分为独立的块，再进行并行计算。 MapReduce编程模型可用于数据处理，模型比较简单，但用于绽有用的程序并不简单。Hadoop可以运行由各种语言编写的MapR…

Hadoop权威指南（第2版）--第1章

1.RAID和HDFS的区别 2.MapReduce编程模型：线性可伸缩，使用无共享框架，将问题分为独立的块，再进行并行计算。 3.Hadoop提供一个可靠的共享存储和分析系统，HDFS实现存储，而MapReduce实现分析处理。 4.磁盘…

Linux系统中Hadoop的安装和单机、伪分布式配置

根据前面一篇Linux系统安装的文章，我们使用的是乌班图系统，所以下面的Hadoop就是在Ubuntu 14.04版本下安装的。安装：Hadoop 可以通过 http://mirror.bit.edu.cn/apache/hadoop/common/ 或者 http://mirrors.cnnic.cn/apache/hadoop/common/ …

hadoop学习笔记（六）HBase的API

调用API所用的JAR包基本就是在/usr/local/hbase/lib下的所有jar包，最好不要倒入hadoop的jar包，没准会发生冲突。需要的类以及运行过程建立连接 public static void init()一系列操作关闭连接 public static void close() 实例代码： …

大数据平台搭建实训报告(思路而已)

目录 1.环境准备 1.1实验目的 1.2实践操作 2.部署HDFS 2.1实验步骤 2.2实践操作 3.实验三 HDFS shell操作 3.1实验目的 3.2实践操作 3.2.1练习对HDFS文件创建、查看、删除、复制、粘贴等文件操作 3.2.2练习本地文件与HDFS文件的上传与下载 3.2.3练习HDFS文件权限修…

07-HDFS入门及shell命令

1 文件系统是一种存储和组织数据的方法，它使得文件访问和查询变得容易使得文件和树形目录的抽象逻辑概念代替了磁盘等物理设备使用数据块的概念，用户使用文件系统来保存数据不必关心数据底层存在硬盘哪里，只需记住这个文件的所属目录和文件…

05-Hadoop集群部署(普通用户)

Hadoop集群部署（普通用户） Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。**伪分布式模式：**也是单机运行，但…

大数据Hadoop之——Apache Hudi 数据湖实战操作（Spark，Flink与Hudi整合）

文章目录一、概述二、Hudi CLI三、Spark 与 Hudi 整合使用1）Spark 测试2）Spark 与 Hudi 整合使用1、启动spark-shell2、导入park及Hudi相关包3、定义变量4、模拟生成Trip乘车数据5、将模拟数据List转换为DataFrame数据集6、将数据写入到hudi四、Flink 与…

基于大数据平台的毕业设计01：基于Docker的HDP集群搭建

前言好多人问我，这种基于大数据平台的xxxx的毕业设计要怎么做。这个可以参考之前写得关于我大数据毕业设计的文章基于大数据平台的毕业设计。这篇文章是将对之前的毕设进行优化。个人觉得可以分为两个部分。第一个部分就是基础的平台搭建。例如Hadoop集群、Kafk…

大数据编程实验二：RDD编程

大数据编程实验二：RDD编程文章目录大数据编程实验二：RDD编程一、前言二、实验目的与要求三、实验内容四、实验步骤1、pyspark交互式编程2、编写独立应用程序实现数据去重3、编写独立应用程序实现求平均值问题五、最后我想说一、前言刚更完大数据编程实…

Hive 存储与压缩

文章目录存储格式行存储与列存储存储格式解析TextFile 格式ORC 格式Parquet 格式存储效率对比TextFile 格式ORC 格式（推荐）Parquet 格式对比压缩ORC —— ZLIB 压缩ORC —— SNAPPY 压缩Parquet —— GZIP 压缩Parquet —— SNAPPY 压缩总结本文中用到的…

【大数据入门核心技术-Ambari】（一）Ambari介绍

一、什么是Ambari Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。 Apache Ambari 支持HDFS、MapReduce、Hive、Pi…

【Hive】启动beeline连接hive报错解决

1、解决报错2、在datagrip上连接hive 1、解决报错刚开始一直报错：启动不起来 hive-site.xml需要配置hiveserver2相关的在hive-site.xml文件中添加如下配置信息  <property><name>hive.server2.thrift.bin…

16. 常用shell之 sort - 排序文本文件中的行的用法和衍生用法

sort 命令是 Linux 和 Unix 系统中用于排序文本文件行的工具。它可以根据文本文件中的内容进行排序，是文本处理中非常有用的命令。基本用法默认排序: 命令：sort filename功能：按照字符编码顺序（通常是 ASCII）排序文…

ambari hive on Tez引擎一直卡住

hive on tez使用./bin/hive启动后一直卡住，无法进入命令行使用TEZ作为Hive默认执行引擎时，需要在调用Hive CLI的时候启动YARN应用，预分配资源，这需要花一些时间，而使用MapReduce作为执行引擎时是在执行语句的时候才会…

Hadoop 完全分布式搭建详细流程

Hadoop的完全分布式搭建是一项复杂的任务，其中包含了很多步骤和细节。以下是一个简要的流程，供参考： 确定Hadoop版本和操作系统首先，您需要确定要安装的Hadoop版本和所使用的操作系统。Hadoop有多个版本，每个版本可…

【Hadoop_03】HDFS概述与Shell操作

1、集群配置（1）集群启动/停止方式总结（2）编写Hadoop集群常用脚本（3）常考面试题【1】常用端口号【2】常用配置-文件 2、HDFS概述（1）HDFS产出背景及定义（2）HDFS…

hive数据仓库工具

1、hive是一套操作数据仓库的应用工具，通过这个工具可实现mapreduce的功能 2、hive的语言是hql[hive query language] 3、官网hive.apache.org 下载hive软件包地址 Welcome! - The Apache Software Foundationhttps://archive.apache.org/ 4、hive在管理数据时分为元…

Hadoop分布式配置小白篇（附加各阶段问题解决方式）

看的黑马的课，记录一下配置步骤目录 1.VMware安装： 方法1： 方法2： 2.创建虚拟机 1.ISO镜像文件获取（CentOS）： 2.创建（简略步骤） 3.克隆虚拟机（克隆伪…

【Hadoop面试】HDFS读写流程

HDFS（Hadoop Distributed File System）是GFS的开源实现。 HDFS架构 HDFS是一个典型的主/备（Master/Slave）架构的分布式系统，由一个名字节点Namenode(Master) 多个数据节点Datanode(Slave)组成。其中Namenode提供元数…

大数据存储技术（1）—— Hadoop简介及安装配置

目录一、Hadoop简介 （一）概念 （二）Hadoop发展历史 （三）Hadoop三大发行版本 （四）Hadoop的优势二、Hadoop的组成 （一）Hadoop1.x和Hadoop2.x的区别…

$MapReduce\Shuffle$

MapReduce\Shuffle

MapReduce\Shuffle MapReduce 是一种编程模型，用于处理和生成大数据集。这个模型由两个主要步骤组成：Map步骤和Reduce步骤。 Map步骤：在这个步骤中，输入数据集被分割成多个独立的数据块，然后每个数据块被分配给一个M…

【基础知识】Hadoop生态系统

Hadoop是一个开源的分布式计算框架,主要用于大数据的存储和处理，即一个包含多种组件的综合分布式系统,组件相互协作完成从数据存储到计算分析的完整功能。关键词——容灾主从结构、多副本主要特点分布式存储 - Hadoop采用HDFS文件系统,可以将大数据分布式存…

修改jvm对象的属性值(私有)

修改jvm对象的属性值(私有) 这个想法的来源一个spark job 在启动之后，就会确定 executor 的数量。但是存在一种情况，当我的队列资源宽松可能就要调整一些job的资源，但是spark job在启动的时候，最大的资源就确定了，…

大数据课设

----------------------------------------------------------------------------------------------------------------------------- 由于本人主修嵌入式方向最多使用的就是C语言，由于物联网这个专业的特殊性，javaweb没少写，所以java也用…

锁屏面试题百日百刷-Hive篇(八)

锁屏面试题百日百刷，每个工作日坚持更新面试题。锁屏面试题app、小程序现已上线，官网地址：https://www.demosoftware.cn。已收录了每日更新的面试题的所有内容，还包含特色的解锁屏幕复习面试题、每日编程题目邮件推送等功能。让你…

Hive介绍及DDL

1.OLTP和OLAP OLTP： 联机事务处理系统。在前台接收的用户数据可以立即传送到后台进行处理，并在很短的时间内给出处理结果。关系型数据库是OLTP典型应用，如MySQL OLTP环境开展数据分析是否可行？ 为了更好的开展数据分析&#x…

198.Spark（五）：spark指令运行过程，通信机制，任务提交流程，任务调度机制，shuffle解析，内存管理（面试必看）

目录一、spark指令运行过程 1.yarn集群环境执行spark指令过程 2.Driver 3.Executor 4.Spark 通用运行流程概述

Hadoop运行模块

二、Hadoop运行模式 1）Hadoop官方网站：http://hadoop.apache.org 2）Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。伪分…

Hive

文章目录1️⃣、Hive入门1.1、什么是Hive1.2、Hive架构2️⃣、Hive安装及使用2.1、 Hive安装地址2.2、Hive安装部署.2.2.1、安装Hive2.2.2、启动并使用Hive2.3、MySQL安装2.3.1 安装MySQL2.3.2 配置MySQL2.4、配置Hive元数据存储到MySQL2.4.1 配置元数据到MySQL2.4.2 验证元数据…

Hadoop学习总结

HDFS YARN MapReduce关系 HDFS （分布式文件系统） 优缺点优点 1. 高容错性：副本丢失，可以自动回复。 2. 适合处理大数据 3. 可以构建在廉价的机器上，通过对多副本机制，提高可靠性缺点 1. 不适合低延时数…

大数据呀大数据

大数据啥是大数据? 我自己的一些经历–>>在做代码开发之前,一直觉得大数据这件事是高大上的一门学问,门槛很高,而且我上大学的时候这个词才刚刚在众多互联网记住中展露头角; 我的个人经历–>> 我上大学时那时候安卓的版本才到安卓4.4,在智能手机出来普及以前,各…

IT行业岗位分析系统设计与实现（Spark+Hadoop）

目录摘要 I ABSTRACT II 1 引言 1 1.1 研究背景 1 1.2 研究意义 1 1.3 研究内容与组织结构 1 2 相关理论与技术介绍 3 2.1 HDFS简介 3 2.2 Spark简介 4 2.3 MongoDB数据库简介 6 2.4 爬虫技术简介 7 2.5 Echarts简介 8 2.6 Pyqt5简介 8 2.7 本章小结 8 3 系统需求分析 9 3.1…

大数据技术——Flume实战案例

实战案例目录1. 复制和多路复用1.1 案例需求1.2 需求分析1.3 实现操作2. 负载均衡和故障转移2.1 案例需求2.2 需求分析2.3 实现操作3. 聚合操作3.1 案例需求3.2 需求分析3.3 实现操作1. 复制和多路复用 1.1 案例需求使用 Flume-1 监控文件变动，Flume-1 将变动内容…

海豚dolphinscheduler 通过shell 调用.sql文件传参

1. 准备sql文件 1.1 资源中心--创建文件 1.2 文件格式选择 sql, 文件内容填要执行的sql内容 1.3 点击创建保存 2.shell调用.sql文件 2.1 拖拽一个shell 节点 2.2 编辑shell节点 hive -e：后面跟hivesql字符串例如：hive -e "select * from studen…

大数据技术之Hadoop（MapReduce）

第1章 MapReduce概述 1.1 MapReduce定义 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个H…

【HDFS】DFSPacket中lastPacketInBlock字段的关键作用

这篇文章介绍了DFSPacket对象的lastPacketInBlock字段相关的知识。【HDFS Client】DFSPacket对象什么情况下是lastPacketInBlock？本文继续深挖lastPacketInBlock这个字段在HDFS Client写数据时的重要作用。可以这么说，如果这个lastPacketInBlock出问题的话，是会影响增量…

WPF仿网易云搭建笔记(5):信息流控制之IOC容器

文章目录专栏和Gitee仓库前言IOC容器Prism IOC使用声明两个测试的服务类MainWindow IOC 注入[单例]MainWindow里面获取UserController无法使用官方解决方案使用自定义IOC容器，完美解决既然Prism不好用，直接上微软的IOC解决方案App.xaml.csViewModel里面…

Spark on Yarn 安装配置实验（3.1.1）

子任务二： Spark on Yarn 安装配置本任务需要使用 root 用户完成相关配置，已安装 Hadoop 及需要配置前置环境，具体要求如下： 1 、从宿主机 /opt 目录下将文件 spark-3.1.1-bin-hadoop3.2.tgz 复制到容器 Master 中的 /opt/software （若路径不存在，则需新…

大数据技术12：Hive简介及核心概念

前言：2007年，编写Pig虽然比MapReduce编程简单，但是还是要学习。于是Facebook发布了Hive，支持使用SQL语法进行大数据计算，写个Select语句进行数据查询，Hive会将SQL语句转化成MapReduce计算程序。这样&#x…

hive常用SQL函数及案例

1 函数简介 Hive会将常用的逻辑封装成函数给用户进行使用，类似于Java中的函数。好处：避免用户反复写逻辑，可以直接拿来使用。重点：用户需要知道函数叫什么，能做什么。 Hive提供了大量的内置函数，按照其特…

大数据：Hadoop刷题

大数据：Hadoop刷题 2022找工作是学历、能力和运气的超强结合体，遇到寒冬，大厂不招人，可能很多算法学生都得去找开发，测开测开的话，你就得学数据库，sql，oracle，尤其sql要…

【Hive】——概述

1 什么是Hive 2 Hive 优点 3 Hive和Hadoop 的关系 4 映射信息记录 5 SQL语法解析、编译 Hive能将一个文件映射成为一张表，文件和表之间的关系称为映射 Hive的功能职责是将SQL语法解析编译成为MapReduce 6 Hive 架构 6.1 分析 6.2 架构图 6.3 用户接口 6.4 元数据存…

【Hive】

一、Hive是什么 Hive是一款建立在Hadoop之上的开源数据仓库系统，将Hadoop文件中的结构化、半结构化数据文件映射成一张数据库表，同时提供了一种类SQL语言（HQL），用于访问和分析存在Hadoop中的大型数据集。Hive的核心是将…

大数据技术之Hive（超级详细）

第1章 Hive入门 1.1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 …

hadoop3.3完全分布式（最简）

环境准备 3台CentOS7（本例使用VMware替代）jdk8Hadoop3.3 虚拟机基础准备网络适配器选用NAT模式（针对VMware）设置静态IP，对应关系如下名称地址hadoop01192.168.138.201hadoop02192.168.138.202hadoop03192.168.13…

【Hive】【Hadoop】工作中常操作的笔记-随时添加

文章目录 1、Hive 复制一个表:2、字段级操作3、hdfs 文件统计 1、Hive 复制一个表: 直接Copy文件 create table new_table like table_name;hdfs dfs -get /apps/hive/warehouse/ods.db/table_nameload data local inpath /路径 into table new_table;修复表： m…

hadoop01_完全分布式搭建

hadoop完全分布式搭建 1 完全分布式介绍 Hadoop运行模式包括：本地模式（计算的数据存在Linux本地，在一台服务器上自己测试）、伪分布式模式（和集群接轨 HDFS yarn，在一台服务器上执行）、完全分…

【pentaho】kettle读取Hive表不支持bigint和timstamp类型解决。

一、bigint类型报错: Unable to get value BigNumber(16) from database resultset显示kettle认为此应该是decimal类型(kettle中是TYPE_BIGNUMBER或称BigNumber)，但实际hive数据库中是big类型。修改kettle源码解决： kettle中java.sql.Types到kettle…

解决 Hive 外部表分隔符问题的实用指南

简介： 在使用 Hive 外部表时，分隔符设置不当可能导致数据导入和查询过程中的问题。本文将详细介绍如何解决在 Hive 外部表中正确设置分隔符的步骤。问题描述： 在使用Hive外部表时，可能会遇到分隔符问题。这主要是因为Hive在读…

HDFS NFS Gateway(环境配置，超级详细！！)

🐮博主syst1m 带你 acquire knowledge！ ✨博客首页——syst1m的博客💘 😘《CTF专栏》超级详细的解析，宝宝级教学让你从蹒跚学步到健步如飞🙈 😎《大数据专栏》大数据从0到秃头👽&…

hive企业级调优策略之Join优化

测试所用到的数据参考： 原文链接：https://blog.csdn.net/m0_52606060/article/details/135080511 本教程的计算环境为Hive on MR。计算资源的调整主要包括Yarn和MR。 Join算法概述 Hive拥有多种join算法，包括Common Join，Map …

hadoop使用内置包进行性能测试TestDFSIO、NNBench、MRBench、SliveTest

hadoop使用内置包进行性能测试 hadoop使用内置包进行性能测试 hadoop使用内置包进行性能测试TestDFSIO read & writeNNBenchMRBenchSliveTest TestDFSIO read & write TestDFSIO 是一个 Hadoop 自带的基准测试工具，用于测试 HDFS 的读写性能。它会模拟大量…

【Hadoop_04】HDFS的API操作与读写流程

1、HDFS的API操作1.1 客户端环境准备1.2 API创建文件夹1.3 API上传1.4 API参数的优先级1.5 API文件夹下载1.6 API文件删除1.7 API文件更名和移动1.8 API文件详情和查看1.9 API文件和文件夹判断 2、HDFS的读写流程（面试重点）2.1 HDFS写数据流程2.2 网络拓…

hive中如何求取中位数？

目录中位数的概念代码实现准备数据实现中位数的概念中位数（Median）又称中值，统计学中的专有名词，是按顺序排列的一组数据中居于中间位置的数，代表一个样本、种群或概率分布中的一个数值，其可将数值集合…

Windows10安装Hadoop3.1.3环境

Windows10安装Hadoop3.1.3环境文章目录 1.安装包下载1.1.hadoop官网下载1.2下载winutils1.3安装文件 2.配置安装2.1安装配置JDK环境2.2解压hadoop压缩包2.3配置hadoop的环境变量2.3.1配置HADOOP_HOME2.3.2配置Path变量 2.4配置hadoop2.4.1 创建data和temp文件夹2.4.2配置hadoo…

CDH6.3.2安装

文章目录 [toc]一、CM简介1、ClouderaManager的概念2、ClouderaManager的功能3、ClouderaManager的架构二、准备清单1、部署步骤2、集群规划3、软件环境准备三、安装清单1、操作系统iso包2、JDK包3、MySQL包4、CM和CDH包5、部署ansible 四、基础环境准备1、配置网络2、配置ho…

Sqoop安装与配置-shell脚本一键安装配置

文章目录前言一、使用shell脚本一键安装1. 复制脚本2. 增加执行权限3. 执行脚本4. 加载用户环境变量5. 查看是否安装成功总结前言本文介绍了如何使用Shell脚本一键安装Sqoop。Sqoop是一个用于在Apache Hadoop和结构化数据存储（如关系数据库）之间传输…

JDK21+HADOOP3.2.2+Windows安装步骤

哈哈哈最近转战大数据这块了，分享一下hadoop3.2.2的安装步骤借鉴了不少大佬的文章，如有雷同，都是大佬们的 1.JDK安装我选择的是JDK21 以下是下载网址和截图，这个没有太多的，一般下载最新的就可以 JDK: Java Down…

Spark编程实验一：Spark和Hadoop的安装使用

一、目的与要求 1、掌握在Linux虚拟机中安装Hadoop和Spark的方法； 2、熟悉HDFS的基本使用方法； 3、掌握使用Spark访问本地文件和HDFS文件的方法。二、实验内容 1、安装Hadoop和Spark 进入Linux系统，完成Hadoop伪分布式模式的安装。完成Ha…

Hive 流量分析(含维度和不含维度计算)

流量分析： 指标：PV,UV,访问次数，平均访问时长，人均访问次数、人均访问深度，人均访问时长，回头客占比等... 维度：时间维度，地域维度，设备维度等... pageview:页面浏览事件…

hive数据倾斜（超详细）

说到hive的数据倾斜，可能有的小伙伴还不了解什么是数据倾斜，所以咱们这一次就从hive数据倾斜的表现、hive数据倾斜发生的原因、hive数据倾斜的解决方案这三个方面来聊一聊hive的数据倾斜 1、hive数据倾斜的表现我们都知道hive的底层其实是mr&#xff0…

MapReduce 序列化案例

文章目录MapReduce 序列化案例一、案例需求二、案例分析map 阶段Reduce 阶段三、代码实现1、编写流量统计的Bean对象2、Mapper阶段代码3、Reduce 阶段代码4、Driver 阶段代码MapReduce 序列化案例一、案例需求 1、需求： 统计每一个手机号耗费的总上行流量&#x…

【Hive基础】-- Hive Catalog

目录 1.介绍 1.1 什么是 Hive Catalog 1.2 Hive Catalog 的作用 2.Hive Catalog 的基础知识 2.1 Hive Catalog 的类型

Hadoop学习----Hadoop介绍

Hadoop介绍 Hadoop是Apache软件基金会的一款开源软件。底层是由java语言实现。功能：允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理。 Hadoop核心组件： Hadoop HDFS（分布式文件存储系统）：解…

flink实战--FlinkSQl实时写入hudi表元数据自动同步到hive

简介为了实现hive, trino等组件实时查询hudi表的数据，可以通过使用Hive sync。在Flink操作表的时候，自动同步Hive的元数据。Hive metastore通过目录结构的来维护元数据，数据的更新是通过覆盖来保证事务。但是数据湖是通过追踪文件来管理元数据，一个目录中可以包含多个版本…

大数据Hadoop教程-01大数据导论与Linux基础

目录 01、大数据导论 02、Linux操作系统概述 P007 P008 P009 P010 P011 P012 P013 P014 P015 P016 P017 01、大数据导论企业数据分析方向现状分析（分析当下的数据）：现阶段的整体情况，各个部分的构成占比、发展、变…

Phoenix基础命令_视图映射和表映射_数字存储问题---大数据之Hbase工作笔记0036

然后我们再来看看,用Phoenix来操作hbase,的基本用法具体的其他的命令在官网都能找到,这里就说几个 https://phoenix.apache.org/language/index.html 首先是创建表,这里注意,默认表名给弄成大写的这里的varchar对应的其实就是hbase中的string 然后这里的id表示行的rowkey 可…

【博学谷学习记录】大数据课程-学习十周总结

Hive基本概念什么是Hive Hive是一个构建在Hadoop上的数据仓库框架。最初，Hive是由Facebook开发，后来移交由Apache软件基金会开发，并作为一个Apache开源项目。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为…

Spark 内存迭代计算

Spark内存迭代是每个task根据算子之间形成的DAG在内存中不断迭代计算的过程。如图，带有分区的DAG以及阶段划分，可以从图中得到逻辑上最优的task分配。一个task是一个线程来具体执行。task1中的rdd1，rdd2,rdd3的迭代计算，都是由一…

四、电商数据仓库系统——第3章维度建模理论之事实表

3.1 事实表概述事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计。其包含与该业务过程有关的维度引用（维度表外键）以及该业务过程的度量（通常是可累加的数字类型字段）。3.1.1 事实表特点事实表通常比较“细…

大数据培训技术Kylin核心算法逐层构建算法

核心算法 Kylin的工作原理就是对数据模型做Cube预计算，并利用计算的结果加速查询： 1）指定数据模型，定义维度和度量； 2）预计算Cube，计算所有Cuboid并保存为物化视图； 预计算过程是…

黑马在线教育数仓实战1

1. 教育项目的架构说明项目的架构: 基于cloudera manager大数据统一管理平台, 在此平台之上构建大数据相关的软件(zookeeper,HDFS,YARN,HIVE,OOZIE,SQOOP,HUE...), 除此以外, 还使用FINEBI实现数据报表展示各个软件相关作用: zookeeper: 集群管理工具, 主要服务于…

数据湖架构Hudi（五）Hudi集成Flink案例详解

五、Hudi集成Flink案例详解 5.1 hudi集成flink flink的下载地址： https://archive.apache.org/dist/flink/ HudiSupported Flink version0.12.x1.15.x、1.14.x、1.13.x0.11.x1.14.x、1.13.x0.10.x1.13.x0.9.01.12.2 将上述编译好的安装包拷贝到flink下的jars目录…

华为MRS_HADOOP集群 beeline使用操作

背景由于项目测试需要，计划在华为hadoop集群hive上创建大量表，并且每表植入10w数据，之前分享过如何快速构造hive大表，感兴趣的可以去找一下。本次是想要快速构造多表并载入一些数据。因为之前同事在构造相关测试数据时由于创建…

【hive】order by、sort by、distribute by、cluster by的区别

Order By（全局排序） Order By 用于结果集的排序。也可以称之为全局排序。对于 MR 任务来说，如果我们使用了 Order By 排序，意味着MR 任务只会有一个 Reducer 参与排序。， 在 Hive 中执行脚本时，我们可以通…

大数据周会-本周学习内容总结08

目录 01【Hadoop】 1.1【MapReduce】 1.2【Yarn】 1.3【让用户自定义脚本在任意地方都可执行-配置方法】 02【下月学习内容】老师指导 01【Hadoop】尚硅谷大数据Hadoop教程（Hadoop 3.x安装搭建到集群调优） 1.1【MapReduce】 1.2【Yarn】 1.3【让…

Hadoop MapReduce各阶段执行过程以及Python代码实现简单的WordCount程序

视频资料：黑马程序员大数据Hadoop入门视频教程，适合零基础自学的大数据Hadoop教程文章目录Map阶段执行过程Reduce阶段执行过程Python代码实现MapReduce的WordCount实例mapper.pyreducer.py在Hadoop HDFS文件系统中运行Map阶段执行过程把输入目录下文件…

大数据 | Hadoop集群搭建（完全分布式）

知识目录一、前言二、配置三台虚拟机2.1 克隆三台虚拟机2.2 配置克隆的虚拟机2.3 使用Xshell连接虚拟机2.4 配置SSH免密登录三、Hadoop集群准备3.1 安装 rsync3.2 安装xsync分发脚本3.3 安装JDK和安装Hadoop3.4 配置环境变量3.5 分发四、Hadoop集群搭建4.1 修改配置文件4.2 配置…

【深入浅出 Yarn 架构与实现】5-2 Yarn 三种调度器

本篇文章将深入介绍 Yarn 三种调度器。Yarn 本身作为资源管理和调度服务，其中的资源调度模块更是重中之重。下面将介绍 Yarn 中实现的调度器功能，以及内部执行逻辑。一、简介 Yarn 最主要的功能就是资源管理与分配。本篇文章将对资源分配中最核心的组…

【sparkcore整理】

文章目录sparkcore1.rdd是不可变的，只能通过计算/操作得到一个新的rdd2.rdd五大特性：3.创建rdd的三种方式：4.saprk中落地文件的个数和什么有关系：5.转换算子和action算子有什么区别：6.常用的转换算子：7.常用…

大数据上云存算分离演进思考与实践

作者：汤祯捷阿里云智能计算平台团队存算分离、数据湖、在离线混部，这些名词越来越多的出现在各行各业数字化转型的关键活动中。本文仅从大数据产品商业化从业者的视角来探讨与分析大数据领域的存算分离演进过程，核心价值，与相关…

Hive表优化、表设计优化、Hive表数据优化(ORC)、数据压缩、存储优化

文章目录Hive表优化Hive表设计优化分区表结构 - 分区设计思想分桶表结构 - Join问题Hive中的索引Hive表数据优化常见文件格式TextFileSequenceFileParquetORC数据压缩存储优化 - 避免小文件生成存储优化 - 合并输入的小文件存储优化 - ORC文件索引Row Group IndexBloom Filter …

Hive 用户访问路径明细表计算

用户访问路径分析: 用户访问路径明细记录表源表：DWD_APP_TFC_DTL_DEMO 目标表：DWD_APL_RUT_DTL 源表DWD_APP_TFC_DTL_DEMO表结构： hive>create table DWD_APP_TFC_DTL_DEMO( guid bigint, eventid String, event Map<String…

分布式系统有哪些

目录分布式存储系统分布式计算系统分布式消息队列系统分布式机器学习系统

hive数据仓库--Hive介绍

1 什么是HiveHive是基于Hadoop的⼀个数据仓库⼯具，⽤来进⾏数据提取、转化、加载，这是⼀种可以存储、查询和分析存储在Hadoop中的⼤规模数据的机制。Hive数据仓库⼯具能将结构化的数据⽂件映射为⼀张数据库表，并提供类SQL的查询功能&#xff…

hive 常见存储格式和应用场景

1.存储格式 textfile、sequencefile、orc、parquet sequencefile很少使用（不介绍了），常见的主要就是orc 和 parquet 建表声明语句是：stored as textfile/orc/parquet行存储：同一条数据的不同字段都在相邻位置&#xff…

【Hive】——DDL（PARTITION）

1 增加分区 1.1 添加一个分区 ALTER TABLE t_user_province ADD PARTITION (provinceBJ) location/user/hive/warehouse/test.db/t_user_province/provinceBJ;必须自己把数据加载到增加的分区中 hive不会帮你添加 1.2 一次添加多个分区 ALTER TABLE table_name ADD PARTITION…

MapReduce序列化实例代码

1 ）需求：统计每个学号该月的超市消费、食堂消费、总消费 2 ）输入数据格式序号学号超市消费食堂消费 18 202200153105 8.78 12 3 ）期望输出格式 key （学号） value （ bean 对象&#xf…

【Hadoop】执行start-dfs.sh启动hadoop集群时，datenode没有启动怎么办

执行start-dfs.sh后，datenode没有启动，很大一部分原因是因为在第一次格式化dfs后又重新执行了格式化命令（hdfs namenode -format)，这时主节点namenode的clusterID会重新生成，而从节点datanode的clusterID 保持不变。在…

【Hive】——DML

1 Load（加载数据） 1.1 概述 1.2 语法 LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1val1, partcol2val2 ...)]LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename [PARTITION (partcol…

【基础知识】大数据组件HDFS简述

HDFS是经典的Master和Slave架构，每一个HDFS集群包括一个NameNode和多个DataNode。 NameNode管理所有文件的元数据信息，并且负责与客户端交互。DataNode负责管理存储在该节点上的文件。每一个上传到HDFS的文件都会被划分为一个或多个数据块，这…

Hive-high Avaliabl

hive—high Avaliable hive的搭建方式有三种，分别是 1、Local/Embedded Metastore Database (Derby) 2、Remote Metastore Database 3、Remote Metastore Server 一般情况下，我们在学习的时候直接使用hive –service metastore的方式…

【大数据面试】YARN常见问题与答案

目录介绍下YARN YARN有几个模块 YARN工作机制 YARN有什么优势，能解决什么问题? YARN容错机制 YARN高可用 YARN调度器 YARN中Container是如何启动的? YARN的改进之处，Hadoop3.x相对于Hadoop 2.x? YARN监控介绍下YARN YARN有几个模块 Yar…

【Hive】——DQL

1 SELECT 1.1 语法从哪里查询取决于FROM关键字后面的table_reference。可以是普通物理表、视图、join结果或子查询结果。 [WITH CommonTableExpression (, CommonTableExpression)*] SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE wh…

【Hadoop】

Hadoop是一个开源的分布式离线数据处理框架，底层是用Java语言编写的，包含了HDFS、MapReduce、Yarn三大部分。组件配置文件启动进程备注Hadoop HDFS需修改需启动 NameNode(NN)作为主节点 DataNode(DN)作为从节点 SecondaryNameNode(SNN)主节点辅助分…

hadoop格式化报错

在var/bigdata/hadoop/ha/dfs/jn/下没有mycluster目录增加后就格式化成功了

大数据环境-云平台（阿里云）

由于电脑配置原因，无法在本地利用虚拟机搭建环境，因此使用云平台来当做学习的环境。本节内容参考： 【2023新版黑马程序员大数据入门到实战教程，大数据开发必会的Hadoop、Hive，云平台实战项目全套一网打尽-哔哩哔哩】 …

Hive实战篇-动态分区导致小文件过多

一、问题描述为了支撑相应的业务需求，本次生产环境通过Hive SQL来完成动态插入分区表数据的脚本开发。但是，动态分区的插入往往会伴随产生大量的小文件的发生。而小文件产生过多的影响主要分为以下两种情况： （1） 从H…

大数据五次作业回顾

文章目录1. 大数据作业11.本地运行模式部分2. 使用scp安全拷贝部分2. 大数据作业21、Rrsync远程同步工具部分2、xsync集群分发脚本部分3、集群部署部分3. 大数据作业31. 配置历史服务器及日志2. 日志部分3. 其他4. 大数据作业4编写本地wordcount案例一、源代码二、信息截图5. 大…

Centos7安装Hadoop3.3.1(单机版本)

前提：需要安装好JDK，需要配置ssh免密(可参考问题2的设置) 1、下载Hadoop 打开Hadoop下载地址，下载3.3.1版本下载：wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz 2、Hadoop安装配…

Spark中cache、persist、checkpoint区别

spark中的cache、persist、checkpoint都可以将RDD保存起来，进行持久化操作，供后面重用或者容错处理。但是三者有所不同。 cache 将数据临时存储在内存中进行数据重用，不够安全；会在血缘关系中添加新的依赖，如果出现问…

Hadoop集群环境搭建与应用回顾

文章目录一、实训项目名称二、学习情况小结三、项目中用到的知识点四、实训项目中负责功能板块五、实训项目实现六、实训项目过程中遇到的问题及解决方法七、实训体会与心得一、实训项目名称 Hadoop集群环境搭建与应用二、学习情况小结实操一部分： 通…

hdfs集群的扩容和缩容

文章目录1、背景2、集群黑白名单3、准备一台新的机器并配置好hadoop环境3.1 我们现有的集群规划3.2 准备一台新的机器3.2.1 查看新机器的ip3.2.2 修改主机名和host映射3.2.3 配置时间同步3.2.4 关闭防火墙3.2.5 新建hadoop部署用户3.2.6 复制hadoop04机器上的/etc/hosts文件到集…

大数据知识

1、Hbase中RowKey的设计原则 RowKey长度原则:二进制码流RowKey 最大长度 64Kb,实际应用中一般为 10-100bytes,以 byte[] 形式保存,一般设计定长。建议越短越好,因为HFile是按照KV存储的Key太大浪费空间。 RowKey散列原则:RowKey在设计时候要尽可能的实现可以将数据均衡的分布在…

HIVE相关操作

HIVE有两种启动方式方式1： bin/hive 即Hive的Shell客户端，可以直接写SQL方式2： bin/hive --service hiveserver2 后台执行脚本：nohup bin/hive --service hiveserver2 >> logs/hiveserver2.log 2>&1 & bin/hiv…

为什么Paimon值得期待？

前段时间 Flink table store 更名为 Apache Pimon ，并重新进入Apache incubator。截止目前，incubator-paimon项目已经在github上收获了600 Star（https://github.com/apache/incubator-paimon）：之前虽然了解到Fink tabl…

大数据Hadoop|MapRedece|Yarn

文章目录大数据时代HadoopHadoop概述Hadoop特性优点Hadoop国内外应用Hadoop发行版本Hadoop集群整体概述HDFS分布式文件系统传统常见的文件系统数据和元数据HDFS核心属性HDFS简介HDFS shell操作Map Reduce分而治之理解MapReduce思想分布式计算概念MapReduce介绍MapReduce产生背景…

Linux实战——Hadoop安装部署

大数据集群（Hadoop生态）安装部署简介 1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2）主要解决，海量数据的存储和海量数据的分析计算问题。三类组件 Hadoop HDFS：提供分布式海量数据存…

基于Hadoop的农产品价格信息检测分析系统

基于Hadoop的农产品价格信息检测分析系统前言数据处理模块1. 数据爬取2. 数据清洗与处理3. 数据存储数据分析与检测模块1. 农产品价格趋势分析2. 农产品价格检索3. 不同市场价格对比创新点前言为了更好地了解农产品市场价格趋势和不同市场之间的价格差异，我设…

Hadoop伪分布式集群安装

平时我们学习Hadoop技术时，可不一直沉溺于理论学习，一定要理论和实践相结合，所以就必须有一个Hadoop环境，我们能在这个Hadoop环境里进行各种操作，来验证我们在书本上学到的知识。最小的环境，至少要具有一台…

Hive入门＋部署

看黑马视频做的笔记目录概念 1.基本概述 2.基础架构总架构部署 1.安装MySQL 2.配置Hadoop 3.下载解压Hive 4.下载MySQL Driver包注意！ 5.配置Hive 6.初始化元数据库 7.启动Hive（使用Hadoop用户） 实例查看HDFS上表中存…

hive企业级调优策略之如何用Explain查看执行计划

Explain执行计划概述 Explain呈现的执行计划，由一系列Stage组成，这一系列Stage具有依赖关系，每个Stage对应一个MapReduce Job，或者一个文件系统操作等。若某个Stage对应的一个MapReduce Job，其Map端和Reduce端的计算…

【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口？！

【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口？！😎 前言🙌【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口？！查看自己的配置文件：最终成功访问如图所示： 总结撒花…

提升Hive效能：实用技巧与最佳实践

导读：帮助大家更有效地使用这个强大的数据仓库工具。目录优化Hive查询性能分区（Partitioning） 代码示例分桶（Bucketing） 代码示例使用合适的文件格式 ORC文件格式使用Vectorization 管理和优化表结构 …

Linux环境安装Hadoop

（1）下载Hadoop安装包并上传下载Hadoop安装包到本地，并导入到Linux服务器的/opt/software路径下 （2）解压安装包解压安装文件并放到/opt/module下面 [roothadoop100 ~]$ cd /opt/software [roothadoop100 software…

Hadoop入门学习笔记——一、VMware准备Linux虚拟机

视频课程地址：https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 Hadoop入门学习笔记（汇总） 目录一、VMware准备Linux虚拟机1.1. VMware安装Linux虚拟机1.…

Hive底层如何和数据库进行交互

Hive hive是hadoop底层用于管理和查询结构化数据的系统。 hive的功能实现是由HDFSMapreduce结合起来使用的。 hive支持类SQL的查询语言驱动器和编译器驱动器收到HiveQL之后会唤醒编译器，编译器将这个声明翻译成一个由Mapreduce组成的有向无环图的计划。文件…

hive企业级调优策略之数据倾斜

测试所用到的数据参考： 原文链接：https://blog.csdn.net/m0_52606060/article/details/135080511 本教程的计算环境为Hive on MR。计算资源的调整主要包括Yarn和MR。数据倾斜概述数据倾斜问题，通常是指参与计算的数据分布不均&#xff0…

Hadoop——分布式计算

一、分布式计算概述 1. 什么是计算、分布式计算？计算：对数据进行处理，使用统计分析等手段得到需要的结果分布式计算：多台服务器协同工作，共同完成一个计算任务2. 分布式计算常见的2种工作模式分散->汇总（MapReduce就是这种模式）将数据分片，多台服务器各自负责一…

hive 用户自定义函数udf，udaf，udtf

udf：一对一的关系 udtf：一对多的关系 udaf：多对一的关系使用Java实现步骤自定义编写UDF函数注意： 1.需要继承org.apache.hadoop.hive.ql.exec.UDF 2.需要实现evaluete函数编写UDTF函数注意： 1.需要继承org.apache…

Hadoop配置

静态IP vi /etc/sysconfig/network-scripts/ifcfg-ens33 BOOTPROTOstatic ONBOOTyes IPADDR192.168.10.11 NETMASK255.255.255.0 GATEWAY192.168.138.2 DNS1114.114.114.114 DNS28.8.8.8 重启网络服务 service network restart 修改主机名 hostnamectl set-hostname ‘hadoop…

Hadoop入门案例

Hadoop的运行流程： 客户端向HDFS请求文件存储或使用MapReduce计算。NameNode负责管理整个HDFS系统中的所有数据块和元数据信息；DataNode则实际存储和管理数据块。客户端通过NameNode查找需要访问或处理的文件所在的DataNode，并将操作请求发送…

Spark IPmapping方案

使用数据中的uid imei imsi mac androidid uuid 等标识字段，按优先级取一个标识，作为这条数据的用户唯一标识。有严重的漏洞。第一天登陆了，取uid，第二天没登录，取imei 是一个人吗。在现实的日志数据中&#xff0c…

openEuler 单机部署 Hadoop SingleNode 模式

openEuler 单机部署 Hadoop SingleNode 模式升级操作系统和软件 yum -y update升级后建议重启安装常用软件 yum -y install gcc gcc-c autoconf automake cmake make rsync openssh-server vim man zip unzip net-tools zlib zlib-devel openssl openssl-devel pcre-devel…

hadoop 3.3.4 编译报错记录

一，编译环境 centos7.6 在docker内编译，可能是centos的原因或者docker版本的原因，我用centos7.9安装docker23.x版本就可以完成编译。现在centos7.6，docker19.x版本会缺少一些依赖包不能一次编译过 hadoop 3.3.4 注意BUILDING.t…

Spark编程基础-RDD

目录 1.何为RDD 2.RDD的五大特性 3.RDD常用算子 3.1.Transformation算子 1.map() 2.flatMap() 3.reduceByKey() 4 . mapValues() 5. groupBy() 6.filter() 7.distinct() 8.union() 9.join() 10.intersection() 11.glom() 12.gruopBykey() 13.sortBy() 14.sortByKey …

（十）大数据实战——hadoop常用命令合集及集群启动关停自定义脚本执行脚本构建

前言本节内容我们主要是总结一下hadoop集群中常用的一些命令，以及通过自定义脚本，实现hadoop集群的启动、停止、状态查询等，便于hadoop集群的使用。正文 hadoop常用命令hadoop模块命令命令功能start-dfs.sh启动HDFSstop-dfs.sh停止HDFSs…

Hadoop 单表关联

前面的实例都是在数据上进行一些简单的处理，为进一步的操作打基础。单表关联这个实例要求从给出的数据中寻找到所关心的数据，它是对原始数据所包含信息的挖掘。下面进入这个实例。 1.实例描述实例中给出child-parent表，要求输出grandchild-…

安装Zookeeper

安装Zookeeper ZK是一个分布式应用服务协调服务,安装部署有单节点模式和分布式集群模式两种。独立安装Zookeeper是为向Hadoop和HBase共同提供服务的,Zookeeper对操作系统、软件和网络环境的要求与这些组件基本一致,能够安装Hadoop和HBase的节点也可以直接安装Zookeeper。下载…

Hadoop 多表关联

一、实例描述多表关联和单表关联类似，它也是通过对原始数据进行一定的处理，从其中挖掘出关心的信息。下面进入这个实例。输入是两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址列，包含…

【博学谷学习记录】大数据课程-学习十三周总结

Hive的交互方式第一种交互方式：bin/hive hive 创建一个数据库 create database mytest; show databases; 第二种交互方式：使用sql语句或者sql脚本进行交互不进入hive的客户端直接执行hive的hql语句 hive -e “create database mytest2” 或者我们…

自学大数据的第15天~Hadoop框架的历史沿革

前面学习了MongoDB,也只是一些入门的操作,后续还会继续深入学习深入学习Hadoop,那么就需要了解Hadoop发展的历史沿革,就像学习历史一样; 当然一件事物被创作出来需要不断地发展才能完善; Hadoop1.0 在Hadoop刚刚出来时,由于相关能力还不完善,所以会有一些缺陷,比如下面的几个…

HiveServer2

HiveServer2 基本概念介绍 1、HiveServer2基本介绍 HiveServer2 (HS2) is a server interface that enables remote clients to execute queries against Hive and retrieve the results (a more detailed intro here). The current implementation, based on Thrift RPC, i…

hive中struct相关函数总结

目录 hive官方函数解释示例实战 hive官方函数解释 hive官网函数大全地址：添加链接描述 Return TypeNameDescriptionstructstruct(val1, val2, val3, …)Creates a struct with the given field values. Struct field names will be col1, col2, …structnamed_str…

【Hive-Sql】Hive 处理 13 位时间戳得到年月日时分秒（北京时间）

【Hive-Sql】Hive 处理 13 位时间戳得到年月日时分秒（北京时间） 1）需求2）实现 1）需求使用 Hive 自带函数将 13位时间戳转成年月日时分秒（北京时间），格式样例：‘2023-…

[hive] sql中distinct的用法和注意事项

在 Hive SQL 中，DISTINCT 用于去重查询结果中的行。它返回唯一的行，消除结果集中的重复项。以下是 DISTINCT 的基本用法和一些注意事项： 基本用法： -- 获取列1和列2的唯一组合 SELECT DISTINCT column1, column2 FROM your_tabl…

【Hive_05】企业调优1（资源配置、explain、join优化）

1、计算资源配置1.1 Yarn资源配置1.2 MapReduce资源配置 2、 Explain查看执行计划（重点）2.1 Explain执行计划概述2.2 基本语法2.3 案例实操 3、分组聚合优化3.1 优化说明（1）map-side 聚合相关的参数 3.2 优化案例 4、join优化4.1…

Hadoop入门学习笔记——四、MapReduce的框架配置和YARN的部署

视频课程地址：https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 Hadoop入门学习笔记（汇总） 目录四、MapReduce的框架配置和YARN的部署4.1. 配置MapReduce…

Hadoop集群找不到native-hadoop

1.问题描述 hive 运行中的问题，需要把把native复制进去 /usr/lib 2023-02-15 19:59:42,165 WARN scheduler.TaskSetManager: Lost task 11.0 in stage 1.0 (TID 3, common4, executor 2): java.lang.RuntimeException: Hive Runtime Error while closing operators…

[BUG] Hadoop-3.3.4集群yarn管理页面子队列不显示任务

1.问题描述使用yarn调度任务时，在CapacityScheduler页面上单击叶队列（或子队列）时，不会显示应用程序任务信息，root队列可以显示任务。此外，FairScheduler页面是正常的。 No matching records found2.原…

Hadoop入门学习笔记——七、Hive语法

视频课程地址：https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 Hadoop入门学习笔记（汇总） 目录七、Hive语法7.1. 数据库相关操作7.1.1. 创建数据库7.1.2…

Hadoop入门学习笔记——五、在虚拟机中部署Hive

视频课程地址：https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 Hadoop入门学习笔记（汇总） 目录五、在虚拟机中部署Hive5.1. 在node1虚拟机安装MySQL5.2.…

hdfs.DataStreamer: Exception in createBlockOutputStream XXXXX

报错信息： java.io.IOException: Got error, statusERROR, status message , ack with firstBadLink as 192.168.100.13:9866at org.apache.hadoop.hdfs.protocol.datatransfer.DataTransferProtoUtil.checkBlockOpStatus(DataTransferProtoUtil.java:134)at org.a…

Hive源码阅读环境准备

源码地址 hive源码地址在github或gitee均可以下载，如果没有vpn工具，使用gitee网速更快点。 github地址为: https://github.com:edingbrugh/hive.gitgitee地址如下: https://gitee.com/apache/hive.git环境要求本地或远程已经安装hivejdk 8maven 3.6…

大数据2 Hadoop

Hadoop是Apache软件基金会下的顶级开源项目，用以提供： •分布式数据存储•分布式数据计算•分布式资源调度为一体的整体解决方案。 Apache Hadoop是典型的分布式软件框架，可以部署在1台乃至成千上万台服务器节点上协同工作。个人或企业可以…

分布式技术剖析

随着企业数字化进程的进一步深入，企业为了解决大数据的“4个V”问题，往往需要构建多个不同技术栈的大数据平台，其中不乏会使用到分布式相关的存储、计算、资源管理技术。分布式系统的出现解决了单机系统无法解决的成本、效率和高可用问题。那…

Hadoop 生态圈及核心组件简介Hadoop|MapRedece|Yarn

文章目录大数据时代HadoopHadoop概述Hadoop特性优点Hadoop国内外应用Hadoop发行版本Hadoop集群整体概述HDFS分布式文件系统传统常见的文件系统数据和元数据HDFS核心属性HDFS简介HDFS shell操作Map Reduce分而治之理解MapReduce思想分布式计算概念MapReduce介绍MapReduce产生背景…

在CentOS 7 中安装Hive-1.2.2

安装Hive的过程1. 准备安装文件hive-1.2.22.解压缩Hive安装文件3.配置环境变量4.修改Hive配置文件5.添加MySQL连接的jar资源包6.启动hive1. 准备安装文件hive-1.2.2 注意：安装Hive之前，需要在CentOS 7中先安装MySQL！！ 在Windows中…

hdfs命令行操作

文章目录1. 对文件夹进行操作1.1 ls:对路径进行访问1.2 mkdir:对路径进行创建1.3 rm:对路径进行删除2.对文件进行操作2.1在文件系统中创建空文件2.2上传本地文件到hdfs上2.3 从hdfs上下载文件到本地路径2.4 查看hdfs 上的文件内容2.5 对hdfs上的文件进行复制2.6 追加本地文件内…

hive 入门配置hiveserver2 (三)

1、简介 Hive的hiveserver2服务的作用是提供jdbc/odbc接口，为用户提供远程访问Hive数据的功能，例如用户期望在个人电脑中访问远程服务中的Hive数据，就需要用到Hiveserver2。 2、用户模拟功能在远程访问Hive数据时，客户端并未直…

2.Hadoop集群环境搭建

ps.集群一般公司都会搭建好，除非你去的是初创型公司 1.准备模板机hadoop100 1: 虚拟机安装Centos7版本系统，内存4G(2G),硬盘建议50G（20G），安装基础设置服务器 2：关闭防火墙，永久关闭关闭： systemctl stop firewalld关闭不在启动：systemctl disable firewal…

大数据项目实战之数据仓库：电商数据仓库系统——第7章数仓开发之ODS层

文章目录第7章数仓开发之ODS层7.1日志表7.2 业务表7.2.1 活动信息表（全量表）7.2.2 活动规则表（全量表）7.2.3 一级品类表（全量表）7.2.4 二级品类表（全量表）7.2.5 三级品类表&#xf…

Hadoop2.0伪分布式平台环境搭建

一、搭建环境的前提条件环境：ubuntu-16.04 hadoop-2.6.0 jdk1.8.0_161。这里的环境不一定需要和我一样，基本版本差不多都ok的，所需安装包和压缩包自行下载即可。因为这里是配置Hadoop的教程，配置Java以及安装VMware Tools就自行…

Impala事故处理手册

Impala事故处理手册本文不是事故原因汇总，只介绍当Impala集群出现事故时的处理流程，以最大限度保留现场信息，方便事后调查。第一节介绍故障表现和对应的操作建议，第二节介绍每个操作的具体执行流程。本文将不定期更新&#xff0…

（大数据开发随笔7）Hadoop 3.3.x分布式环境部署——伪分布式模式

伪分布式模式前戏 jdk和hadoop环境变量配置确保防火墙关闭：systemctl status firewalld ；返回 inactive ；关闭命令 systemctl stop firewalld ；防止自启动命令 systemctl disable firewalld 报错：-bash: /usr/bin/…

MapReduce简介

MapReduce是一个编程模型，用于处理和生成大数据。用户通过编写Map函数处理输入键值对生成中间键值对，通过编写Reduce函数来合并所有的中间键值对并生成结果。在我们的日常生活中，大部分的任务都可以被抽象成一个MapReduce模型，并通…

Hbase伪分布安装配置

Hbase安装配置文章目录Hbase安装配置Hbase安装前提下载Hbase压缩包软件版本兼容性Hadoop和HbaseHbase和JDK软件安装软件位置创建数据保存和日志保存文件夹修改配置文件修改hbase-site.xml文件修改hbase-env.sh文件修改~/.bashrc文件启动hbase并验证权限问题Permission denied修…

PySpark基础入门（2）：RDD及其常用算子

更好的阅读体验：PySpark基础入门（2）：RDD及其常用算子 - 掘金 (juejin.cn) 目录 RDD简介 RDD Coding RDD简介 RDD（Resilient Distributed Dataset），是一个弹性分布式数据集，是Sp…

hive常用函数整理

Hadoop启动相关命令

Hadoop启动相关配置文章目录Hadoop启动相关配置格式化节点的情况什么情况下Hadoop需要进行格式化节点？Hadoop启动步骤Hadoop的启动步骤只是start-dfs.sh即可吗*hdfs*的web管理页面参数说明参数的评价场景格式化节点的情况什么情况下Hadoop需要进行格式化节点&…

大数据技术(入门篇) --- 使用 Spring Boot 操作 CDH6.2.0 Hadoop

前言本人是web后端研发，习惯使用spring boot 相关框架，因此技术选型直接使用的是spring boot，目前并未使用 spring-data-hadoop 依赖，因为这个依赖已经在 2019 年终止了，可以点击查看 ，所以我这里使用的是…

MapReduce笔记

总计：切片就是对一个文件按逻辑进行切片，默认每128m为一个切片，不是物理切片，每个切片对应着一个mapTask进行处理。而且切片是针对每一个文件进行切片的，即一个文件一个文件切片，不是把所以待处理的文件总量…

【大数据Hadoop】HDFS3.3.1-Namenode系列源码阅读

Namenode功能前言文件系统目录树数据块管理Datanode管理租约管理缓存管理前言 HDFS集群是以Master/Slave模式运行的,主要有两类节点：Namenode和Datanode。其中Namenode是HDFS的主节点。对于 Namenode 的功能，主要有如下几点： 文件系统目录…

干翻Hadoop系列：MapReduce详解

第一章：MapReduce原理数据存储在分布式文件系统中HDFS里边，通过使用Hadoop资源管理系统YARN，Hadoop可以将MapReduce计算，转移到有存储部分的数据的各台机器上。一：概念和原理 1：MapReduce作业 MapRed…

数据湖的选型(delta iceberg hudi)以及比对

数据湖的选型此文章只是作为文稿记录，且截止到2022年11月份 Hudi（0.12.0）支持spark 3.3.x 3.1.x 是 Hadoop Upserts Deletes and Incrementals 的简写 Hudi在华为的实践 clustering 支持常见的order以及z-order(里面以后优化https://gi…

大数据之Spark入门案例

文章目录前言一、案例简介二、前期准备三、代码开发四、运行结果总结前言 #博学谷IT学习技术支持# 上篇文章主要介绍了PySpark开发环境的搭建，接下来就是Spark的入门案例，通过入门案例进一步了解Spark的运行逻辑，开发环境的搭建可以参考文章…

Hadop—yarn

yarn可为各类计算框架提供资源的管理和调度主要用于管理集群当中的资源（主要是服务器的各种硬件资源，包括CPU，内存，磁盘，网络IO等）调度运行在yarn上面的各种任务。 yarn核心出发点是为了分离资源管理与…

探讨Hive是否转为MapReduce程序

目录前提条件数据准备探讨HQL是否转为MapReduce程序执行 1.设置hive.fetch.task.conversionnone 2.设置hive.fetch.task.conversionminimal 3.设置hive.fetch.task.conversionmore 前提条件 Linux环境下安装好Hive，这里测试使用版本为：Hive2.3.…

Hadoop入门学习笔记——六、连接到Hive

视频课程地址：https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 Hadoop入门学习笔记（汇总） 目录六、连接到Hive6.1. 使用Hive的Shell客户端6.2. 使用Beel…

Hadoop安装笔记_单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

将下发的ds_db01.sql数据库文件放置mysql中 12、编写Scala代码，使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info。字段名称、类型不变，同时添加静态分区，分区字段为etl_date，类型为String&am…

Hive和Spark生产集群搭建（spark on doris）

1.环境准备 1.1 版本选择序号bigdata-001bigdata-002bigdata-003bigdata-004bigdata-005MySQL-8.0.31mysqlDataxDataxDataxDataxDataxDataxSpark-3.3.1SparkSparkSparkSparkSparkHive-3.1.3HiveHive 1.2 主要组件官网 hive官网： https://hive.apache.org/ hive…

Hadoop YARN CGroup 实践

文章目录 Hadoop YARN Cgroups 实践什么是 cgroupscgroups 概念YARN 使用 cgroups 背景cgroups 在 YARN 中的工作原理cgroups 在 YARN 中的实践步骤参考 Hadoop YARN Cgroups 实践什么是 cgroups cgroups 的全名叫做 Control Groups， 它是 Linux 内核的一个功能&…

Hive表加工为知识图谱实体关系表标准化流程

文章目录 1 对源数据静态文件的加工1.1 分隔符的处理情况1.2 无法通过分隔符以及包围符区分字段1.3 数据中存在回车换行符 2 CSV文件导入Hive的建表2.1 包围符作用和功能2.2 Hive的建表导入2.3 数据文件导入 3 对Hive表中数据的清洗3.1 数据质量检查3.2 标准导图表的构建3.3 随…

2024任务驱动Hadoop应用讲课提纲

文章目录为何采用任务驱动？任务驱动Hadoop应用课程概述项目一：搭建Hadoop集群任务1：搭建完全分布式Hadoop集群1. 思路解析2. 编程实现3. 知识点讲解4. 总结提高任务2：搭建高可用Hadoop集群（HA模式）1. 思路…

Hadoop之MapReduce 详细教程

MapReduce仅作了解，生产上很少使用该计算程序 1、MapReduce介绍 MapReduce 思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是…

hive在执行elect count(*) 没有数据显示为0（实际有数据）

set hive.compute.query.using.statsfalse; 是 Hive 的一个配置选项。它的含义是禁用 Hive 在执行查询时使用统计信息。在 Hive 中，统计信息用于优化查询计划和执行。当该选项设置为 false 时，Hive 将不会使用任何统计信息来帮助决定查询的执行计划。这…

大数据开发之Sqoop详细介绍

测试环境 CDH 6.3.1 Sqoop 1.4.7 一.Sqoop概述 Apache Sqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下，轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中&…

springboot整合hadoop遇错

错误一： Caused by: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. 解决： 下载：https://github.com/steveloughran/winutils 选择一个版本例如：3.0.0 ，将里面的hadoop.dll文件复制…

SparkStreaming_window_sparksql_reids

1.5 window 滚动窗口滑动窗口 window操作就是窗口函数。Spark Streaming提供了滑动窗口操作的支持，从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据，会被聚合起来执行计算操作，然后生成的RDD，会…

三台CentOS7.6虚拟机搭建Hadoop完全分布式集群（二）

这个是笔者大学时期的大数据课程使用三台CentOS7.6虚拟机搭建完全分布式集群的案例，已成功搭建完全分布式集群，并测试跑实例。 6.安装JDK 以下操作现在master上操作，然后远程复制到slave01、slave02即可。 6.1 将压缩包发送到master节点机…

PiflowX组件-WriteToKafka

WriteToKafka组件组件说明将数据写入kafka。计算引擎 flink 有界性 Streaming Append Mode 组件分组 kafka 端口 Inport：默认端口 outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子kafka_hostKAFKA_HOST“”无是逗号…

三台CentOS7.6虚拟机搭建Hadoop完全分布式集群（三）

这个是笔者大学时期的大数据课程使用三台CentOS7.6虚拟机搭建完全分布式集群的案例，已成功搭建完全分布式集群，并测试跑实例。 9 安装hbase 温馨提示：安装hbase先在master主节点上配置，然后远程复制到slave01或slave02 &#xf…

大数据背后的绿色收割：基于Hadoop的农产品价格信息智能分析

大数据背后的绿色收割：基于Hadoop的农产品价格信息智能分析引言正文1. 数据获取与准备2. 数据清洗与处理3. Hadoop数据分析引擎的运用4. MySQL数据库的集成5. 创新性的可视化6. 结论与展望结语引言随着信息技术的不断发展，农业领域也在数字化的浪潮…

SpringMVC源码解析——DispatcherServlet初始化

在Spring中，ContextLoaderListener只是辅助功能，用于创建WebApplicationContext类型的实例，而真正的逻辑实现其实是在DispatcherServlet中进行的，DispatcherServlet是实现Servlet接口的实现类。Servlet是一个JAVA编写的程序&#…

解锁大数据世界的钥匙——Hadoop HDFS安装与使用指南

目录 1、前言 2、Hadoop HDFS简介 3、Hadoop HDFS安装与配置 4、Hadoop HDFS使用 5、结语 1、前言大数据存储与处理是当今数据科学领域中最重要的任务之一。随着互联网的迅速发展和数据量的爆炸性增长，传统的数据存储和处理方式已经无法满足日益增长的需求。…

Hive生产调优介绍

1.Fetch抓取 Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml…

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行模式

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行模式-CSDN博客目录 1、Hadoop运行模式 2、编写集群分发脚本 xsync 2.1、scp (se…

安装Hadoop：Hadoop的单机模式、伪分布式模式——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项

前言 Hadoop包括三种安装模式： 单机模式：只在一台机器上运行，存储是采用本地文件系统，没有采用分布式文件系统HDFS；伪分布式模式：存储采用分布式文件系统HDFS，但是，HDFS的名称节点…

小肥柴的Hadoop之旅

小肥柴的Hadoop之旅（目录）（第0章） 导航0-0-1 写博客的初衷0-0-2 参考资料和书籍0-0-3 完工部分传送门导航 0-0-1 写博客的初衷从门外汉边学边上课，到入门的菜鸡，对如何正确的学习Hadoop有了一点点自己的…

Hive 日期处理函数汇总

Hive 日期处理函数汇总最近项目处理日期操作比较繁杂,使用Hive的日期函数也较频繁 1. 加减日期 date_add(‘日期字符串’,int值) :把一个字符串日期格式加n天,n为int值 select date_add(‘2023-12-31’,7); 结果: 2024-01-07 date_sub(‘日期字符串’,int值) :把一个字符串…

Hadoop之mapreduce参数大全-4

76.指定在 MapReduce 作业中，哪些输出文件应该在任务失败时保留 mapreduce.task.files.preserve.filepattern 是 Hadoop MapReduce 框架中的一个配置属性，用于指定在 MapReduce 作业中，哪些输出文件应该在任务失败时保留。在 MapReduce 作…

深入理解 Hadoop （五）YARN核心工作机制浅析

概述 YARN 的核心设计理念是服务化（Service） 和事件驱动（Event EventHandler）。服务化和事件驱动软件设计思想的引入，使得 YARN 具有低耦合、高内聚的特点，各个模块只需完成各自功能，而模…

【大数据进阶第三阶段之DolphinScheduler学习笔记】DolphinScheduler快速上手

1、设置 Dolphinscheduler 在继续之前，您必须先安装并启动 dolphinscheduler。对于初学者，参考以下博文中的部署起启动服务：【大数据进阶第三阶段之DolphinScheduler学习笔记】深度解析DolphinScheduler(海豚调度)-CSDN博客 2、构建您的第…

【数据仓库与联机分析处理】数据仓库工具Hive

目录一、Hive简介 （一）什么是Hive （二）优缺点 （三）Hive架构原理 （四）Hive 和数据库比较二、MySQL的安装配置三、Hive的安装配置 1、下载安装包 2、解压并改名 3、配置环…

【kettle】pdi/data-integration 集成kerberos认证连接hdfs、hive或spark thriftserver

一、背景 kerberos认证是比较底层的认证，掌握好了用起来比较简单。 kettle完成kerberos认证后会存储认证信息在jvm中，之后直接连接hive就可以了无需提供额外的用户信息。 spark thriftserver本质就是通过hive jdbc协议连接并运行spark sql任务。二、…

【Hadoop】如何启动和关闭Hadoop集群

启动Hadoop集群关闭Hadoop集群启动Hadoop集群参考官方文档Apache Hadoop 3.3.6 – Hadoop Cluster Setup 要启动 Hadoop 集群，需要同时启动 HDFS 和 YARN 集群。首次启动 HDFS 时，必须对其进行格式化。将新的分布式文件系统格式化为 hdfs&#xff…

【hive】报错累积

6.1 创建新表错误1：FAILED: SemanticException [Error 10006]: Line 1:63 Partition not found "20210919" 场景：在创建例行表时，报错。这种情况是先创建了多级分区表（date，product）&#xff0c…

大数据 - Hadoop系列《三》- HDFS（分布式文件系统）概述

🐶5.1 hdfs的概念 HDFS分布式文件系统,全称为:Hadoop Distributed File System。它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集…

个人笔记：分布式大数据技术原理（二）构建在 Hadoop 框架之上的 Hive 与 Impala

有了 MapReduce，Tez 和 Spark 之后，程序员发现，MapReduce 的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言，虽然你几乎什么都能干了，但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法…

【kettle】pdi/data-integration 集成kerberos认证连接hive或spark thriftserver

一、背景 kerberos认证是比较底层的认证，掌握好了用起来比较简单。 kettle当前任务的jvm任务完成kerberos认证后会存储认证信息，之后直接连接hive就可以了无需提供额外的用户信息。 spark thriftserver本质就是通过hive jdbc协议连接并运行spark sql任…

java与大数据：Hadoop与MapReduce

Hadoop和MapReduce是由Apache软件基金会开发和维护的开源项目。它们的出现主要是为了解决传统的数据处理工具无法处理大数据量的局限性。首先，让我们深入了解一下Hadoop。Hadoop是一个分布式计算框架，旨在处理大规模数据集并提供可靠性和可扩展性。它由…

【大数据】安装 Zookeeper 单机版

安装 Zookeeper 单机版下面安装 Zookeeper，由于它是 Apache 的一个顶级项目，所以域名是 zookeeper.apache.org，所有 Apache 的顶级项目的官网都是以项目名 .apache.org 来命名的。点击 Download 即可下载，这里我们选择的版本是 …

CDH6.3.2大数据集群生产环境安装(九)之部署flink1.13.2客户端

添加flink用户（可选，这里是因为公司需要这个参数所以才添加；所有节点都添加上，省事） 29.1. 添加 useradd flink部署flink客户端选择一个集群节点作为客户端部署节点，这里选择zcpt-prd-bigdata-worker-01节点 30.1. 上传资源 flink-1.13.2-bin-scala_2.12.tgz 30.2. 解压…

hadoop集群基础配置

hadoop1.0 mapreduce HDFS hadoop2.0 mapreduce HDFS YARN 加入YARN使得hadoop更加包容，其他的组件也可以在hadoop生态系统中运行 hadoop3.0 HDFS（分布式存储） mapreduce（分布式计算框架） YARN(集群资源调度) …

数据湖 Hudi 核心概念

文章目录什么是 Hudi ?Hudi 是如何对数据进行管理的？Hudi 表结构Hudi 核心概念什么是 Hudi ? Hudi 是一个用于处理大数据湖的开源框架。大数据湖是指一个大规模的、中心化的数据存储库，其中包含各种类型的数据，如结构化数据、半结构化…

hadoop集群部署常见问题解决

1、权限 •Permission denied（权限被拒绝） Hadoop的运行日志在$HADOOP_HOME/logs内也可以查看日志排错只要出现Permission denied就是权限问题 hadoop安装文件夹或/data文件夹，未被授权给hadoop用户，所以无权限操作 2、环境变…

必须要知道的hive调优知识（上）

Hive数据倾斜以及解决方案 1、什么是数据倾斜数据倾斜主要表现在，map/reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其…

Hive msck 描述

MSCK SQL 语法如下： MSCK [REPAIR] TABLE table_name [ADD/DROP/SYNC PARTITIONS];1. 背景先创建3个分区，把分区文件删除。这时 metastore 有这个3个分区，文件上不存在。再在文件系统上创建其他两个分区，这两个分区在 metastor…

shell教程

面试题： 1.Shell中单引号和双引号区别 1)单引号不取变量值 2)双引号取变量值 3)反引号，执行引号中命令 4)双引号内部嵌套单引号，取出变量值 5)单引号内部嵌套双引号，不取出变量值一、shell脚本 1.shell脚本概…

大数据学习初级入门教程（十六） —— Hadoop 3.x 完全分布式集群的安装、启动和测试

好久没用 Hadoop 集群了，参考以前写的《大数据学习初级入门教程（一） —— Hadoop 2.x 完全分布式集群的安装、启动和测试_孟郎郎的博客-CSDN博客》和《大数据学习初级入门教程（十二） —— Hadoop 2.x 集群和 Zookeeper…

Mapreduce中WordCount源码理解

文章目录 0. MapReduce介绍1. 词频统计的代码 0. MapReduce介绍 Hadoop MapReduce是一个软件框架，可以轻松编写应用程序，以可靠、容错的方式在大型集群(数千个节点)的商用硬件上并行处理大量数据(多tb数据)。 MapReduce作业通常将输入数据集分割成独立的…

Sqoop 从入门到精通

Sqoop Sqoop 架构解析概述 Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如：MySQL，Oracle到Hadoop的HDFS，并从Hadoop的文件系统导出数据到关系数据库。传统的应用管理系统，也就是与关系型数…

Hadoop 3：YARN

YARN简介 Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的Hadoop资源管理器。 YARN是一个【通用资源管理系统和调度平台】，可为上层应用提供统一的资源管理和调度。它的引入为集群在利用率、…

Hadoop学习笔记（二）环境配置与服务器克隆

VMware与Centos7的安装这部分很简单，只需要按照常规步骤一步一步安装即可。最后出现如下画面便完成了。如果出现了一打开 “开启虚拟机” 就蓝屏的情况。可以试试将VMware更新到16的版本以上。对虚拟机进行一系列的设置设置VMware的IP地址接下来点击 “NAT设…

大数据技术之SparkSQL

第1章 Spark SQL概述 1.1 什么是Spark SQL 1）Spark SQL是Spark用于结构化数据（Structured Data）处理的Spark模块。 1.2 为什么要有Spark SQL 1.3 Spark SQL原理 1.3.1 什么是DataFrame （1）DataFrame是一种类似RDD的分…

个人笔记：分布式大数据技术原理（一）Hadoop 框架

Apache Hadoop 软件库是一个框架，它允许使用简单的编程模型，实现跨计算机集群的大型数据集的分布式处理。它最初的设计目的是为了检测和处理应用程序层的故障，从单个机器扩展到数千台机器（这些机器可以是廉价的）&#…

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行环境搭建

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行模式-CSDN博客 1、模板虚拟机环境准备 1.1、 hadoop100 虚拟机配置要求如下 &…

数仓工具—Hive进阶之常见的StorageHandler(24)

这里我们介绍一下常见的StorageHandler，但是由于目前StorageHandler的种类还是比较多的，主要包括官方的和非官方的，我们使用的时候需要注意的是版本的兼容性。常见的StorageHandler Apache Hive提供了多个存储处理程序（Storage Handler），允许用户集成Hive查询和分析引…

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 概述

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行模式-CSDN博客 1、 Hadoop 是什么 （1）Hadoop是一个由Apache基…

Hive11_Rank函数

Rank 1）函数说明 RANK() 排序相同时会重复，总数不会变 DENSE_RANK() 排序相同时会重复，总数会减少 ROW_NUMBER() 会根据顺序计算 2）数据准备 3）需求计算每门学科成绩排名。 4）创建本地 score.txt&…

Hive08_分区表

一分区表 1 概念： 分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询…

Hive SQL / SQL

1. 建表 & 拉取表2. 插入数据 insert select3. 查询3.1 查询语句语法/顺序3.2 关系操作符3.3 聚合函数3.4 where3.5 分组聚合3.6 having 筛选分组后结果3.7 显式类型转换 & select产生指定值的列 4. join 横向拼接4.1 等值连接 & 不等值连接4.2 两表连接4.2.1 内连…

2.HDFS 架构

目录概述架构HDFS副本HDFS数据写入流程NN 工作原理DN 工作原理结束概述官方文档快递环境：hadoop 版本 3.3.6 相关文章速递架构 HDFS HDFS 架构总结如下： a master/slave architecture 一主多从架构a file is split into one or more blocks a…

大数据本地环境搭建-Zookeeper/Hadoop/Hive搭建

1. Zookeeper环境安装链接：https://pan.baidu.com/s/1wzbCiDxP7H5G_llwjSS3Rw?pwdwgal 提取码：wgal 1.1 上传tar包 zookeeper-3.4.6.tar 注意：上传文件位置为 /export/server目录 1.2 解压缩 cd /export/server tar xvf /export/server…

Hadoop集群三节点搭建（二）

一、克隆三台主机（hadoop102 hadoop103 hadoop104） 以master为样板机克隆三台出来，克隆前先把master关机按照上面的步骤克隆其他两个就可以了，记得修改ip和hostname 二、编写集群同步脚本在/home/attest/ 创建bin目录&…

Hadoop之mapreduce参数大全-1

1.设置Map/Reduce任务允许使用的最大虚拟内存大小 mapred.task.maxvmem是MapReduce的一个配置参数，用于指定每个Map/Reduce任务允许使用的最大虚拟内存大小（以字节为单位）。如果一个任务使用的虚拟内存超过了此参数指定的值，则任…

Hive之set参数大全-5

I 限制外部表数据插入 set hive.insert.into.external.tablestrue;在Apache Hive中，通过INSERT INTO语句向外部表（External Table）插入数据时，有一些注意事项和限制。外部表是Hive中的一种特殊表，它与Hive管理的存储…

【Hive实战】 Hive的权限模型

Hive的权限模型文章目录 Hive的权限模型总览什么是Hive授权Hive的授权场景Hive的授权模式使用建议基于元数据存储的授权元存储服务器安全的必要性元存储安全的配置参数配置举例基于sql标准的授权配置举例对Hive命令和语句的限制权限对象对象所有者用户与角色角色管理命令Gra…

HBase正确使用方法

HBase使用方法目录 HBase使用方法安装和配置HBase ShellJava APIHBase MapReduce总结 HBase是一个分布式的、面向列的NoSQL数据库，它基于Hadoop的HDFS存储数据，提供了高可靠性、高可扩展性和高性能的数据存储和访问能力。本文将介绍HBase的使用方法。 …

清空hive表姿势大全

-- 清空分区表清空hive表 hive分区表清空清空hive分区表为什么着重强调分区表,因为分区表清空可能会因为分区过多导致清理速度特别慢. 方式1 truncate table tb1(分区表注意) 注意事项: truncate table不会删除hdfs 分区文件夹,只会删除parquet文件,所以结果就是一堆分区…

【Linux】基础IO_文件系统

环境：centos7.6，腾讯云服务器Linux文章都放在了专栏：【Linux】欢迎支持订阅相关文章推荐： 【Linux】冯.诺依曼体系结构与操作系统【C/进阶】如何对文件进行读写（含二进制）操作？ 【Linux】基础…

数仓选型对比

1、数仓选型对比如下(先列举表格，后续逐个介绍) 数仓应用目标产品特点适用于适用数据类型数据处理速度性能拓展实施难度运维难度性能优化成本传统数仓(SQLServer、Oracle等关系型数据库)面向主题设计的，为分析数据而设计基于Oracle、 SQLServer、MyS…

任务调度系统对比

1、常见任务调度系统对比（后续逐个介绍） 特点DolphinSchedulerXxl-jobAzkabanAirflowOozie定位解决数据处理流程中错综复杂的依赖关系一个轻量级分布式的任务调度框架为了解决Hadoop的任务依赖关系问题通用的批量数据处理管理Hadoop作业(job)的工作流…

【Shell-HDFS】使用Shell脚本判断HDFS文件、目录是否存在

【Shell-HDFS】使用Shell脚本判断HDFS文件、目录是否存在 1）文档编写目的2）测试原理3）Shell脚本测试3.1.测试路径是否存在3.2.测试目录是否存在3.3.测试文件是否存在3.4.测试路径大小是否大于03.5.测试路径大小是否等于0 4）总结 1…

Spark - 获取一定时间内的 Hdfs 全部文件并读取

目录一.引言二.获取 Interval 内文件 1.获取 FileSystem 2.获取全部 File 3.读取 Hdfs File 一.引言有一个需求要求定时获取距离目前时间 Interval 范围之内的文件并读取，例如现在是 7:00，interval 为 30 min，则我们需要读取 6:30 -…

HBASE整理

HBASE整理一、HBASE由来思考: HDFS主要适用于什么场景呢? 具有高的吞吐量适合于批量数据的处理操作思考: 如果想在HDFS上, 直接读取HDFS上某一个文件中某一行数据, 请问是否可以办到呢? 或者说, 我们想直接修改HDFS上某一个文件中某一行数据,请问是否可以办到呢?HDFS并…

【Hive实战】Hive元数据存储库数据增多的分析

Hive元数据存储库数据增多的分析 2023年5月8日文章目录 Hive元数据存储库数据增多的分析问题新增Hive相关的DDL操作创建Hive库库授权到用户创建Hive表内部表非分区表表授权到用户一级分区表二级分区表分桶表分桶排序表查询指令核心表分析表关系图表以库表为主以hive表为主以…

重启namenode速度慢，耗时很久加载fsimage问题解决办法

如果重启namenode速度慢，耗时很久加载fsimage问题解决办法可以需要定期执行以下命令提前合并元数据。 hdfs dfsadmin -safemode enter hdfs dfsadmin -saveNamespace hdfs dfsadmin -safemode leave （在关闭hdfs服务前，执行一上命令&#…

MapReduce常用参数调优

一、资源相关参数 mapred-default.xml 配置参数参数说明mapreduce.map.memory.mb一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。mapreduce.reduce.memory.mb一个Redu…

HBase基础

HBase基础一、初识HBase HBase 是一个面向列式存储的分布式数据库，其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。HBase 良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能&…

Hive知识点的回顾

一、Hive的序列化和反序列化 Hive读取文件机制：读取文件中的每一行 > 反序列化 > 通过分隔符进行切割，返回数据表中的每一行对象。 Hive写文件机制：把数据表中的每一行Row对象 > 调用LazySimpleSerde类中的序列化方法 > 把Row对象…

Hadoop之mapreduce参数大全-6

126.指定 Map 任务运行的节点标签表达式 mapreduce.map.node-label-expression 是 Hadoop MapReduce 框架中的一个配置属性，用于指定 Map 任务运行的节点标签表达式。节点标签是在 Hadoop 集群中为节点分配的用户定义的标签，可用于将 Map 任务限制在特定…

解决Hive在DataGrip 中注释乱码问题

注释属于元数据的一部分，同样存储在mysql的metastore库中，如果metastore库的字符集不支持中文，就会导致中文显示乱码。不建议修改Hive元数据库的编码，此处我们在metastore中找存储注释的表，找到表中存储注释的字段&a…

物理机搭建hive

一、修改Hadoop配置修改core-site.xml 配置yarn-site.xml 分发文件，然后重启集群二、 Hive解压安装上传文件添加hive环境便量，source生效启动高可用集群，启动hive 三、配置mysql元数据库检查当前系统是否安装过Mysql&#xf…

2024.1.7 Spark SQL , DataFrame

目录一 . SparkSQL简介二 . Spark SQL与HIVE的异同三 . DataFrame 1. 创建 DataFrame 2. RDD转换DataFrame 四 . 操作DataFrame SQL方式: DSL方式: 一 . SparkSQL简介 Spark SQL只能处理结构化数据 ,属于Spark框架一个部分 Schema:元数据信息特点: 融合性 ,统一数…

2024.1.1 hive_sql 题目练习,开窗,行列转换

重点知识: 在使用group by时，select之后的字段要么包含在聚合函数里，要么在group by 之后进行行转列,行转列的核心就是使用concat_ws函数拼接(分隔符,内容), -- 以及collect_list函数进行收集,list不去重, set去重无序列转行,核心就是使用炸裂函数把东…

Hive 源码

hive 编译 issue Failed to execute goal com.github.os72:protoc-jar-maven-plugin:3.5.1.1:run (default) on project hive-standalone-metastore: Error resolving artifact: com.google.protobuf:protoc:2.5.0: The following artifacts could not be resolved: com.goog…

超市账单管理系统产品数据新增Servlet实现

超市账单管理系统产品数据新增Servlet实现 package com.test.controller; import java.io.IOException; import java.util.List; import javax.servlet.ServletException; import javax.servlet.http.HttpServlet; import javax.servlet.http.HttpServletRequest; import ja…

Clojure 实战(4)：编写 Hadoop MapReduce 脚本

Hadoop简介众所周知，我们已经进入了大数据时代，每天都有PB级的数据需要处理、分析，从中提取出有用的信息。Hadoop就是这一时代背景下的产物。它是Apache基金会下的开源项目，受Google两篇论文的启发，采用分布式的文件…

Hadoop入门学习笔记——八、数据分析综合案例

视频课程地址：https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 Hadoop入门学习笔记（汇总） 目录八、数据分析综合案例8.1. 需求分析8.1.1. 背景介绍8.1.2…

Java技术栈 —— Hadoop入门（一）

Java技术栈 —— Hadoop入门（一） 一、Hadoop第一印象二、安装Hadoop三、Hadoop解析3.1 Hadoop生态介绍3.1.1 MapReduce - 核心组件3.1.2 HDFS - 核心组件3.1.3 YARN - 核心组件3.1.4 其它组件3.1.4.1 HBase3.1.4.2 Hive3.1.4.3 Spark 一、Hadoop第一印象…

2024.1.11 Kafka 消息队列,shell命令,核心原理

目录一 . 消息队列二. Kafka 三 . 启动命令四 . Kafka的Shell 命令五 . Kafka的核心原理 1. Topic的分区和副本机制 2 . 消息存储机制和查询机制 3. Kafka中生产者数据分发策略六 . Kafka 之所以具有高速的读写性能，主要有以下几个原因七. 笔记…

【DolphinScheduler】datax读取hive分区表时，空分区、分区无数据任务报错问题解决

问题背景： 最近在使用海豚调度DolphinScheduler的Datax组件时，遇到这么一个问题：之前给客户使用海豚做的离线数仓的分层搭建，一直都运行好好的，过了个元旦，这几天突然在数仓做任务时报错，具体报…

大数据 | （六）Hadoop集群启停脚本

知识目录一、前言二、Hadoop集群启停脚本2.1 启停脚本及其背景2.2 使用方法三、jps脚本四、关机脚本五、结语一、前言 hello，大家好！这篇文章是我在使用Hadoop集群时使用到的启停脚本的详细内容与感想，希望能帮助到大家！ 本篇…

一百一十一、Hive——从HDFS到Hive的数据导入（静态分区、动态分区）

一、分区的定义分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹， Hive 中的分区就是分目录 ，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 where 子句中的表达式选择查询所需要的指定的分区，这样的查询效率会…

linux, Hadoop

JAVA客户端环境搭建创建Maven项目,添加Hadoop依赖. <dependencies><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId&g…

【大数据学习篇1】linux常用命令

查看目录下有什么文件信息 //list查看当前目录下有什么文件 ls //list -list 通过详细内容形式查看目录下的文件内容 ls -l 或 ll //查看指定目录下文件名字信息 ls 目录 //以详细列表形式查看指定目录下文件名字信息 ls -l 目录 //list all 查看全部文件，包括隐藏…

Spark 从入门到精通

Spark 从入门到精通环境搭建准备工作创建安装目录 mkdir /opt/soft cd /opt/soft下载scala wget https://downloads.lightbend.com/scala/2.13.10/scala-2.13.10.tgz -P /opt/soft解压scala tar -zxvf scala-2.13.10.tgz修改scala目录名称 mv scala-2.13.10 scala-2下…

sqoop的详细使用文档和使用案例

目录 Sqoop 简介Sqoop主要有两个组件：安装使用案例导入数据导出数据列出数据库和表执行SQL语句使用Hive集成结论 Sqoop 简介 Sqoop是一个开源的、用于在Hadoop生态系统和关系型数据库之间传输大量数据的工具。它允许用户将数据从关系型数据库导入到Hadoop中&…

scala---spark本地调式远程获取hdfs数据注意事项

文章目录前言一、Hadoop配置注意事项1.1 core-site.xml1.2 core-site.xml 二、本地hadoop环境配置注意事项三、本地scala项目spark代码调试总结前言这篇文章主要帮大家绕开一些本地使用spark调试获取远程hdfs数据的坑，个人在使用时也是基本把这些坑踩了一遍。希望…

YARN 监控管理以资源管理

YARN的监控管理和资源管理 YARN WebUI V1服务JobHistoryServer服务配置 TimelineServer服务 YARN操作维护命令USER用户命令applicationjarapplicationattemptcontainerlogsqueuenodeversion Admin 管理命令resourcemanager | nodemanagerproxyserverdaemonlogrmadmintimelinese…

Hbase入门篇01---基本概念和部署教程

Hbase入门篇01---基本概念和部署教程 HBase基本概念HadoopHadoop的局限 HBase 与 NoSQLHBase应用场景发展历程HBase特点 RDBMS与HBase的对比关系型数据库HBaseHDFS对比HBaseHive对比Hbase总结Hive与HBase HBase集群搭建HBASE_MANAGES_ZK属性的作用安装报错，解决思路…

Spark 推测执行原理和应用

概念 Spark 推测执行是一种优化技术。在Spark中，可以通过推测执行，即Speculative Execution，来识别并在其他节点的Executor上重启某些运行缓慢的Task，并行处理同样的数据,谁先完成就用谁的结果，并将另一个未完成的Task Kill掉，从而加快Task处理速度。适用于某些Spark任…

datax连tdh写数问题记录

There are 3 datanode(s) running and 3 node(s) are excluded in this operation { “dfs.nameservices”: “nameservice1”, “dfs.ha.namenodes.nameservice1”: “nn1,nn2”, “dfs.namenode.rpc-address.nameservice1.nn1”: “bigdata2:8020”, “dfs.namenode.rpc-addr…

Hadoop上传及下载数据流程

网络拓扑及机架感知网络拓扑节点距离：两个节点到达共同父节点的距离和机架感知 （ 副本节点的选择 ） 例如：500个节点，上传数据my.tar.gz,副本数为3， 根据机架感知，副本数据…

hive的详细使用文档和使用案例

目录 Hive 简介安装连接到Hive创建数据库创建表加载数据查询数据修改表删除表使用案例结论 Hive 简介 Hive是一个基于Hadoop的数据仓库工具，可以将结构化数据映射到Hadoop HDFS上，并提供SQL查询功能。Hive的设计目标是让那些熟悉SQL语言的用户能够在Ha…

用Pagerank算法来解决用户分类问题

最近无意中找到自己2016年写过的一篇文章，当时是基于Pagerank算法来解决一个用户分类的问题，用的是Hadoop和Spark的技术，感概时间真是过得飞快，2016年是我开始接触机器学习和大数据的一年，这么多年过去了，自…

hive安装及配置

hive安装和部署 Hive地址 1．Hive官网地址 http://hive.apache.org/ 2．文档查看地址 https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3．下载地址 http://archive.apache.org/dist/hive/ 4．github地址 http…

hive的基本操作语句

背景：记录一下hive创建数据库，建表，添加数据，创建分区等的语句吧，省得总百度，😄 第一步：hive的建库语句 create database pdata_dynamic;查看是否创建成功了 show databases;显示如…

大数据 | （五）通过Sqoop实现从MySQL导入数据到HDFS

知识目录一、前言二、导入前的准备2.1 Hadoop集群搭建2.2 Hadoop启停脚本三、docker安装MySQL四、安装Sqoop4.1 Sqoop准备4.2 Sqoop连接Mysql数据测试五、导入MySQL数据到hdfs5.1 准备MySQL数据5.2 导入数据六、Sqoop现状七、结语一、前言各位CSDN的朋友们大家好&#x…

【集群模式】执行MapReduce程序-wordcount

因为是在hadoop集群下通过jar包的方式运行我们自己写的wordcount案例，所以需要传递的是 HDFS中的文件路径，所以我们需要修改上一节【本地模式】中 WordCountRunner类的代码： //5.设置统计文件输入的路径,将命令行的第一个参数作为输入文件的…

hive入门

前提准备由于Apache Hive是一款基于Hadoop的数据仓库软件，通常部署运行在Linux系统之上。因此不管使用何种方式配置Hive Metastore，必须要先保证服务器的基础环境正常，Hadoop集群健康可用。 1.服务器的基础环境集群时间同步、防火墙关闭…

Apache Hadoop 使用教程 (2): 单节点环境搭建实战中级

步骤： 1、创建用户 sudo useradd -m hadoop -s /bin/bash sudo passwd hadoop sudo adduser hadoop sudo 2、注销当前用户并使用hadoop用户登陆 3、更新资源库 sudo apt-get update 4、安装vim sudo apt-get install vim 5、安装ssh sudo apt-get install opens…

MapReduce计算广州2022年每月最高温度

目录数据集 1.查询地区编号 2.数据集的下载编写MapReduce程序输入格式输出格式 Mapper类确定参数代码 Reducer类思路代码 Runner类运行结果数据集 1.查询地区编号 NCDC是美国国家气象数据中心的缩写，是一个负责收集、存储和分发全球气象和气…

1,Hadoop的基本概念和架构

Hadoop的基本概念和架构学习路线 hadoop的基本概念和架构hadoop的安装和配置hadoop的HDFS文件系统hadoop的MapReduce计算框架hadoop的YARN资源管理器hadoop的高级特效，如HBase，Hive，Pig等hadoop的优化和调优hadoop的应用场景，如…

【Hadoop】Hadoop概念与实践

Hadoop是一个由Apache基金会开发的开源分布式计算框架，在处理大数据方面非常有用。它可以存储和处理大规模数据集，通过使用多台计算机构建集群，将数据分散到集群中的节点上进行处理。 Hadoop由两个核心组件组成： Hadoop Distribu…

Hive自定义UDF,UDTF函数

自定义UDF,UDTF,UDAF函数 （1） 自定义UDF：继承UDF，重写 evaluate 方法 （2） 自定义 UDTF：继承自 GenericUDTF，重写 3 个方法：initialize(自定义输出的列名和类型)&#x…

大数据的应用领域

大数据是指海量的、多样化的、高速增长的数据集合，这些数据集合可以通过计算机技术进行分析和处理，从而提供有价值的信息和洞见。随着互联网和物联网的发展，大数据已经成为了各个领域的重要资源，对于企业、政府和个人都具有重要的…

Spark避坑系列（三）（Spark Core-RDD 依赖关系持久化共享变量）

大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模 PySpark入坑系列第三篇，该篇章主要介绍spark的编程核心RDD的其他概念，依赖关系，持久化，广播变量，累加器等一、RDD依赖关…

Hadoop-HA高可用

一、集群规划二、HDFS高可用官方地址在opt目录下创建一个ha文件夹，将/opt/module/下的 hadoop-3.1.3拷贝到/opt/ha目录下（记得删除data 和 log目录） 配置core-site.xml hdfs-site.xml <configuration><!-- NameNode数据存…

Sqoop的增量数据加载策略与示例

当使用Apache Sqoop进行数据加载时，增量数据加载策略是一个关键的话题。增量加载可以仅导入发生变化的数据，而不必每次都导入整个数据集，这可以显著提高任务的效率。本文将深入探讨Sqoop的增量数据加载策略，提供详细的示例代码&am…

Hadoop之mapreduce参数大全-5

101.指定任务启动过程中允许的最大跳过尝试次数 mapreduce.task.skip.start.attempts 是 Hadoop MapReduce 框架中的一个配置属性，用于指定任务启动过程中允许的最大跳过尝试次数。在 MapReduce 作业中，如果某个任务（Map 任务或 Reduce 任…

Hive分区表实战 - 单分区字段

文章目录一、实战概述二、实战步骤（一）创建图书数据库（二）创建国别分区的图书表（三）在本地创建数据文件（四）按分区加载数据1、加载中文书籍数据到countrycn分区2、加载英文书籍数据…

熟悉 Hive 的基本操作

4、实验步骤（一）创建一个内部表 stocks，字段分隔符为英文逗号，表结构下所示。 col_namedata_typeexchangestringsymbolstringymdstringprice_openfloatprice_highfloatprice_lowfloatprice_closefloatvolumeintprice_adj_closefloat创建内部表stocks： create table if …

Hive数据定义（1）

hive数据定义是hive的基础知识，所包含的知识点有：数据仓库的创建、数据仓库的查询、数据仓库的修改、数据仓库的删除、表的创建、表的删除、表的修改、内部表、外部表、分区表、桶表、表的修改、视图。本篇文章先介绍：数据仓库的创建、数据仓…

使用Sqoop将数据从Hadoop导出到关系型数据库

当将数据从Hadoop导出到关系型数据库时，Apache Sqoop是一个非常有用的工具。Sqoop可以轻松地将大数据存储中的数据导出到常见的关系型数据库，如MySQL、Oracle、SQL Server等。本文将深入介绍如何使用Sqoop进行数据导出，并提供详细的示例代码&…

基于Hadoop的网上购物行为大数据分析及预测系统【flask+echarts+机器学习】前后端交互

有需要本项目或者部署的系统可以私信博主，提供远程部署和讲解本研究基于淘宝用户行为的开源数据展开大数据分析研究，通过Hadoop大数据分析平台对阿里天池公开的开源数据集进行多维度的用户行为分析，为电商销售提供可行性决策。首先我们将大…

【数据采集与预处理】数据传输工具Sqoop

目录一、Sqoop简介二、Sqoop原理三、Sqoop安装配置 （一）下载Sqoop安装包并解压 （二）修改配置文件 （三）拷贝JDBC驱动 （四）验证Sqoop （五）测试Sqoop…

大数据开发之Hadoop（Yarn）

第 1 章：Yarn资源调度器思考： 1、如何管理集群资源？ 2、如何给任务合理分配资源？ Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运…

大数据开发之Hadoop（优化新特征）

第 1 章：HDFS-故障排除注意：采用三台服务器即可，恢复到Yarn开始的服务器快照。 1.1 集群安全模块 1、安全模式：文件系统只接收读数据请求，而不接收删除、修改等变更请求 2、进入安全模式场景 1）NameNod…

大数据Hadoop入门——HDFS分布式文件系统基础

HDFS总结在现代的企业环境中，海量数据超过单台物理计算机的存储能力，分布式文件系统应运而生，对数据分区存储于若干物理主机，管理网络中跨多台计算机存储的文件系统。 HDFS只是分布式文件管理系统中的一种。 HDFS命令基础语法…

Hadoop——HDFS、MapReduce、Yarn期末复习版（搭配尚硅谷视频速通）

一、HDFS 1.HDFS概述 1.1 HDFS定义 HDFS(Hadoop Distributed File System),它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自…

【大数据】了解 YARN 架构的基础知识

了解 YARN 架构的基础知识 1.为什么是 YARN2.YARN 简介3.YARN 的组成部分3.1 Resource Manager 资源管理器3.1.1 Scheduler 调度程序3.1.2 Application Manager 应用程序管理器 3.2 Node Manager 节点管理器3.3 Application Master 应用程序主控3.4 Container 容器 4.在 YARN 中…

HDFS概述

文章目录 HDFS背景定义HDFS 优缺点HDFS 组成HDFS文件块大小 HDFS背景定义背景先给大家介绍一下什么叫HDFS，我们生活在信息爆炸的时代，随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁…

Sqoop数据传输中的常见挑战及其解决方法

Sqoop是一个用于将数据传输到Hadoop生态系统的强大工具，但在实际使用中，可能会面临一些挑战。本文将深入探讨Sqoop数据传输中的常见挑战，并提供详细的示例代码和全面的解决方法，以帮助大家更好地克服这些挑战。常见挑战1&#x…

java大数据hadoop2.9.2 Java编写Hadoop分析平均成绩

1、准备文件，例如score.txt，内容如下： zs k1 88 ls k1 98 ww k1 78 zs k2 88 ls k2 98 ww k2 78 zs k3 88 ls k3 98 ww k3 78 2、创建maven项目 <d…

Hive导入数据的五种方法

在Hive中建表成功之后，就会在HDFS上创建一个与之对应的文件夹，且文件夹名字就是表名； 文件夹父路径是由参数hive.metastore.warehouse.dir控制，默认值是/user/hive/warehouse； 也可以在建表的时候使用location语句指定…

分布式计算平台 Hadoop 简介

Hadoop简介 Hadoop是一种分析和处理大数据的软件平台，是一个用Java语言实现的Apache的开源软件框架，在大量计算机组成的集群中实现了对海量数据的分布式计算。其主要采用MapReduce分布式计算框架，包括根据GFS原理开发的分布式文件系统HDFS、…

任务8：安装大数据统计分析工具Hive

任务描述知识点：Hive安装应用重点： 基于CentOS系统，安装配置Hive创建访问Hive数据库的用户，并授予访问权限内容： 安装Hive配置MySQL、设置远程访问权限配置HiveHive服务端、客户端访问任务指导 1. Hive…

Hive / Presto 行转列列转行

Hive / Presto 行转列列转行行转列1、Hive：2、Presto： 列转行Hive1、split将order_ids拆分成数组，lateral view explode将数组炸裂开 Presto1、split将order_ids拆分成数组，cross join unnest将数组炸裂开2、炸裂 map 行转列 …

java大数据hadoop2.92 Java连接操作

1、要想Java可以连接自己虚拟机的hadoop文件系统，需要给文件系统权限 （1）需要在/usr/local/hadoop/etc/hadoop/core-site.xml core-site.xml文件配置具体ip <configuration><property><name>fs.defaultFS</name>&…

大数据开发之Hive（压缩和存储）

第 9 章：压缩和存储 Hive不会强制要求将数据转换成特定的格式才能使用。利用Hadoop的InputFormat API可以从不同数据源读取数据，使用OutputFormat API可以将数据写成不同的格式输出。对数据进行压缩虽然会增加额外的CPU开销，但是会节约客观…

Hadoop的HDFS文件系统

Hadoop的HDFS文件系统概述 Hadoop的HDFS文件系统是一种分布式文件系统，hadoop的核心组件之一。它的设计目标是能够在普通硬件上运行，并且能够处理大量的数据。HDFS采用了主从（Master/Slave）架构，其中有一个NameNode…

MapReduce【自定义分区Partitioner】

实际开发中我们可能根据需求需要将MapReduce的运行结果生成多个不同的文件，比如上一个案例【MapReduce计算广州2022年每月最高温度】，我们需要将前半年和后半年的数据分开写到两个文件中。默认分区默认MapReduce只能写出一个文件： 因为我…

Pig的详细使用文档和使用案例

目录安装和配置Pig脚本基础Pig脚本高级功能自定义函数外部数据源总结安装和配置在使用Pig之前，您需要先安装Hadoop，并设置相应的环境变量。然后，您可以按照以下步骤安装Pig： 下载Pig二进制文件，官方网站是&#…

【大数据之Hadoop】三十四、Hadoop综合调优之小文件优化方法

1 Hadoop小文件弊端 HDFS上每个文件都要在NameNode上创建对应的元数据，这个元数据的大小约为150byte，这样当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，另一方面就是元数据文件…

求爷爷告奶奶，阿里大佬才甩出这份Spark+Hadoop+中台实战pdf

Spark大数据分析实战 1、Spark简介初识Spark Sp ark生态系统BDAS Sp ark架构与运行逻辑弹性分布式数据集 2、Spark开发与环境配置 Spark应用开发环境2置使用Intelli i开发Spark 远程调试Spark程序 Spark编译配置Spark源码阅读环境 3、BDAS简介 SQL on Spark S…

ResourceManager启动报错：Queue configuration missing child queue names for root【已解决】

Queue configuration missing child queue names for root 现象报错分析ResourceManager输出日志解决现象 start-all.sh后缺少RM的进程报错查看启动日志输出文件 2023-05-23 19:28:19,863 INFO [main] resourcemanager.RMNMInfo (RMNMInfo.java:<init>(63)) - Re…

[Hadoop]MapReduce与YARN

目录大数据导论与Linux基础 Apache Hadoop、HDFS MapReduce MapReduce思想 MapReduce设计构思 MapReduce介绍 MapReduce官方实例 Map阶段执行流程 Reduce阶段执行流程 shuffle机制 YARN YARN介绍 YARN架构、组件程序提交YARN交互流程 YARN资源调度器Scheduler…

【Hadoop】一、Apache Hadoop、 HDFS

一、Apache Hadoop、 HDFS 1、Apache Hadoop概述 Hadoop介绍狭义上Hadoop指的是Apache软件基金会的一款开源软件。用java语言实现，开源允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 Hadoop核心组件 Hadoop HDFS（分布式文…

【Hadoop】四、Hadoop生态综合案例 ——陌陌聊天数据分析

文章目录四、Hadoop生态综合案例 ——陌陌聊天数据分析1、陌陌聊天数据分析案例需求1.1、背景介绍1.2、目标需求1.3、数据内容 2、基于Hive数仓实现需求开发2.1、建库建表、加载数据2.2、ETL数据清洗2.3、需求指标统计 3、FineBI实现可视化报表3.1、FineBI的介绍及安装3.2、Fi…

CentOS7搭建伪分布式Hadoop（全过程2023）

##具体操作目录## 1.配置静态ip2.关闭防火墙3.修改主机名为 *master* ，并重启虚拟机vi /etc/hostname 4.修改主机名与ip映射5.设置SSH免密登录6.安装配置java环境----------------------正式Hadoop配置1.移动安装包到合适位置2.解压安装包并重命名3.配置环境变量4.修…

hive函数

函数 Hive的函数分为两大类∶内置函数(Built-in Functions )、用户定义函数UDF (User-Defined Functions ) . 内置函数可分为︰数值类型函数、日期类型函数、字符串类型函数、集合函数、条件函数等; 用户定义函数根据输入输出的行数可分为3类:UDF、UDAF、UDTF。 UDF:普通函…

Spark大数据处理讲课笔记---RDD容错机制

零、本讲学习目标了解RDD容错机制理解RDD检查点机制的特点与用处理解共享变量的类别、特点与使用一、RDD容错机制当Spark集群中的某一个节点由于宕机导致数据丢失，则可以通过Spark中的RDD进行容错恢复已经丢失的数据。RDD提供了两种故障恢复的方式&#xff0c…

大数据开发之Hive(查询、分区表和分桶表、函数)

第 6 章：查询 6.1 基本语法及执行顺序 1、查询语句语法 select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY col_list]] [LIMIT n…

任务12：使用Hadoop Streaming解压NCDC天气原始数据

任务描述知识点： NCDC原始的气象数据上传到HDFSMapReduce程序处理NCDC原始数据重点： 熟练使用HDFS基础命令查看HDFS文件块的分布情况掌握Linux系统Shell脚本的编写熟练使用MapReduce程序解压缩文件使用MapReduce程序处理NCDC气象数据内容&am…

hadoop- yarn启动后用jps查看没有resourcemanager

1. 问题启动hadoop的 yarn时发现jps 并没有 resourcemanager 2 . 排查在hadoop-xxx-resourcemanager-.log 日志文件中发现了报错日志日志内容如下 context logs 2024-01-15 11:46:14,440 ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Erro…

hql(hive sql)中的join及踩过的坑

1 几种join方式 join join对应于inner join 内连接。当多张表进行join的时候，所有表中与on条件中匹配的数据才会显示。 hql（即hive sql）的on子句中只支持and，不支持 or，也不支持null的对比。 left outer join 左外连…

Hive（二）

修改表的结构： 重命名： alter table table_1 rename to table_2; 增加列信息： alter table table_1 add columns (mycol string,mysco string); 更新列： alter table table_1 change column mycol int; 删除表： d…

mac上搭建 hadoop 伪集群

1. hadoop介绍 Hadoop是Apache基金会开发的一个开源的分布式计算平台，主要用于处理和分析大数据。Hadoop的核心设计理念是将计算任务分布到多个节点上，以实现高度可扩展性和容错性。它主要由以下几个部分组成： HDFS (Hadoop Distributed Fi…

HDFS HA 集群搭建 - 基于Quorum Journal Manager（hadoop2.7.1）

0、前置概念 0.1 checkpoint 检查点在Hadoop分布式文件系统（HDFS）中，检查点（Checkpointing）是一个关键的过程，它涉及到将文件系统的命名空间状态持久化到磁盘。这个状态由两部分组成：EditLogs和FsImage。 EditLogs：记录了自FsImage生成后对文件系统所做的所有修改。…

Sqoop安全性：确保安全的数据传输

确保数据传输的安全性在大数据处理中至关重要。Sqoop作为一个用于数据传输的工具，也提供了多种安全性措施，以确保数据在传输过程中的机密性和完整性。本文将深入探讨Sqoop的安全性特性，提供详细的示例代码和全面的内容，以帮助大家…

Hive数学函数讲解

Hive 是一个基于 Hadoop 的数据仓库工具，它支持类似于 SQL 的查询语言 HiveQL，并且提供了许多内建的数学函数来处理数值数据。下面我将逐一讲解您提到的这些数学函数，并提供一些使用案例和注意事项。 ROUND() 功能：四舍五入到指定…

大数据开发之Hadoop（HDFS）

第 1 章：HDFS概述 1.1 HDFS产出背景及定义 1、HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的…

hadoop-common: CMake failed with error code 1

问题在编译hadoop源码时遇到如下错误 hadoop-common: CMake failed with error code 1 看了这个错误表示一脸懵逼排查在mvn 的命令中增加 -X 和 -e mvn clean package -e -X -Pdist,native -DskipTests -Dmaven.javadoc.skip -Dopenssl.prefix/usr/local/bin/openssl 在…

Hive之set参数大全-8

指定LLAP（Low Latency Analytical Processing）的执行模式 hive.llap.execution.mode 是Apache Hive中的一个配置属性，用于指定LLAP（Low Latency Analytical Processing）的执行模式。该属性用于决定Hive查询是否使用LL…

数仓项目6.0配置大全（hadoop/Flume/zk/kafka/mysql配置）

配置背景我使用的root用户，懒得加sudo 所有文件夹在/opt/module 所有安装包在/opt/software 所有脚本文件在/root/bin 三台虚拟机：hadoop102-103-104 分发脚本 fenfa，放在~/bin下,chmod 777 fenfa给权限 #!/bin/bash #1. 判断参数个数…

Hadoop之mapreduce参数大全-8

176.指定 JobHistoryServer 在缓存中存储的日期字符串的最大数量 mapreduce.jobhistory.datestring.cache.size 是 Apache Hadoop MapReduce 中的一个配置属性，用于指定 JobHistoryServer 在缓存中存储的日期字符串的最大数量。以下是对该配置属性的解释&#xf…

Sqoop性能优化：高效数据传输的技巧

当使用Apache Sqoop进行数据传输时，性能优化至关重要。高效的数据传输可以减少任务运行时间，减轻集群负载，提高整体工作效率。在本文中，将深入探讨Sqoop性能优化的关键技巧，并提供丰富的示例代码，以帮助大家…

2024.1.13 Kafka六大机制和Structured Streaming

目录一 . Kafka中生产者数据分发策略二. Kafka消费者的负载均衡机制三 . 数据不丢失机制生产者端是如何保证数据不丢失的呢？ Broker端如何保证数据不丢失消费端如何保证数据不丢失 Kafka中消费者如何对数据仅且只消费一次四 . 启动Kafka eagle命令数…

【教程】集群搭建准备工作全流程

基于VMware创建虚拟机进行集群搭建，适用于hadoop/GreenPlum等集群之前已经创建了三台虚拟机hadoop102，hadoop103，hadoop104来搭建hadoop集群，因为目前学习到了greemplum，因此新建三台虚拟机hadoop105，had…

linux安装hadoop详细步骤

以下是在Linux系统上安装Hadoop的详细步骤： 下载Hadoop文件在Hadoop官方网站上下载最新的稳定版本的Hadoop文件。下载地址：https://hadoop.apache.org/releases.html 解压Hadoop文件打开终端，使用以下命令将下载的Hadoop文件解压到指定目录…

Hadoop伪分布式安装配置

A、添加hadoop用户 1、添加用户组 [roothadoop00 ~]# groupadd hadoop 2、添加用户并分配用户组 [roothadoop00 ~]# useradd -g hadoop hadoop 3、修改hadoop用户密码 [roothadoop00 ~]# passwd hadoop B、配置本地YUM源 1、上传系统安装镜像到虚拟机服务器的/root目录 2、新…

【HDFS】一天一个RPC系列--updateBlockForPipeline

本文目标是：弄清updateBlockForPipeline这个RPC的作用。弄清updateBlockForPipeline RPC的使用场景，代码里的调用点。一、updateBlockForPipeline的作用其定义在ClientProtocol接口里，是Client与NameNode之间的接口。看其代码注释描述：为一个under construction状态下…

【HDFS】一天一个RPC系列--updatePipeline

updatePipeline这个RPC一般都会配合updateBlockForPipeline RPC一起使用。先updateBlockForPipeline、然后再updatePipeline。建议先阅读【HDFS】一天一个RPC系列–updateBlockForPipeline 本文目标是弄清楚以下问题：弄清updatePipeline这个RPC的作用。弄清updatePipeli…

大数据开发之Hadoop（完整版+练习）

第 1 章：Hadoop概述 1.1 Hadoop是什么 1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2、主要解决，海量数据的存储和海量数据的分析计算问题。 3、Hadoop通常是指一个更广泛的概念-Hadoop生态圈 1.2 Hadoop优势（4高&#xf…

Hive实战 —— 电商数据分析(全流程详解真实数据)

目录前言需求概述数据清洗数据分析一、前期准备二、项目1. 数据准备和了解2.确定数据粒度和有效列3.HDFS创建用于上传数据的目录4.建库数仓分层 5.建表5.1近源层建表5.2. 明细层建表为什么要构建时间维度表？如何构建时间维度表？ 5.3 轻聚层建表6. 指标数…

Sqoop数据导入到Hive表的最佳实践

将数据从关系型数据库导入到Hive表是大数据领域中的常见任务之一，Sqoop是一个强大的工具，可以帮助实现这一目标。本文将提供Sqoop数据导入到Hive表的最佳实践，包括详细的步骤、示例代码和最佳建议，以确保数据导入过程的高效性和可…

cdh6.3.2的hive配udf

背景大数据平台的租户要使用udf，他们用beeline连接， 意味着要通过hs2，但如果有多个hs2，各个hs2之间不能共享，需要先把文件传到hdfs，然后手动在各hs2上create function。之后就可以永久使用了，…

Sqoop与Kafka的集成：实时数据导入

将Sqoop与Kafka集成是实现实时数据导入和流处理的关键步骤之一。Sqoop用于将数据从关系型数据库导入到Hadoop生态系统中，而Kafka则用于数据流的传输和处理。本文将深入探讨如何使用Sqoop与Kafka集成，提供详细的步骤、示例代码和最佳实践，以确…

【大数据处理技术实践】期末考查题目：集群搭建、合并文件与数据统计可视化

集群搭建、合并文件与数据统计可视化实验目的任务一：任务二： 实验平台实验内容及步骤任务一：搭建具有3个DataNode节点的HDFS集群集群环境配置克隆的方式创建 Slave 节点修改主机名编辑 hosts 文件生成密钥免认证登录修改 hadoop 的配置文件编…

【大数据】YARN常用命令及Rest API

YARN 1.YARN常用命令 1.1 作业命令说明yarn application -list列出所有的applicationyarn application -list -appStates [ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED]根据application状态过滤yarn application -kill [applicationId]…

Windows下hive中insert语句报错

报错信息我的hadoop和hive版本都是3.0版本(建议hadoop3.x版本、hive2.x版本，我在使用中发现有些问题) [08S01][2] Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask解决过程 1.查看…

在windows环境下安装hadoop

Hadoop是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。但这个架构是基于java语言开发的，所以要先进行jdk的安装，如果电脑已经配置过jdk或者是曾经运行成功过java文件，那就可以跳过第一步。 …

Hadoop安装配置HBase

1、文件准备 http://archive.apache.org/dist/hbase/1.3.1/下载hbase-1.3.1-bin.tar.gz并上传到虚拟机/root目录下。 2、安装切换目录 [roothadoop00 ~]# cd /usr/local 新建文件夹 [roothadoop00 local]# mkdir hbase 解压文件 [roothadoop00 local]# tar zxvf /root/…

yarn集群HDFS datanode无法启动问题排查

一、问题场景 hdfs无法访问，通过jps命令查看进程，发现namenode启动成功，但是所有datanode都没有启动，重启集群（start-dfs.sh）后仍然一样二、原因分析先看下启动的日志有无报错。打开Hadoop的日志目录 …

ClickHouse(22)ClickHouse集成HDFS表引擎详细解析

文章目录 HDFS用法实施细节配置可选配置选项及其默认值的列表libhdfs3 支持的ClickHouse 额外的配置限制 Kerberos 支持虚拟列资料分享系列文章clickhouse系列文章知乎系列文章 HDFS 这个引擎提供了与Apache Hadoop生态系统的集成，允许通过ClickHouse管理HDFS上的…

大数据开发之SparkSQL

第 1 章：spark sql概述 1.1 什么是spark sql 1、spark sql是spark用于结构化数据处理的spark模块 1）半结构化数据（日志数据） 2）结构化数据（数据库数据） 1.2 为什么要有sparksql hive on s…

Hadoop3.x基础（1）

来源：B站尚硅谷这里写目录标题大数据概论大数据概念大数据特点(4V)大数据应用场景 Hadoop概述Hadoop是什么Hadoop发展历史（了解）Hadoop三大发行版本（了解）Hadoop优势（4高）Hadoop组成&#xf…

【004hive基础】hive的文件存储格式与压缩

文章目录一.hive的行式存储与列式存储二. 存储格式1. TEXTFILE2. ORC格式3. PARQUET格式 ing 三. Hive压缩格式1. mr支持的压缩格式:2. hive配置压缩的方式:2.1. 开启map端的压缩方式:2.2.开启reduce端的压缩方式: 四. hive中存储格式和压缩相结合五. hive主流存储格式性能对比…

Flink+hadoop部署及Demo

Hadoop集群高可用部署下载hadoop包地址 https://dlcdn.apache.org/hadoop/common/hadoop-3.2.4/hadoop-3.2.4.tar.gz 上传并解压到3台服务器配置3台主机的hosts和免密登录 1.修改.bash_profile vi .bash_profile # HADOOP_HOME export HADOOP_HOME/apps/svr/hadoop-3.2.…

掌握RDD算子

文章目录一、准备本地系统文件二、把文件上传到HDFS三、启动HDFS服务四、启动Spark服务五、启动Spark Shell六、映射算子案例任务1、将rdd1每个元素翻倍得到rdd2任务2、将rdd1每个元素平方得到rdd2任务3、利用映射算子打印菱形IDEA里创建项目实现七、过滤算子案例任务1、过滤…

共享单车之数据分析-统计共享单车每天的平均使用时间

第1关：统计共享单车每天的平均使用时间任务描述相关知识如何配置Hbase的MapReduce类如何使用Hbase的MapReduce进行数据分析编程要求测试说明任务描述本关任务：使用Hbase的MapReduce对已经存在 Hbase 的共享单车运行数据进行分析，统计共…

数据仓库选择Greenplum还是SQL-on-Hadoop

Greenplum和Hadoop都是为了解决大数据并行计算而出现的技术，二者的相似点在于： 分布式存储数据在多个节点上。采用分布式并行计算框架。支持向外扩展来提高整体的计算能力和存储容量。支持X86开放集群架构。但两种技术在数据存储和计算方法上&#xf…

Hadoop基础学习---4、HDFS写、读数据流程、NameNode和SecondaryNameNode、DataNode

1、HDFS写、读数据流程 1.1 HDFS写数据流程 1.1 剖析文件写入 1、客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 2、NameNode返回是否可以上传。 3、客户端请求第一个Block上传到哪几…

MapReduce【mapJoinreduceJoin】

ReduceJoin需求类似于MySQL的join操作，我们希望将两张表合并为一张表，即将order.txt的pid替换为pd.txt中pid对应的pname。输入 order.txt id pid amounts 1001 01 1 1002 02 2 1003 03 3 1004 01 4 1005 02 5 1006 03 6 pd.txt pid pname 0…

Hive ---- 查询

Hive ---- 查询 1. 基础语法2. 基本查询（Select…From）1. 数据准备2. 全表和特定列查询3. 列别名4. Limit语句5. Where语句6. 关系运算函数7. 逻辑运算函数8. 聚合函数 3. 分组1. Group By语句2. Having语句 4. Join语句1. 等值Join2. 表的别名3. 内连接…

3.2 掌握RDD算子

一、准备工作 （一）准备文件 1、准备本地系统文件 2、把文件上传到HDFS （二）启动Spark Shell 1、启动HDFS服务 2、启动Spark服务 3、启动Spark Shell 二、掌握转换算子 （一）映射算子 - map() …

【MapReduce源码分析】

MapReduce源码分析 Client任务提交源码分析MapTask源码分析ReduceTask源码分析 Client任务提交源码分析客户端通过 hadoop jar 的命令形式来提交这个 jar 运行 hadoop jar examples.jar WordCount /wc/input/ /wc/output/ hadoop 这shell脚本：如果参数是jar, clas…

当我们说hbase是宽表时,说的是什么.

当我们说hbase是宽表时,本质上是在说 1. schema_free的概念. 和mysql, hive 都不一样, 可以动态的插入列名和value. 这样可用于中台/平台的存储. 但是这样子以后, 想进行汇聚的时候又比较麻烦了, group by 哪列, 你是不知道的. 2. 另外一方面, 限于rowKey的约束, hbase 无法…

hbase数据离线备份与导入

ps：将数据导出到hdfs，再导出到本地。然后导入到新集群的hdfs，在导入到新集群的hbase。旧的集群导出数据到hdfs：./hbase org.apache.hadoop.hbase.mapreduce.Export testmove /move/testmove 旧的集群查看hdfs数据文件大小&#…

bigdata1234.cn 大数据开发基础课堂测试

数据容量单位： 1 byte 8 bits 1 kilobyte (KB) 1024 bytes 1 megabyte (MB) 1024 KB 1 gigabyte (GB) 1024 MB 1 terabyte (TB) 1024 GB 1 petabyte (PB) 1024 TB 1 exabyte (EB) 1024 PB 1 zettabyte (ZB) 1024 EB 1 yottabyte (YB) 1024 ZB . 当前大数据…

Apache Atlas高级搜索语法示例

from hive_table;hive_table from hive_table where name xxx or name yyy from hive_table where name ["xxx", "yyy"] from hive_table where name LIKE *_xxx hive_db where name like "???dm?*" hive_column where table.name …

Hive SQL题库（初级）

第一章环境准备 1.1 建表语句 hive> -- 创建学生表 DROP TABLE IF EXISTS student; create table if not exists student_info(stu_id string COMMENT 学生id,stu_name string COMMENT 学生姓名,birthday string COMMENT 出生日期,sex string COMMENT 性别 ) row format…

001 hive简介

一. hive概述 1. hive的产生背景 mapreduce程序大部分解决的问题是结构化数据，而解决结构化数据最佳方案是一条sql语句 hive出现的主要原因是解决mapreduce开发成本高的问题。但hive不能完全替代mr，只能处理mr中的结构化数据。 2. hive是什么 hive提…

2.项目数仓、项目工具

项目数仓数仓（Data Warehouse）是指用于存储和管理企业数据的一种大型数据库系统，以支持企业的决策分析活动。它采用了ETL（抽取、转化、加载）等技术来集成和清洗数据，并提供了灵活的查询和报表功能，使得分析师和决策者可以更好地理解企业的业务情况和趋势。项目工…

hadoop名称节点格式化失败分析及解决方法

执行名称节点格式化最下面有(ERROR)名称节点格式化失败分析原因： 每个人出错的原因是不一样的，在那一大坨里面，第一个ERROR就是你最初错误的地方，下面的ERROR都是因为那个最初的错误引发的(我是这个认为的)，所以我们…

MapReduce：Combiner与Shuffle阶段之Reducer输入

目录 Combiner Reducer的输入过程概述源码分析 ReduceTask总览数据抓取合并排序 Combiner 网络I/O会限制MR作业的数量，因此尽量避免mapper和reducer任务之间的数据传输是有利的。在之前Shuffle阶段之Mapper输入中可以看到，会调用两次Combine…

Hive学习---5、分区表和分桶表

1、分区表和分桶表 1.1 分区表 Hive中的分区就是把一张大表的数据按照业务需求分散的存储到多个目录，每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区，这样的查询效率会提高很多。 1.1.1 分区表基本语法 1、创建…

java 客户端操作HDFS

1、windows上部署hadoop包部署包win版本源码包zip包 lib整合：共121个jar包 $HADOOP_PREFIX/share/hadoop/{common,hdfs,mapreduce,yarn,tools}/{lib,.}*.jar 将windows版本hadoop/bin/hadoop.dll 放到c:/windows/system32下 2、windows环境变量配置 hadoop的…

kerberos配置dolphinscheduler

kerberos配置dolphinscheduler 一、添加dolphin 用戶1.所有節點上執行如下命令： 二、DolphinScheduler集群模式部署1.集群规划2.前置准备工作3.解压DolphinScheduler安装包4. 创建元数据库及用户5. 配置一键部署脚本6 初始化数据库7.修改common配置文件8. 一键部署D…

hadoop零碎知识点总结

系列文章目录 ubuntu虚拟机下搭建zookeeper集群，安装jdk压缩包，搭建Hadoop集群与spark集群的搭建虚拟机VMware里面安装Windows sever 2003版本详细教程_vmware安装win2003 centos7配置静态网络常见问题归纳_centos7网络问题文章目录系列文章目录…

数仓工具Hive 概述

Hive Hive简介Hive架构HiveSQL语法不同之处建表语句查询语句 Hive查看执行计划Hive文件格式 Hive简介 Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。通过Hive可以将mapred…

web访问hadoop无法进入文件夹

1、现象提示信息： Permission denied: userdr.who, accessREAD_EXECUTE, inode"/tmp":root:supergroup:drwxrwx— 2、原因 Permission denied 3、修改权限 Hadoop路径根据自己实际情况调整 /opt/module/hadoop-3.1.1/bin/hdfs dfs -chmod -R 777 /tmp4、…

Hadoop3.x基础（2）

来源：B站尚硅谷 HDFS概述 HDFS产出背景及定义 1）HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管…

大数据开发之电商数仓（hadoop、flume、hive、hdfs、zookeeper、kafka）

第 1 章：数据仓库 1.1 数据仓库概述 1.1.1 数据仓库概念 1、数据仓库概念： 为企业制定决策，提供数据支持的集合。通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本，提高产品质量。数据…

java大数据hadoop2.9.2 hive操作

1、创建常规数据库表 （1）创建表 create table t_stu2(id int,name string,hobby map<string,string> ) row format delimited fields terminated by , collection items terminated by - map keys terminated by :; （2）创…

hadoop 三种运行方式

一、本地运行方式 1 创建在hadoop-3.3.5文件下面创建一个wcinput文件夹 [antareshadoop1 hadoop-3.3.5]$ mkdir wcinput [antareshadoop1 hadoop-3.3.5]$ cd wcinput [antareshadoop1 wcinput]$ vim word.txt 内容可以随便写即可：（比如编写如下内容&…

HIVE的数据类型-整型

1、HIVE的数据类型-整型本次调试用到的hive数据类型： TINYINT — 微整型，1字节的有符号位整数-128-127。 SMALLINT– 小整型，2个字节的有符号整数，-32768-32767。 INT– 4个字节的带符号整数 BIGINT– 8字节的带符号整数 …

大数据开发之离线数仓项目（用户行为采集平台）（可面试使用）

第 1 章：数据仓库概念数据仓库，是为企业指定决策，提供数据支持的，可以帮助企业，改进业务流程、提高产品质量等。数据仓库的输入数据通常包括：业务数据、用户行为数据和爬虫数据等。业务数据&#xff1a…

Java技术栈 —— Hadoop入门（二）

Java技术栈 —— Hadoop入门（二） 一、用MapReduce对统计单词个数1.1 项目流程1.2 可能遇到的问题1.3 代码勘误1.4 总结一、用MapReduce对统计单词个数 1.1 项目流程 (1) 上传jar包。 (2) 上传words.txt文件。 (3) 用hadoop执行jar包的代码，…

安装配置hive

1、下载上传apache-hive-2.3.7-bin.tar.gz到虚拟机/root目录下或在虚拟机正常联网的情况下使用下面的wget命令下载文件。 [root@hadoop00 ~]# wget -c https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.7/apache-hive-2.3.7-bin.tar.gz [root@hadoop00 ~]# tar zx…

C#系列-C#访问hadoop API（9）

在C#中访问Hadoop通常涉及到与Hadoop分布式文件系统（HDFS）进行交互，以及可能执行MapReduce作业或其他Hadoop生态系统组件（如HBase或Hive）。虽然Hadoop原生是用Java编写的，但是可以通过一些库在C#中与Hadoop…

CentOS7搭建Hadoop集群

准备工作 1、准备三台虚拟机，参考：CentOS7集群环境搭建（3台）-CSDN博客 2、配置虚拟机之间免密登录，参考：CentOS7集群配置免密登录-CSDN博客 3、虚拟机分别安装jdk，参考：CentOS7集…

春晚刘谦魔术——约瑟夫环

昨晚，刘谦在春晚上表演了一个魔术，通过对四张撕成两半的纸牌连续操作，最终实现了纸牌的配对。这个魔术虽然原理不是很难，但是通过刘谦精湛的表演还是让这个魔术产生了不错的效果（虽然我感觉小尼的效果更不错&#xff…

hive load data未正确读取到日期

1.源数据CSV文件日期字段值： 2.hive DDL语句： CREATE EXTERNAL TABLE test.textfile_table1(id int COMMENT ????, name string COMMENT ??, gender string COMMENT ??, birthday date COMMENT ????,.......) ROW FORMAT SERDE org.apache.…

StarRocks案例7:使用shell批量broker load导入hdfs数据

文章目录一. 问题描述二. 解决方案一. 问题描述近期需要进行补录数据，需要将hive的历史数据迁移到StarRocks，因为需要补录的数据较多，hive和StarRocks均使用的是分区表，两边的日期格式也不同，hive这边是 yyyymmdd格…

【大数据之Hive】十七、Hive-HQL函数之自定义函数

1 概述当Hive提供的内置函数无法满足业务处理需求时，可以通过自定义UDF函数来扩展。用户自定义函数类别： （1）UDF（User-Defined-Function）：一进一出。 （2）UDAF&#xf…

【HDFS实战】HDFS联合（联邦）集群的发展史

HDFS联合集群的发展史文章目录 HDFS联合集群的发展史HDFS原始架构方案一 HDFS Federation方案二 ViewFs方案三 HDFS Router-based Federation常用命令常用配置RPC serverConnection to the NamenodesAdmin serverHTTP ServerState StoreRoutingNamenode monitoring 版本相关is…

Hadoop RPC通信

Remote Procedure Call(简称RPC)：远程过程调用协议 1. 通过网络从远程计算机程序上请求服务 2. 不需要了解底层网络技术的协议（假定某些传输协议的存在，如TCP或UDP） 3. 采用客户机/服务机模式请求程序就是一个客户机&#xf…

HIVE获取json字段特定值（单个json或者json数组）

1.获取单个json字符串里的某一特定值函数：get_json_object(单个json,‘$.要获取的字段’) 示例： 代码：SELECT get_json_object(‘{“NAME”:“张三”,“ID”:“1”}’,‘$.NAME’) as name; SELECT get_json_object(‘{“NAME”:“张三”…

《Spark篇》------ Spark基础

目录一、Spark简介 1.1、Spark是什么 1.2、Spark的特点 1.3、Spark生态系统 1.4、Spark Core的组件 1.5、Spark的安装流程 1.5.1、基础环境，安装Linux系统、Java环境和Hadoop环境 1.5.2、下载Spark文件并解压缩 1.5.3、编辑profile 1.5.4、Spark-shell运…

Hadoop部署伪分布式

伪分布式模式也是只需要一台机器，但是与本地模式的不同，伪分布式使用的是分布式的思想，具有完整的分布式文件存储和分布式计算的思想。只不过在进行存储和计算的时候涉及到的相关的守护进程都运行在同一台机器上，都是独立的Java进…

docker快速部署hue+hue集成hive

首先需要安装hive，hive的安装在HIVE的安装与配置_EEEurekaaa！的博客-CSDN博客安装完成之后，使用脚本命令启动hdfs和hive的相关服务。一、安装docker # 安装yum-config-manager配置工具 $ yum -y install yum-utils # 设置yum源 $ yum-co…

转行大数据该怎么学

大数据分析主要面向于离线计算。负责数据分析、报表统计等工作，重于数据价值的体现；数据的ETL调度，即E抽取、T转换、L加载，着重于离线数据的流转。虽然工作形式比较单一，但日常需求比较多，尤其是节假日的数…

Hive基础概论

HIVE 基础 Hive基础什么是Hive？为什么用Hive？Hive与Hadoop的关系Hive架构、组件组件用户接口元数据存储Driver驱动程序，包括语法解析器、计划编译器。优化器、执行器执行引擎数据模型Data ModelDataBase 数据库Tables 表Partitions 分区Buck…

hadoop_虚拟机linux环境部署全教程

hadoop_虚拟机linux环境部署： 一、网卡设置使用VMnet8虚拟网卡网段设置为：192.168.88.0网关设置为：192.168.88.2 二、安装Linux操作系统下载地址：https://vault.centos.org/7.6.1810/isos/x86_64/ 三、Linux系统配置修改…

MapReduce基础之：MapReduce过程中的排序

mapreduce为什么要排序是为了通过外排(外部排序)降低内存的使用量：因为reduce阶段需要分组，将key相同的放在一起进行规约，使用了两种算法：hashmap和sort，如果在reduce阶段sort排序(内部排序)，太消耗内存&…

Hadoop---10、生产调优手册

1、HDFS—核心参数 1.1 NameNode 内存生产配置 1、NameNode内存计算每个文件块大概占用150byte，一台服务器128G内存为例，能储存多少文件块呢？ 12810241024*1024/150Byte ≈ 9.1 亿 G M KB Byte 2、Hadoop2.x系列，配置 NameNode…

MapReduce【Shuffle-Combiner】

概述 Conbiner在MapReduce的Shuffle阶段起作用，它负责局部数据的聚合，我们可以看到，对于大数据量，如果没有Combiner，将会在磁盘上写入多个文件等待ReduceTask来拉取，但是如果有Combiner组件，我们…

Hive ---- 文件格式和压缩

Hive ---- 文件格式和压缩 1. Hadoop压缩概述2. Hive文件格式1. Text File2. ORC3. Parquet3. 压缩1. Hive表数据进行压缩2. 计算过程中使用压缩 1. Hadoop压缩概述为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器，如下表所示： Hadoo…

【大数据分析】Hbase的基本原理

目录 Hbase 架构ClientZooKeeperMasterRegionServerHRegionStoreMemStoreStoreFileHFileHLog Hbase数据模型关于数据模型的其他概念Name SpaceTableRowColumnTime StampCell Hbase 架构 Client （1）.META.表，记录了用户所有表拆分出来的 Regi…

hadoop本地化windows部署

文章目录前言1. hadoop on windows1.1 安装jdk1.2 安装hadoop1.2.1 解压1.2.2 备用目录1.2.3 修改配置1.2.4 安装winutils-master1.2.5 格式化namenode1.2.6 启动hadoop1.2.7 web-ui登陆hadoop hdfs 2. spark on windows2.1 安装scala2.2 安装spark2.2.1 解压2.2.2 环境变量2.…

2020年大数据学习路线指南

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段，处理的数据量通常是TB级，甚至是PB或EB级的数据，这是传统数据处理手段所无法完成的，其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等&a…

hive任务reduce步骤卡在99%原因及解决

我们在写sql的时候经常发现读取数据不多，但是代码运行时间异常长的情况，这通常是发生了数据倾斜现象。数据倾斜现象本质上是因为数据中的key分布不均匀，大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均…

大数据应用之Windows平台Hbase客户端Eclipse环境搭建-Java版

大数据的场景下，NoSql型数据库的优势不言而喻，但是涉及NoSQL数据库的实际动手开发的东西多是Linux平台，大多语焉不详，至于Windows平台介绍的东西就更少了，而且大多无法运行。本文就Windows平台基于Eclipse搭建Hbase环境…

Hadoop2.2内存调优

[b][colorgreen][sizelarge]今天散仙写了个MapReduce作业，目的是读数据库里面多个表的数据，然后在JAVA中根据具体的业务情况做过滤，并把符合数据的结果写入到HDFS上，在Eclipse里面提交作业进行调试的时候，发现在Reduce…

Hive和Hadoop关系

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成Ma…

非科班转行大数据开发--最详细的学习路线

大数据开发学习之路分为三个阶段主要是根据面试重点，分成阶段性学习。第一阶段：Java部分 Java基础、JVM、并发、数据库、缓存、设计模式、计算机网络、操作系统、Linux第二阶段：大数据框架 MapReduce、YARN、HDFS、HBase、Hive、Zookeeper…

小米基于 Flink 的实时数仓建设实践

摘要：本文整理自小米软件开发工程师周超，在 Flink Forward Asia 2022 平台建设专场的分享。本篇内容主要分为四个部分： 1. 小米数仓架构演变 2. FlinkIceberg 架构升级实践 3. 流批一体实时数仓探索 4. 未来展望 Tips：点击「阅读原…

Hadoop教程第一章之Hadoop简介

1. Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决，海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 2. Hadoop的三大发行版本 Apache版本最原始&#xff08…

HDFS写流程源码分析（一）-客户端

HDFS 写流程源码分析一、客户端（一）文件创建及Pipeline构建阶段（二）数据写入（三）输出流关闭二、NameNode端（一）create（二）addBlock 环境为hadoop 3.1.3 一、…

大数据学习（3）

大数据学习（3） 1 Hive-SQL-DML语句1.1 Hive SQL Load 加载数据语句1.1.1 Load功能1.1.2 Load语法规则1.1.3 Load 语法实验1.1.3.1 Load Data From Local FS1.1.3.2 Load Data From HDFS1.1.3.3 Overwrite选项 1.2 Hive SQL Insert 插入数据语句1.3 Hive …

ranger，hive，hdfs的三者的权限管理

ranger，hive，hdfs的三者的权限管理情况一：连接datagrip 用户在hdfs上的权限可以看出只给了用户write权限，尝试登录xwq用户，在datagrip上登录成功经过实验验证：要想使用datagrip或者hive-cli登录hive…

Flume入门监控端口数据官方案例

Flume安装部署相关地址 Flume官网地址：http://flume.apache.org/文档查看地址：http://flume.apache.org/FlumeUserGuide.html下载地址：http://archive.apache.org/dist/flume/ 安装将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/s…

### 4.1 Hadoop生态系统

狭义的Hadoop VS 广义的Hadoop 广义的Hadoop：指的是Hadoop生态系统，Hadoop生态系统是一个很庞大的概念，hadoop是其中最重要最基础的一个部分，生态系统中每一子系统只解决某一个特定的问题域（甚至可能更窄）…

初识Redis、Memcached

前言看到好多东西，都是自己不会的。这不，刷个微博，看到了关键字redis、memcached，这，是什么东西？ 正文这是个探索过程，记录下。这篇文章是介绍用途 — 为什么要使用redis？ 之…

大数据之Hadoop碰到的坑

大数据之Hadoop碰到的坑环境： hadoop2.7.4集群问题： 启动集群时出现如下问题： Serving checkpoints at http://Node1:50070 2018-01-21 07:12:28,734 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: Node2/202.96.6…

hadoop开发重点总结

1、Mapper的key排序方式默认为快速排序，合并切片文件时用的是归并排序，继承Mapper类* 驱动类关联map：job.setMapperClass(WordcountMapper.class);2、Reducer需要继承Reducer类，重写reduce(key, values, context)方法* 驱动类关联…

Hadoop HDFS的维护

HDFS 维护手册 (0.19.1) By云深作者：Terry 2009年3月转载请注明出处 1 HDFS概述 HDFS是Hadoop应用用到的一个最主要的分布式存储系统。一个HDFS集群主要由一个NameNode和很多个Datanode组成：Namenode管理文件系统的元数据，而D…

Linux自定义脚本整合

1、集群分发文件应用场景我们经常需要将新建的或者修改后的文件，循环复制文件到所有节点的相同目录下，一次一次执行scp命令显得并不那么友好。基础知识 （a）rsync命令原始拷贝： [rootbigdata801 hadoop-3.3.1]#…

HDFS 命令实操

在hdfs中创建文件夹：/itcast/itheima，如存在请删除（跳过回收站） 上传Linux文件系统中的/etc/hosts文件到hdfs的/itcast/itheima内查看hdfs中刚刚上传的文件内容向hdfs中上传的文件追加：itheima到最后一行下…

【实验2】在Hadoop平台上部署WordCount程序

文章目录实验内容一、实验环境：二、实验内容与步骤（过程及数据记录）：5. 分布式文件系统HDFS上的操作5.1 利用Shell命令与HDFS进行交互5.2 利用Web界面管理HDFS6. 分布式文件系统HDFS上的编程实践6.1 安装Eclipse6.2 创建Eclipse工程6.3 编写一个Java应用程序检测HDFS中是否…

Hadoop-Yarn-启动篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧 Index of /dist/hadoop/core 二、脚本部分 1、start-yarn.sh 如果我们想单独启动Yarn会用到$HADOOP_HOME/sbin/start-yarn.sh，下面我们就看看start…

Hive使用双重GroupBy解决数据倾斜问题

文章目录 1.数据准备2.双重group by实现解决数据倾斜2.1 第一层加盐group by2.2 第二层去盐group by 1.数据准备 create table wordcount(a string) row format delimited fields terminated by ‘,’; load data local inpath ‘opt/2.txt’ into table wordcount; hive (…

Hadoop-IDEA开发平台搭建

1.安装下载Hadoop文件 1）hadoop-3.3.5 将下载的文件保存到英文路径下，名称一定要短。否则容易出问题； 2）解压下载下来的文件，配置环境变量 3）我的电脑-属性-高级设置-环境变量 4.详细配置文件如下&#…

热数据存储在HDFS，冷备数据存储于对象存储中

1.场景分析生产环境均为腾讯云服务器，日志数据计划存储于HDFS中，由于日志数据较大（压缩后1T/天），不断扩充云盘成本消耗大。鉴于对象存储的存储成本较为低廉，但是日常频繁使用会产生流量费用。鉴于此&…

Hadoop3.x基础（4）- Yarn

来源：B站尚硅谷目录 Yarn资源调度器Yarn基础架构Yarn工作机制作业提交全过程Yarn调度器和调度算法先进先出调度器（FIFO）容量调度器（Capacity Scheduler）公平调度器（Fair Scheduler） Yarn常用命…

Shiro-11-web 介绍

配置将Shiro集成到任何web应用程序的最简单方法是在web.xml中配置一个Servlet ContextListener和过滤器，该Servlet了解如何读取Shiro的INI配置。 INI配置格式本身的大部分是在配置页面的INI部分中定义的，但是我们将在这里介绍一些额外的特定于web的部…

Hadoop-Yarn-调度器总结

一、Yarn有哪些调度器在cdh中Yarn组件中查看配置如下： 可以看到Yarn有三种调度器，分别是FairScheduler、FifoScheduler、CapacityScheduler，它们都是Hadoop的一个可插入调度器。 cdh默认的调度器是FairScheduler，hadoop默认的调…

Hadoop搭建（完全分布式）

节点分布： bigdata-masterbigdata-slave1bigdata-salve2 NameNode NodeManager NodeManager SecondaryNameNodeDataNodeDataNodeResourceManagerNodeManagerDataNode 目录一、jdk安装： 二、hadoop安装一、jdk安装： jdk-8u212链接&am…

java操作Hadoop

创建项目在Eclipse中创建名为HDFSFileIfExist的项目添加JAR包对着项目右键，增加一个额外的library 根据以下的图片添加一些jar lib下的所有jar文件操作代码创建一个类将HDFS下面那个文件打开，然后复制到类中上传test到hadoop 运行 HDFSFil…

HDFS block 块大小设置

寻址时间：HDFS中找到目标文件块（block）所需要的时间。原理： 文件块越大，寻址时间越短，但磁盘传输时间越长； 文件块越小，寻址时间越长，但磁盘传输时间越短。一为什…

大数据环境搭建(一)-Hadoop

1. 服务器环境准备 Linux镜像: centos7.9JDK: jdk1.8.0_212Hadoop: apache-hadoop-3.3.4 创建虚拟Linux服务器配置虚拟机，每台主机名与ip如下主机名ipbd-centos01192.168.159.101bd-centos02192.168.159.102bd-centos03192.168.159.103 修改网络配置文件&…

大数据 - Hadoop系列《四》- MapReduce（分布式计算引擎）的核心思想

上一篇： 大数据 - Hadoop系列《三》- MapReduce（分布式计算引擎）概述-CSDN博客目录 13.1 MapReduce实例进程 13.2 阶段组成 13.4 概述 13.4.1 🥙Map阶段（映射） 13.4.2 🥙Reduce阶段执行过…

Hadoop-MapReduce-源码跟读-MapTask阶段篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧 Index of /dist/hadoop/core 二、Mapper类我们先看下我们写的map所继承的Mapper类 public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {/*** 传递…

Servlet过滤器个监听器

过滤器和监听器过滤器什么是过滤器当浏览器向服务器发送请求的时候，过滤器可以将请求拦截下来，完成一些特殊的功能，比如：编码设置、权限校验、日志记录等。过滤器执行流程 Filter实例 package com.by.servlet;import jav…

2024-01-31（MapReduce，YARN）

1.MapReduce --- 分布式计算框架 MapReduce是分散--->汇总模式的分布式框架，可以供开发人员开发相关程序进行分布式数据计算 MapReduce提供了2个编程接口：Map接口，Reduce接口其中，Map接口提供了“分散”功能，由…

大数据 - Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进

目录 1.1 🐶Hadoop回顾 1.2 🐶spark简介 1.3 🐶Spark特性 1. 🥙通用性 2. 🥙简洁灵活 3. 🥙多语言 1.4 🐶Spark Core编程体验 1.4.1 spark开发工程搭建 1. 🥙开发语言选择&…

Hadoop3.x基础（2）- HDFS

来源：B站尚硅谷目录 HDFS概述HDFS产出背景及定义HDFS优缺点HDFS组成架构HDFS文件块大小（面试重点） HDFS的Shell操作（开发重点）基本语法命令大全常用命令实操准备工作上传下载HDFS直接操作 HDFS的API操作HDFS的API案例…

HDFS HA 之 HA 原理

1 ZKFC解析 HA(High Availability)是HDFS支持的一个重要特性，可以有效解决Active Namenode遇到故障时，将可用的Standby节点变成新的Active状态的问题，使集群能够正常工作。目前支持冷切换和热切换两种方式。冷切换通过手动触发，缺点是不能够及时恢复集群。实际生产中以应用…

大数据开发之离线数仓项目（3数仓数据同步策略）（可面试使用）

第 1 章：实时数仓同步数据实时数仓由flink源源不断从kafka当中读数据计算，所以不需要手动同步数据到实时数仓。第 2 章：离线数仓同步数据 2.1 用户行为数据同步 2.1.1 数据通道用户行为数据由flume从kafka直接同步到hdfs，…

解决hive表新增的字段查询为空null问题

Hive分区表新增字段，查询时数据为NULL的解决方案由于业务拓展，需要往hive分区表新增新的字段，hive版本为2点多。于是利用 alter table table_name add columns (col_name string )新增字段，然后向已存在分区中插入数据&#x…

（一）hadoop搭建之环境准备1

1.参考http://www.fogsvc.com/97.html文档设置三台虚拟机并固定ip 192.168.1.10 hadoop-master 192.168.1.11 hadoop-slave1 192.168.1.12 hadoop-slave2 2.配置hosts vi /etc/hosts 添加内容 192.168.1.10 hadoop-master 192.168.1.11 hadoop-slave1 192.1…

Hadoop：HDFS学习巩固——基础习题及编程实战

一 HDFS 选择题 1.对HDFS通信协议的理解错误的是？ A.客户端与数据节点的交互是通过RPC（Remote Procedure Call）来实现的 B.HDFS通信协议都是构建在IoT协议基础之上的 C.名称节点和数据节点之间则使用数据节点协议进行交互 D.客户端通过一…

数仓建模维度建模理论知识

0. 思维导图第 1 章数据仓库概述 1.1 数据仓库概述数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据，借助数据仓库的分析能力，企业可从数据中获得宝贵的信息进而改进决策。同时，随着时间的…

大数据环境搭建(一)-Hive

1 hive介绍由Facebook开源的,用于解决海量结构化日志的数据统计的项目本质上是将HQL转化为MapReduce、Tez、Spark等程序 Hive表的数据是HDFS上的目录和文件 Hive元数据 metastore，包含Hive表的数据库、表名、列、分区、表类型、表所在目录等。根据Hive部署模…

HDFS 之数据管理(namespace 和 slaves)

1、namespace Namespace在HDFS中是一个非常重要的概念，也是有效管理数据的方法。Namespace有很多优点：可伸缩性。使HDFS集群存储能力可以轻松进行水平拓展；系统性能。单点性能受限，影响系统吞吐；隔离性。不同业务类型访问集群有时容易互相干扰，使用多Namespace可以有效管…

1.0 Hadoop 教程

Hadoop 是一个开源的分布式计算和存储框架，由 Apache 基金会开发和维护。 Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集，并且支持在单台计算机到几千台计…

2.0 Hadoop 运行环境

由于 Hadoop 是为集群设计的软件，所以我们在学习它的使用时难免会遇到在多台计算机上配置 Hadoop 的情况，这对于学习者来说会制造诸多障碍，主要有两个： 昂贵的计算机集群。多计算机构成的集群环境需要昂贵的硬件.难以部署和维护。…

3.0 Hadoop 概念

本章着重介绍 Hadoop 中的概念和组成部分，属于理论章节。如果你比较着急可以跳过。但作者不建议跳过，因为它与后面的章节息息相关。 Hadoop 整体设计 Hadoop 框架是用于计算机集群大数据处理的框架，所以它必须是一个可以部署在多台计算机上…

2024-02-04（hive）

1.Hive中的分区表可以选择字段作为表分区。分区其实就是HDFS上的不同文件夹。分区表可以极大的提高特定场景下Hive的操作性能。 2.分区语法 create table tablename(...) partitioned by (分区列列类型, ...) row format delimited fields terminated by ; 3.Hive中的…

Hadoop-Yarn-ResourceManagerHA

在这里先给屏幕面前的你送上祝福，祝你在未来一年：技术步步高升、薪资节节攀升，身体健健康康，家庭和和美美。一、介绍在Hadoop2.4之前，ResourceManager是YARN集群中的单点故障 ResourceManager HA是通过 Active/St…

HDFS的超级用户

一. 解释原因 HDFS(Hadoop Distributed File System)和linux文件系统管理一样，也是存在权限控制的。但是很不一样的是， 在Linux文件系统中，超级用户Superuser是root而在HDFS中，超级用户Superuser是启动了namenode的用户&#x…

hive表加字段

目录 1.给表添加字段2.为什么使用cascade3.使用场景 1.给表添加字段 alter table database.tablename add columns(字段名字段类型 comment 字段中文含义) cascade;2.为什么使用cascade 在Hive中，当你想要修改表结构，例如添加字段时，可能会…

Hadoop-生产调优

第1章 HDFS-核心参数 1.1 NameNode内存生产配置 1）NameNode 内存计算每个文件块大概占用 150 byte，一台服务器 128G 内存为例，能存储多少文件块呢？ 128 * 1024 * 1024 * 1024 / 150byte ≈ 9.1 亿G MB KB Byte 2&#xff09…

彷徨 | Hadoop各配置文件的配置及其作用

目录 1 . slaves 2 . core-site.xml 3 . hdfs-site.xml 4 . mapred-site.xml:（注意要将mapred-site.xml.template重命名为 .xml的文件） 5.Yarn-Site.xml 6 . hadoop-env.sh 1 . slaves 把所有从节点的主机名写到这儿就可以，这是告诉ha…

离线分析fsimage文件进行数据深度分析

以离线分析FsImage文件进行数据深度分析整个方案的基本架构： FsImage文件时HDFS存放在NameNode中的镜像文件，里面包括了整个HDFS集群的目录和文件信息，(类似于一个索引目录部分数据的文件)，而且HDFS提供了命令可以将FsImage文件…

Linux下安装配置hadoop图文教程（完整版）

安装Hadoop步骤第一步：获取Hadoop安装路径命令：pwd #获取路径第二步：打开/etc/profile文件命令：vi /etc/profile #打开profile文件第三步：在文件末尾添加Hadoop路径（保存后退出） ##HADO…

Hadoop2.7.1配置NameNode+ResourceManager高可用原理分析

[sizemedium] 关于NameNode高可靠需要配置的文件有core-site.xml和hdfs-site.xml 关于ResourceManager高可靠需要配置的文件有yarn-site.xml逻辑结构：[img]http://dl2.iteye.com/upload/attachment/0113/0183/068b6538-174b-394a-818f-da4ca3e87e9e.png[/img]NameNo…

ElasticSearch入门之彼行我释（四）

散仙在上篇文章中，介绍了关于ElasticSearch基本的增删改查的基本粒子，本篇呢，我们来学下稍微高级一点的知识： （1）如何在ElasticSearch中批量提交索引 ？ （2）如何使用高…

零基础入门大数据之spark中rdd部分算子详解

零基础入门大数据之spark中rdd部分算子详解先前文章介绍过一些spark相关知识，本文继续补充一些基础算子，主要包括： 1. parallelize 2. aggregate 3. cache 4. cartesian 5. distinct 6. filter 7. keyBy 我们知道，spark中一…

Java大数据开发：Hadoop-HDFS

在刚开始的学习中，曾经介绍过，hadoop组成部分包含HDFS，MapReduce,下面我们就来看一下HDFS吧。 HDFS概念 1.1 概念 HDFS，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次&#xff0…

大数据平台Hadoop的分布式集群环境搭建

1 概述本文章介绍大数据平台Hadoop的分布式环境搭建、以下为Hadoop节点的部署图，将NameNode部署在master1，SecondaryNameNode部署在master2，slave1、slave2、slave3中分别部署一个DataNode节点 NNNameNode（名称节点）…

myeclipse中建web项目上传文件到hadoop，出现文件上传上去了，但是文件大小为0或小于当前文件解决方案

request.setCharacterEncoding("UTF-8");Long start System.currentTimeMillis();try {if (ServletFileUpload.isMultipartContent(request)) {DiskFileItemFactory dff new DiskFileItemFactory();// 创建该对象dff.setRepository(tmpDir);// 指定上传文件的临时目…

快手万亿级实时OLAP平台的建设与实践

【提醒：公众号推送规则变了，如果您想及时收到推送，麻烦右下角点个在看，或者把本号置顶】正文开始12 月 7-8 日在北京举办的 ArchSummit 全球架构师峰会上，快手科技大数据平台架构师李远策分享了快手在 OLAP 平台的建设…

国内Hadoop应用现状

Hadoop在国内主要以互联网公司为主，下面主要介绍大规模使用Hadoop或研究Hadoop的公司。 1. 百度百度在2006年就关注了Hadoop并开始调研和使用，截止2012年，总的集群规模超过7个集群，单集群超过2800台机器节点，Hadoop机…

[初学hadoop]错误信息：hdfs://192.168.0.16:9000/report.bak, expected: file:///

在本地运行hadoop Map/Reduce程序时，在涉及到hdfs文件操作的时候，往往会出现上面提到的错误，例如，下面这段代码： 1 Path clear_path new Path(args[1]); 2 FileSystem fs FileSystem.get(conf); 3 fs.delete(clear_p…

Hadoop入门介绍

Hadoop这个名字不是一个缩写，它是一个虚构的名字。该项目的创建者，Doug Cutting如此解释Hadoop的得名："这个名字是我孩子给一个棕黄色的大象样子的填充玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多…

Hadoop cdh版本搭建

1 概述本文是针对LinuxCentos7服务器与CDH5.11的安装手册。 1.2 关于CDH和ClouderaManager CDH(Clouderas Distribution, includingApache Hadoop)，是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建&#xff0c…

关于docker in docker的利用

首先判断是否为docker环境，是否存在docker.sock文件,以及判断docker命令是否能够使用来打印主机信息 docker -H unix:///host/var/run/docker.sock info反弹shell的环境下无法进入容器终端，无法使用-it进入容器内部启动一个新的容器，虚拟机…

HDFS文件查改增删及上传下载

1. 文件查改增删 1.1 查看文件 # 查看某目录下的文件 hadoop fs -ls <path># 显示文件大小 hadoop fs -du -h <path> # 显示文件大小，s代表显示只显示总计(列出最后的和)。 hadoop fs -du -s -h <path># 输出文件内容 hadoop fs -cat <path…

【PostgreSQL技术大会上的Greenplum】Greenplum中的多阶段聚集实现

了解更多Greenplum相关内容，欢迎访问Greenplum中文社区网站 1月15日，第十届PostgreSQL中国技术大会在广州成功举行，Greenplum团队一直紧密拥抱PostgreSQL社区，积极参与PostgreSQL社区举办的各类活动。本次大会也不乏Greenplum原厂…

vm虚拟机centos6 弹出界面 eth0: 设备 eth0 似乎不存在, 初始化操作将被延迟

参考：https://www.612459.com/news/?2533.html

MR的shuffle和Spark的shuffle的区别

MR的shuffle和Spark的shuffle的区别MR的shuffle一、mapShuffle二、reduceShuffleSpark的shuffle什么是Spark Shuffle？一、HashShuffle二、合并机制的 hash shuffle三、SortShuffle 普通机制四、SortShuffle 的 byPass 机制总结shuffle 指的是数据从 map task 输出到…

Spark基础之：rdd的特性，DAG，Stage的理解

rdd的特性，DAG，Stage的理解RDD结构化理解RDD的数据集与PartitionsPartitionerDependencies与LineageNarrowDependency与ShuffleDependency为什么区分窄依赖和宽依赖？StageCheckpointIterator和ComputeStorageLevelPreferredLocationSparkcont…

夜行高新园

话说高新园深夜,高楼大厦山谷中行走着一个人其腿穿牛仔裤,脚着360运动鞋,上身黑色夹克,腰露出些里面的白色寸衣,白色寸衣领子一层灰漆漆地.挎者V字头的挎包.急行在寒风月黑之夜.在公交站台附近一群POLICE把他给拦住了一名警察要求检查身份证看看了身份证说"什么地干…

关于Hive的授权研究

关于Hive的授权研究因为最近在学习hive的相关知识，就把最近看的一些资料总结了一下，使用的hive是3.1.2版本，应该是比较新的，所以如果文章有不对的地方，希望大佬指正。 Hive的权限控制简介： Hive的真实…

Hive基础之：Order By、Sort By、distribute by 、cluster by的区别

Order By order by 排序出来的数据是全局有序的，在hive mr引擎中将会只有1个reduce Sort By sort by 排序出来的数据是局部有序的，但是全局无序。即partition内部是有序的，但是partition与partition之间的数据是没有顺序关系的 distrib…

HIVE的安装及基础操作

前提：成功搭建Hadoop集群实验要求：搭建基本hive运行平台，并初步了解HIVE shell的基本操作命令 MySQL版本：mysql-5.7.16-1.el7.x86_64.rpm-bundle.tar Hive版本：apache-hive-1.2.2-bin.tar.gz 链接: https://pan.baid…

CentOS7搭建基础Hadoop集群

1.基础环境实验环境： 版本主机名IP角色CentOS7.0hadoop1192.168.183.160masterCentOS7.0hadoop2192.168.183.162novaCentOS7.0hadoop3192.168.183.163nova JDK版本：jdk-7u79-linux-x64.tar.gz Hadoop版本：hadoop-2.8.3.tar.gz 链接: https…

Google架构学习

原文：[urlhttp://www.highscalability.com/google-architecture]Google Architecture[/url]Google是伸缩性的王者。Google一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。[b]平台[/b] Linux 大量语言：Python，Java，…

Hadoop中的IP:50070无法连接

搭建完Hadoop分布式安装后，使用IP:50070显示无法连接，这是因为使用Hadoop3.0以上版本安装时，它的默认端口已经更改为9870，可以使用netstat -ant查看端口是否开启检查是否成功关闭防火墙和Selinux ##检查防火墙是否关闭 systemc…

从数据仓库到大数据，数据平台这25年是怎样进化的？

数据产品&数据分析总监，2000年开始从事数据领域，从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业。我是从2000年开始接触数据仓库，大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同…

如何成为一名大数据开发工程师，工作经验总结

如何成为一名大数据开发工程师，工作经验总结原画心旗 2019-11-06 13:35:22 首先，我个人进入大数据行业也纯属偶然，当年实习的时候做的是纯纯的Java开发，后来正式毕业了以后找了份Java开发的工作，本以为和大多数Java…

大数据都有哪些技术，怎么分析？

大数据常用的分析方法 1.可视化分析大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，同时能够非常容易被读者所接受&…

Hadoop-Yarn-NodeManager都做了什么

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧 Index of /dist/hadoop/core 二、上下文在我的<Hadoop-Yarn-启动篇>博客中已经简要的分析了NodeManager的启动过程，NodeManager是管理整个集…

2024-02-01(Hive)

1.我们通过忘Hive中执行SQL语句，Hive会帮我们将SQL语句翻译成MapReduce在底层去做分布式的计算。 2.Hive看似处理的是mysql的表，但实际上处理的是HDFS中的文本文件。 3.Hive中创建的库和表的数据，存储在HDFS中，默认存放在&#…

Hive 最全面试题及答案(基础篇)

基本知识 hive元数据存储 Hive 元数据存储了关于表、分区、列、分桶等信息。在生产环境中，通常会将 Hive 的元数据存储在外部的关系型数据库中，如 MySQL 或 PostgreSQL。这样可以提供更好的性能、可扩展性和容错性。通过配置 Hive 的元数据存储为 MySQL 或 PostgreSQL，可以…

解析Hadoop三大核心组件：HDFS、MapReduce和YARN

目录 HadoopHadoop的优势 Hadoop的组成HDFS架构设计Yarn架构设计MapReduce架构设计总结在大数据时代，Hadoop作为一种开源的分布式计算框架，已经成为处理大规模数据的首选工具。它采用了分布式存储和计算的方式，能够高效地处理海量数据。Had…

Hive入门，Hive是什么？

1.1Hive是什么？ Hive是一个开源的数据仓库工具，主要用于处理大规模数据集。它是建立在Hadoop生态系统之上的，利用Hadoop的分布式存储和计算能力来处理和分析数据。 Hive的本质是一个数据仓库基础设施，它提供了一种类似于SQL的查询…

Hive UDF

当Hive提供的内置函数不能满足查询需求时，用户可以根据自己业务编写自定义函数（User Defined Functions, UDF), 然后在HiveQL中调用。例如有这样一个需求：为了保护用户隐私，当查询数据的时候，需要将用户手机号的中间…

测试环境搭建整套大数据系统（六：搭建sqoop）

一：下载安装包 https://archive.apache.org/dist/sqoop/ 二：解压修改配置。 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /opt cd /opt mv sqoop-1.4.7.bin__hadoop-2.6.0/ sqoop-1.4.7修改环境变量 vi /etc/profile#SQOOP_HOME export SQOOP_…

Timeline Rest API之Tez

文章目录 Timeline Rest API与 TEZ通过appId反向获取 queryId 和 sql等信息获取dag_id获取sql Timeline Rest API与 TEZ 通过appId反向获取 queryId 和 sql等信息可以通过timeline Rest API获取使用tez引擎的application的一些信息获取dag_id /ws/v1/timeline/TEZ_DAG_ID…

记一次 Flink 作业启动缓慢

记一次 Flink 作业启动缓慢背景应用发现，Hadoop集群的hdfs较之前更加缓慢，且离线ELT任务也以前晚半个多小时才能跑完。此前一直没有找到突破口所以没有管他，推测应该重启一下Hadoop集群就可以了。今天突然要重启一个Flink作业&#xff0c…

hadoop FileSystem是否要close

先来说结论，最好不要close，让hadoop自己close，否则容易把进程里其他获取fs的地方一起关了。这是因为 FileSystem.get(Configuration)做了缓存的原因。当然可以设置 conf.setBoolean("fs.hdfs.impl.disable.cache", true); 就不缓存…

Hadoop proxy user

如何理解Proxy user(包括proxy、impersonation和常见的Proxy use case) 官方文档的一些configurations及相应解释帮助理解的两个博客： hadoop的用户代理机制 HDFS-- Hadoop中的ProxyUser 有了上面的前置知识，接下来，我们开始理解下面这段话…

【MapReduce】03.MapReduce框架原理

1.InputFormat数据输入 1.1.切片与MapTask并行度决定机制 MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。 MapTask并行度决定机制数据块：Block是HDFS物理上的数据分割，数据块是HDFS存储数据单位数据切片&…

Hive的UDF开发之向量化表达式（VectorizedExpressions）

1. 背景笔者的大数据平台XSailboat的SailWorks模块包含离线分析功能。离线分析的后台实现，包含调度引擎、执行引擎、计算引擎和存储引擎。计算和存储引擎由Hive提供，调度引擎和执行引擎由我们自己实现。调度引擎根据DAG图和调度计划，安排执…

Hadoop教程：Hadoop HA配置以及自动主从切换（使用QJM的方法）异常处理方法

HA简介在hadoop 2.0之前，hadoop 的集群都是单个namenode 节点，这样，一旦任意一个namenode 挂掉。都会导致该集群废掉。硬件前提 JournalNode machines - 由于JournalNode 是很轻量级的, 所以这个程序一般和其他的程序一起运行, 例如Name…

Hadoop的log4j审计日志文件

自定义修改hadoop/conf/log4j.properties hdfs审计日志(Auditlog)记录了用户针对hdfs的所有操作，详细信息包括操作成功与否、用户名称、客户机地址、操作命令、操作的目录等。对于用户的每一个操作，namenode都会将这些信息以key-value对的形式组织成固定…

ClickHouse企业应用实战(2)

本文主要讲解 ClickHouse 的一些典型分析应用案例，重点就是告诉，一些大厂在做技术选型的时候，也就是因为 ClickHouse 的这些特点才使用的。下面主要内容大致如下： 分组前几函数 TopK 窗口分析函数同比环比漏斗分析 windowF…

Hive获取连续时间用 posexplode

获取连续的日期假如我们需要获取2020-07-15至2020-07-21间所有的日期，可以像这样写 SELECTpos,date_add( start_date, pos ) dd FROM( SELECT 2020-07-15 AS start_date, 2020-07-21 AS end_date ) temp lateral VIEW posexplode ( split ( space( datediff( end_date, sta…

hbase region split 源码分析

再次吐槽公司的sb环境，不让上网不能插优盘，今天有事回家写一下笔记HBase region split 在管理集群时，最容易导致hbase节点发生故障的恐怕就是hbase region split和compact的了，日志有split时间太长；文件找不到&#xf…

Hadoop学习篇(一)——Hadoop分布式配置

上次总结中，我们介绍了实验环境，并总结了Hadoop的基础知识。本次学习承接上次学习内容继续。上篇文章链接：Hadoop学习篇(一)——初识Hadoop & Hadoop单机配置 Hadoop学习篇(一) 说明：如涉及到侵权，请及时联系…

【活动推荐】TDengine如何高效处理运维监控系统的海量数据？

2021 Gdevops全球敏捷运维峰会 - 广州站，将在5月28日盛大举办。Gdevops经过创办6年成功举行近20场大会的经验积淀，本次峰会结合行业趋势与技术热点，精选出最能破解当下运维、数据库、金融科技领域核心痛难点的干货议题，涛思数据创…

Hadoop三部曲搞起~

该文章已更新到语雀中，后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料(密码每周更新一次) 入门大数据，通常先从Hadoop学习。通过本文可以学习到以下几点： Hadoop基本特性 HDFS读流程 HDFS写流程 HDFS追加流程 HDFS数…

【课程作业-大数据实践】虚拟机环境配置和hadoop2.7.1+Ubuntukylin-16.04安装

老规矩，上笔记之前先放资料及目录上面这两本是老师给出的官方参照，第二本是教材，第一本是实验手册，步骤比较详细。上面是老师提供的一些参考书，下面是一些有关的软件。不得不说老师真的用心。说明一下，…

Hadoop技术在商业智能BI中的应用

Hadoop是个很流行的分布式计算解决方案，是Apache的一个开源项目名称，核心部分包括HDFS及MapReduce。其中，HDFS是分布式文件系统，MapReduce是分布式计算引擎。时至今日，Hadoop在技术上已经得到验证、认可甚至到了成熟期…

软件工程部署图_部署图| 软件工程

软件工程部署图什么是部署图？ (What is Deployment Diagram?) A deployment diagram is a UML diagram type of the system that represents the execution architecture of the components of a system of the objects, including nodes or modes such as hardwar…

HDFS权限问题

背景之前的工作中使用Hive一直都是用的内表，对于外表一直都没有正经研究过，最近偶尔使用了一次，就整出了不小的麻烦，而且发现是跟HDFS权限有关，然而就发现关于HDFS的权限问题理解的还是太少了，所以把问题整…

笔记：新手的Hive指南

前言算是对在滴滴实习的这段时间Hive的笔记吧，回学校也有段时间了，应该整理整理了，肯定不会巨细无遗，作为一种学习记录或者入门指南吧基础 SQL基本语法Python基础语法(HiveStreaming会用到)Java基础语法(写UDF会用到)Hadoop基础…

Hadoop概论浅学

Hadoop生态圈可以把hadoop想象成一个很大的生态圈(本来就是)，或者说想象成一个动物园吧，之后的东西就比较好理解了。(我也不知道为啥python的教程一般都是动物做封面，难道已经暗喻加入了动物园生态圈了？) HDFS HDFS（H…

数据平台权限控制-基于猛犸

设置多项目： 专注本项目的逻辑和代码，不在本项目内的人员无法查看代码逻辑，但是可查询表每张表的存储路径如下 hdfs://cluster1/user/jmkx_data/hive_db/jmkx_data.db/ods_plm_newbudget_budgetcostreport_dd 在hive查询两种方式都可以 …

猛犸优化Summary

同层次的任务最多默认只能启动10个，十个席位空闲出来才能有新的任务执行设置并发在40 设置并运行每次执行时有效编辑调度，每次任务到时触发可用抽数任务优化数值类型并发 ,最好有索引

SparkShell操作Hudi

使用环境 cdh 6.3.2 spark 2.4.0 hudi 0.9 使用sparkShell连接hudi /opt/cloudera/parcels/CDH/lib/spark/bin/spark-shell \ --jars ./hudi-spark-bundle_2.11-0.9.0.jar \ --conf spark.serializer=org.apache.spark.serializer.KryoSerializer 创建表 import org.a…

Scala中的for循环遍历和yield详解

K-V对的RDD遍历 val hashpartitionCounts: RDD[(String, Int)] = kvpartitionRDD.reduceByKey((x, y) => x + y)hashpartitionCounts.foreach{ line=>println("word="+line._1+" ,num="+line._2) } //下面的for和上面的一样结果 for (i <- hashp…

Spark在本地环境进行yarn模式的提交

一般来说，spark on yarn是将spark程序的jar包上传至服务器，然后通过spark-submit的方式。但是，相信很多人不是一次性就能写没有bug的spark代码，都有反复调试的需求，那么，上述方式的调试效率就很低了&…

Spark连接Hive，进行Hive数据表的读写操作

基础环境 Hadoop安装-1，hadoop安装-2spark安装Hive安装配置将Hive的conf目录下的hive-site-xml文件拷贝到spark的conf目录下；将Hive中的mysql驱动包（mysql-connector-java-8.0.22.jar，根据自己mysql的版本进行选择&#xff0…

【超详细】HIVE 日期函数（当前日期、时间戳转换、前一天日期等）

文章目录相关文献常量：当前日期、时间戳前一天日期、后一天日期获取日期中的年、季度、月、周、日、小时、分、秒等时间戳转换时间戳 to 日期日期 to 时间戳日期之间月、天数差作者：小猪快跑基础数学&计算数学，从事优化领域5年&#…

Hive--删除数据库

一、删除数据库注意：Hive 与 MySQL 再删除数据库时是有一点不一样的。 Hive再删除数据库操作时，要保证该库下没有任何数据表！ 删除一个空数据库，如果数据库下面有数据表，那么就会报错 drop database…

启动spark-shell时报错java.lang.NumberFormatException: For input string: “0x100“

一、问题描述安装完Spark后，启动spark shell时报错 java.lang.NumberFormatException: For input string: "0x100" 如下图： 二、解决办法 1.更换scala的版本 2.更改环境变量使用vim编辑器打开用户的环境变量配置文件 vim ~/.bashrc s…

WPF 附加属性+控件模板，完成自定义控件。建议观看HandyControl源码

文章目录相关连接前言需要实现的效果附加属性添加附加属性，以Test修改FontSize为例依赖属性使用触发器使用直接操控结论控件模板，在HandyControl的基础上面进行修改参考HandyControl的源码控件模板原型控件模板结论相关连接 WPF控件模板(6) WPF 附加…

关于大数据学习之hadoop的安装

前部安装提示： 建议先将电脑中基础内容进行清洁，维持基础的极简主义， 通过这样的方式可以快速帮助我们完成软件的安装，同时也是符合计算机的基础网络结构， 什么是hadoop？ 处理大数据的分布式存储和计算框…

JavaWeb Servlet详解

Servlet（Server Applet）服务器小程序，主要功能用于生成动态Web内容，Servlet就是一个接口，定义了Java类被浏览器访问到(Tomcat识别)的规则。快速入门创建Web项目，导入Servlet依赖坐标。 <dependency&…

Ubuntu进入python时报错：找不到命令 “python”，“python3” 命令来自 Debian 软件包 python3

一、错误描述二、解决办法进入”/usr/bin”目录下，查看/usr/bin目录中所有与python相关的文件和链接： cd /usr/bin ls -l | grep python 可以看到Python3指向的是Python3.10，而并无指向python3的软连接只需要在python与python3之间手动…

Ubuntu22.04下在Spark2.4.0中采用Local模式配置并启动pyspark

目录一、前言二、版本信息三、配置相关文件 1.修改spark-env.sh文件 2.修改.bashrc文件四、安装Python3.5.2并更改默认Python版本 1.查看当前默认Python版本 2.安装Python3.5.2 2.1 下载Python源码 2.2 解压源码 2.3 配置安装路径 2.4 编译和安装 2.5 验证安装…

【数仓】zookeeper软件安装及集群配置

相关文章【数仓】基本概念、知识普及、核心技术【数仓】数据分层概念以及相关逻辑【数仓】Hadoop软件安装及使用（集群配置）【数仓】Hadoop集群配置常用参数说明一、环境准备准备3台虚拟机 Hadoop131：192.168.56.131Hadoop132&#xff…

创建hadoop集群

分布式hadoop集群分布服务器功能规划 node-1：namenode,datanode,nodemanager,historyserver node-2：resourcemanage,datanode,nodemanager node-3：datanode，nodemanager，secondarynamenode #在node-1上 $ bin/hdfs …

大数据开发（Hadoop面试真题-卷一）

大数据开发（Hadoop面试真题） 1、请解释以下Hadoop中NameNode和DataNode的作用。2、如何在Hadoop集群中实现数据的排序？3、请解释以下Hadoop MapReduce的工作原理？4、请解释一下MapReduce模型中Map和Reduce阶段各自的作用&#xff…

【数仓】Hadoop集群配置常用参数说明

Hadoop集群中，需要配置的文件主要包括四个配置核心Hadoop参数： 编辑core-site.xml文件，设置Hadoop集群的基本参数，如文件系统、Hadoop临时目录等。配置HDFS参数： 编辑hdfs-site.xml文件，设置HDFS的相关参…

大数据开发-Hadoop伪集群搭建

大数据开发-Hadoop伪集群搭建文章目录大数据开发-Hadoop伪集群搭建环境下载地址虚拟机环境修改(CentOs7)Java以及Hadoop安装启动Hadoop集群启动Hadoop集群环境下载地址 Hadoop下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-3.2.0/ Jdk下载地…

事实表的三种类型设计

事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计，通过获取描述业务过程的度量来表达业务过程，包含了引用的维度和与业务过程有关的度量。 1、三种事实表概述事实表有三种类型 : 事务事实表、周期快照事实表和累积快照事实表。…

hadoop MultipleOutputs规定多文件名

在map或reduce中 1.初始化在configure或setup方法中 MultipleOutputs.addMultiNamedOutput(conf, "prefix", TextOutputFormat.class, Text.class, Text.class); multipleOutputs new MultipleOutputs(conf); 2.在mapper或reducer中 OutputCollector<NullWritabl…

基于hadoop的推荐算法-mahout版

基于hadoop的推荐算法，讲其中mahout实现的基于项目的推荐算法分为4步： 1.获得人-物用户矩阵输入为所有人对物品的评价或关联 map端输出key为人，value为物品倾好度 reeduce端输出key为人，vallue为多个物品倾好度 2.获得物-物项…

Maven搭建hadoop环境报Missing artifact jdk.tools:jdk.tools:jar:1.6

转http://blog.csdn.net/honglei915/article/details/38087959 Maven引入Hadoop依赖报错：Missing artifact jdk.tools:jdk.tools:jar:1.6 [html] view plaincopy<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>…

Hive处理掉数据中/n/t

regexp_replace(需要处理的字段名称,\\n|\\r|\\t,) as 重新命名

Hive中的grouping set，cube，roll up

GROUPING SETS GROUPING SETS作为GROUP BY的子句，允许开发人员在GROUP BY语句后面指定多个统计选项，可以简单理解为多条group by语句通过union all把查询结果聚合起来结合起来，下面是几个实例可以帮助我们了解， 以acorn_3g.test…

hadoop配置文件笔记

mapred-site.xml namevalueDescriptionmapred.tasktracker.tasks.maximum2tasktraceker给每个job同时运行的槽数，经常与mapred.tasktracker.map.tasks.maximum搞混。用于balance。x0.95*node*y hadoop.job.history.location job历史文件保存路径，无可配置…

Hive的analyze

1、使用分区表，无论字段 analyze TABLE td.pt_pmart_ceo_FIN_TRSF_CTR_SITE_MAP partition (dt) COMPUTE STATISTICS noscan ps：一致报错的可能性在UDF函数建在了某个库下，只有在hue上的active database选择某个库的时候才能用UDF 2、目的见名知意，它的目的就是为…

Hive的partition问题

查看分区 show partitions td.pt_pmart_kk_SHIPMENT_SETL_ACCOUNT_BILL hdfs文件按日拉过来了，但是没有数据（可能是分区没维护要add partition，可能原数据没维护好要analyze，可能表和文件编码不一致）将数据按partition加载进入这个表 alter table dim.fin_exp_dmn_o…

hadoop和hbase lzo压缩

配置hadoop lzo 一、下载、解压并编译lzo包 1 [wypmaster ~]$ wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz 2 [wypmaster ~]$ tar -zxvf lzo-2.06.tar.gz 3 [wypmaster ~]$ cd lzo-2.06 4 [wypmaster ~]$ export CFLAGS-m64 5 [wypmaster …

hadoop join

转一个牛人的hadoop join博客转 http://dongxicheng.org/mapreduce/hadoop-join-two-tables/ 1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时&#xff…

hadoop 二次排序

hadoop的工作流程： http://blackproof.iteye.com/blog/2028640 hadoop 二次排序是在key中，排序value的实现，思路是 1.把value中需要有序的部分value-part放入key中 2.sortCompare类或key的CompareTo方法中完成对keyvalue-part的比较 3.Group…

hadoop 工作流程图

hadoop工作流程，用两张简单的map， reduce图来解释一下，主要集中讲述hadoop shuffle map阶段 reduce阶段：

启动 Hadoop 后没有 dataNode 进程

启动 Hadoop 后没有 dataNode 进程原因：进行 hadoop 格式化的时候没有事先结束所有进程，或者多次进行了 format 导致的 datanode 的 clusterID 和 namenode 的 clusterID 不匹配，从而在启动后没有 datanode 进程。解决办法1： …

HBase 2.x ---- HBase快速入门

HBase 2.x ---- HBase快速入门1. HBase安装部署1. Zookeeper正常部署2. Hadoop正常部署3. HBase的解压4. HBase的配置文件5. HBase远程发送到其他集群6. HBase服务的启动7. 查看HBase页面2. HBase Shell操作1. 基本操作2. namespace3. DDL4. DML1. HBase安装部署 1. Zookeeper…

Hadoop 3.x（MapReduce）----【MapReduce 框架原理六】

Hadoop 3.x（MapReduce）----【MapReduce 框架原理六】1. 数据清洗（ETL）1. 要求2. 需求分析3. 实现代码2. MapReduce 开发总结1. 输入数据接口：InputFormat2. 逻辑处理接口：Mapper3. Partition分区4. Compar…

Hadoop 3.x（MapReduce）----【Hadoop 序列化】

Hadoop 3.x（MapReduce）----【Hadoop 序列化】1. 序列化概述1. 什么是序列化2. 为什么要序列化3. 为什么不用Java的序列化4. Hadoop序列化特点：2. 自定义bean对象实现序列化接口（Writable）3. 序列化案例实操1. 需求2. 需…

Hadoop 3.x（HDFS）----【DataNode】

Hadoop 3.x（HDFS）----【DataNode】1. DataNode工作机制2. 数据完整性3. 掉线时限参数设置1. DataNode工作机制一个数据块在 DataNode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的…

虚拟机安装配置Hadoop（图文教程）

1. 前提准备启动镜像 Init1.0 检查是否安装 Hdoop 和 jdk [niitniit-master ~]$ java -version[niitniit-master ~]$ hadoop version2. 安装hadoop和jdk 将 jdk、hadoop 上传到 /home/nitt 直接将压缩文件拖到左侧目录栏即可解压 hadoop、jdk [niitniit-master ~]$ t…

Hadoop 3.x【大数据概念】

Hadoop 3.x【大数据概念】1. 大数据概念2. 大数据特点（4V）3. 大数据应用场景4. 大数据发展前景5. 大数据部分间业务流程分析6. 大数据部门内组织结构1. 大数据概念大数据（Big Data）：指无法在一定时间范围内用常规软件…

volatile原理技术知识整理

volatile是一种轻量且在有限的条件下线程安全技术，它保证修饰的变量的可见性和有序性，但非原子性。相对于synchronize高效，而常常跟synchronize配合使用。一. Java内存模型这里主要描述的线程，工作内存，主存的变量的…

Hadoop 初探——配置完成后第二天如何查看并验证（单机版）

Hadoop 初探——配置完成后第二天如何查看并验证（单机版） 一、运行Hadoop（Linux Ubuntu虚拟机下） 1.进入/hadoop-3.1.4文件夹下，输入命令sbin/start-dfs.sh。出现如下结果即为成功。 2.使用jps命令查看namenode和dat…

3、Hive安装部署

1）把apache-hive-3.1.2-bin.tar.gz上传到linux的/opt/software目录下链接: 百度网盘请输入提取码提取码: yded 2）解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面 [shuidihadoop102 software]$ tar -zxvf /opt/software/apache-hive-3.1.…

windows7安装hadoop环境

第一步：首先安装java的环境安装教程请参考：https://blog.csdn.net/wplblog/article/details/113614644因为下载很耗时，这里我提供一下,我下载好的jdk1.8 链接：https://pan.baidu.com/s/1Vx1DNJPooEaLNuch3l83wQ 提取码…

性能比较：in和exists

当在Hive SQL中使用NOT IN和NOT EXISTS时，性能差异主要取决于底层数据的组织方式、数据量大小、索引的使用情况以及具体查询的复杂程度。下面是对这两种方法的性能分析： 1. NOT IN：- 工作原理：NOT IN子查询会逐个比较主查询中的值…

大数据开发（Hadoop面试真题-卷四）

大数据开发（Hadoop面试真题） 1、Hadoop小文件处理问题？2、介绍下HDFS，说下HDFS优缺点，以及使用场景？3、HDFS作用4、HDFS的容错机制5、HDFS的副本机制6、HDFS的常见数据格式，列式存储格式和行存储…

13:大数据与Hadoop｜分布式文件系统｜分布式Hadoop集群

大数据与Hadoop｜分布式文件系统｜分布式Hadoop集群 Hadoop部署Hadoop HDFS分布式文件系统HDFS部署步骤一：环境准备HDFS配置文件查官方手册配置Hadoop集群日志与排错 mapreduce 分布式离线计算框架YARN集群资源管理系统步骤一：安装…

大数据开发-Hadoop分布式集群搭建

大数据开发-Hadoop分布式集群搭建文章目录大数据开发-Hadoop分布式集群搭建环境准备Hadoop配置启动Hadoop集群Hadoop客户端节点Hadoop客户端节点环境准备 JDK1.8Hadoop3.X三台服务器主节点需要启动namenode、secondary namenode、resource manager三个进程从节点需要启动…

Hive分组排序取topN的sql查询示例

Hive分组排序取topN的sql查询示例要在Hive中实现分组排序并取每组的前N条记录，可以使用 ROW_NUMBER() 窗口函数结合 PARTITION BY 和 ORDER BY 子句。以下是一个示例SQL查询，用于选择每个部门中工资最高的前3名员工： SELECT department, e…

大数据技术学习笔记（五）—— MapReduce（2）

目录 1 MapReduce 的数据流1.1 数据流走向1.2 InputFormat 数据输入1.2.1 FileInputFormat 切片源码、机制1.2.2 TextInputFormat 读数据源码、机制1.2.3 CombineTextInputFormat 切片机制 1.3 OutputFormat 数据输出1.3.1 OutputFormat 实现类1.3.2 自定义 OutputFormat 2 Map…

Running job: job_1709516801756_0003

** yarn运行卡在Running job: job_1709516801756_0003问题解决： ** 在运行wordcount时出现错误，一直卡住运行命令：hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output 出现错误&#xff1a…

HDFS简介与部署以及故障排错(超简单)

文章目录一、HDFS介绍1、简介2、结构模型3、文件写入过程4、文件读取过程5、文件块的存放6、存储空间管理机制6.1 文件删除和恢复删除6.2 复制因子配置6.3 文件命名空间6.4 数据复制机制二、环境搭建（单机版）1、修改主机名2、配置ssh免密登录3、Hadoop…

【MapReduce】02.Hadoop序列化

实现bean对象序列化步骤自定义bean对象实现序列化接口。 1）必须实现Writable接口 2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造 public FlowBean(){super(); } 3）重写序列化方法 Override public …

大数据开发（Hadoop面试真题-卷七）

大数据开发（Hadoop面试真题） 1、Map的分片有多大？2、MapReduce的map进程和reducer进程的ivm垃圾回收器怎么选择可以提高吞吐量？3、MapReduce作业执行的过程中，中间的数据会存在什么地方？不会存在内存中吗&a…

大数据集群管理软件 CDH、Ambari、DataSophon 对比

文章目录引言工具介绍CDHAmbariDataSophon 对比分析引言大数据集群管理方式分为手工方式和工具方式，手工方式一般指的是手动维护平台各个组件，工具方式是靠大数据集群管理软件对集群进行管理维护。本文针对于常见的方法和工具进行比较，帮助…

hive执行select count(1)返回0

背景： 做数据质量检核任务的时候，有些数据表有数据，直接查hive执行select count(1) from table返回的值一直是0 问题原因： hive通过select count(1)或者select count(*) 查询的是元数据库里面的rownum,如果数据表数据是通过load、…

学了Hadoop之后，如何快速理解Spark？

概念初识 Apache Spark 是一个开源的分布式计算系统，由加州大学伯克利分校的AMPLab（现在的RISELab）最初开发，旨在提高大规模数据处理的速度和效率。Spark 是为了克服 Hadoop MapReduce 模型在某些数据处理任务上的局限性&#xf…

CentOS6.8配置Hadoop需要的启动脚本、分发脚本等内容（全）

1. 分发脚本: xsync #!/bin/bash #1 获取输入参数个数，如果没有参数，直接退出 pcount$# if((pcount0)); then echo no args; exit; fi#2 获取文件名称 p1$1 fnamebasename $p1 echo fname$fname#3 获取上级目录到绝对路径 pdircd -P $(dirname $p1); pw…

Hadoop 复习 ---- chapter03【Hadoop安装】

Hadoop 复习 ---- chapter03【Hadoop安装】见：[虚拟机安装配置Hadoop（图文教程）](https://blog.csdn.net/qq_52354698/article/details/126638344)1. 安装教程2. 常见问题见：虚拟机安装配置Hadoop（图文教程&#xff09…

Hadoop 3.x（生产调优手册）----【Hadoop综合调优】

Hadoop 3.x（生产调优手册）----【Hadoop综合调优】1. Hadoop小文件优化方法1. Hadoop小文件弊端2. Hadoop小文件解决方法2. 测试MapReduce计算性能3. 企业开发场景案例1. 需求2. HDFS参数调优3. MapReduce参数调优4. Yarn参数调优5. 执行程序1. Hadoop小文…

Hadoop 3.x（生产调优手册）----【MapReduce、Hadoop-Yarn生产经验】

Hadoop 3.x（生产调优手册）----【MapReduce、Hadoop-Yarn生产经验】1. MapReduce跑的慢的原因2. MapReduce常用调优参数3. MapReduce数据倾斜问题4. 常用的调优参数1. MapReduce跑的慢的原因 MapReduce 程序效率的瓶颈在于两点： 计算机性能 …

Hadoop 3.x（Yarn）----【Yarn 案例实操】

Hadoop 3.x（Yarn）----【Yarn 案例实操】1. Yarn生产环境核心参数配置案例2. 容量调度器多队列提交案例1. 需求2. 配置多队列的容量调度器3. 任务优先级3. 公平调度器案例1. 需求2. 配置多队列的公平调度器3. 测试提交任务1. Yarn生产环境核心参数配置案例…

大数据基础day1

大数据基础day1HDFS（Hadoop分布式文件系统）字典与文件系统文件系统定义文件名元数据（Metadata）数据块（Block）HDFS架构包含三个部分HDFS写数据流程（确保一致性）HDFS读数据&#xff08…

Hadoop 2.4.0完全分布式安装和解决一些问题

参考https://blog.csdn.net/qq_43605654/article/details/90746563 参考https://blog.csdn.net/weixin_50198333/article/details/108768630 三台机器配置环境前期准备: JDK环境,修改主机名称，配置网络三个ssh相互之间免密码登陆的虚拟机node1,node2,node3.修改…

hadoop学习笔记（三）HDFS读写过程

数据存放存放策略 HDFS采用了多副本的冗余存储，通常把一个Block的多个副本分别存储到不同的数据结点上，默认情况下HDFS默认的副本是3，也就是冗余因子为3，每一个block被保存到三个地方，一般伪分布式的冗余因子为1&…

Hive详解

一 Hive基本概念 1 Hive简介学习目标 - 了解什么是Hive - 了解为什么使用Hive1.1 什么是 Hive Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表 ，并提供 HQL(Hive SQL)查询功能&…

hadoop学习笔记（二）HDFS文件系统

文件系统在计算机中有内存和外存，内存断电之后，数据就会流失，容量有非常有限，所以一般都配备磁盘这种外存，将数据存储到外存中，需要的时候在调入内存进行运算，外存也是一块磁盘，直…

ubuntu2204部署hbase2.3.7

开启root 修改root用户的密码 sudo passwd rootSSH放行 sudo sed -i s/^#\?PermitRootLogin.*/PermitRootLogin yes/g /etc/ssh/sshd_config; sudo sed -i s/^#\?PasswordAuthentication.*/PasswordAuthentication yes/g /etc/ssh/sshd_config;重启服务 sudo service ssh…

【Hadoop】hive工具使用的两种方式

第一种 hive直接进入指令行第二种 beeline -u "jdbc:hive2://xrx:10000" -n root

hive 数据库用户权限授权

CREATE ROLE cz20240304; GRANT cz20240304_role TO USER cz20240304; grant select on table secured_t to role cz20240304_role;hive用户角色授权官网超链接

Hive UDF 札记

低版本的udf就不说了，太老了，说现在主流的。 1：initialize 方法的进一步理解： 在Apache Hive中，用户自定义函数（UDF）的initialize方法是一个可选的方法，它属于Hive UDF的生命周期…

大数据开发（Hadoop面试真题-卷八）

大数据开发（Hadoop面试真题） 1、介绍下YARN？2、YARN有几个模块？3、YARN工作机制？4、YARN高可用？5、YARN中Container是如何启动的？6、YARN的改进之处，Hadoop3.x相对于Hadoop2.x&#…

hive上手操作

Hive Sql 大全(hive函数，hive表)-CSDN博客

CDH6.3.1离线安装

一、从官方文档整体认识CDH 官方文档地址如下： CDH Overview | 6.3.x | Cloudera Documentation CDH是Apache Hadoop和相关项目中最完整、测试最全面、最受欢迎的发行版。CDH提供Hadoop的核心元素、可扩展存储和分布式计算，以及基于Web的用户界面和重…

hadoop安装的过程中的报错/libhadoop.so.1.0.0

1.启动HDFS，命令如下： $ sbin/start-dfs.sh 遇到如下错误：14/10/29 16:49:01 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Starting nameno…

php连接hdfs初步探索

一、phdfs拓展结果：暂时舍弃安装此拓展时，无法make成功，因为缺少hdfs.n文件。换了其他版本的拓展包，并编译都没有找到此文件。后搜到官网的相关资料，此hdfs.h的文件路径的地址是$HADOOP_HDFS_HOME/include/hdfs…

【Hadoop】在spark读取clickhouse中数据

读取clickhouse数据库数据 import scala.collection.mutable.ArrayBuffer import java.util.Properties import org.apache.spark.sql.SaveMode import org.apache.spark.sql.SparkSessiondef getCKJdbcProperties(batchSize: String "100000",socketTimeout: Strin…

启动pyspark时：/usr/local/spark/bin/pyspark: 行 45: python: 未找到命令

一、问题描述二、解决办法创建 Python 符号链接： 确保系统中有正确的 Python 符号链接指向要使用的 Python 版本： sudo ln -s /usr/bin/python3 /usr/bin/python 这将创建一个 python 的符号链接，指向系统中的 Python 3 版本。这样 pysp…

【hive Hadoop】踩坑记录

【hive & Hadoop】踩坑记录平台部署知识本文记录的配置 hive Hadoop 时可能会出现的问题以及解决方案。目录文章目录【hive & Hadoop】踩坑记录目录Hive记录hive 启动报错 Permission denied Unable to determine Hadoop version information.原因解释本次的解…

Hive招聘数据分析

招聘数据分析一、部分数据展示鞍山易升科技有限公司,大专,1年工作经验,数据分析师,1,6000,少于50人,计算机软件,鞍山,辽宁河北展源新能源科技有限公司,大专,3-4年工作经验,数据分析师,2,7000,150-500人,新能源,保定,河北河北奥润顺达窗业有限公司,本科,1年工作经验,数据分…

Apache Paimon 使用之 Querying Tables

Querying Tables 1.Batch Query Paimon的批量读取返回表快照中的所有数据。默认情况下，批处理读取返回最新的快照。 -- Flink SQL SET execution.runtime-mode batch;2.Batch Time Travel Paimon批量读取指定快照或标签的数据。 Flink 动态配置 -- read the …

hadoop学习笔记（一）hadoop的安装与使用

hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。可以对大数据进行分布式处理的软件框架，核心是HDFS和MapReduce，hadoop生态圈也非常丰富，包括Hbase，FLume等等。学习hadoop知识储备 Java编程基础Linux基本…

hadoop 2.7.3 源码分析（四）：namenode启动流程

摘要通过前边的文章我们已经知道，hadoop namenode启动的类org.apache.hadoop.hdfs.server.namenode.NameNode,本节内容就顺着其启动流程，查看在namenode启动的过程中其都做了哪些工作（关于一些技术细节就暂时放过）。启动我们…

hadoop pig入门

hadoop pig入门 dirkzhang入门 pig简介pig数据类型pig latin语法pig udf自定义pig derived衍生推荐书籍 programming pig推荐网站 http://pig.apache.org/docs/r0.10.0/basic.htmlpig简介 pig是hadoop上层的衍生架构，与hive类似。对比hive（hive类似sql&a…

hadoop RPC

hadoop RPC 上边是一张hadoop RPC很粗糙的类图，只包含其中主要的类关系 hadoop RPC的总架构是 Client端使用的是阻塞的Socket， Client的Connection内部类负责Socket的操作 setupIOStream方法建立socket连接 sendParam（call）方法传…

hadoop pig 之开发调试命令

1.1 describe 描述：输出关系的结构语法：describe alais 1.2 dump 描述：输出关系数据语法：dump alais…

hadoop03-mp

文章目录第1章 MapReduce概述1.1 定义1.2 优缺点1.2.1 优点1.2.2 缺点1.3 核心思想1.4 MapReduce进程1.5 常用数据序列化类型1.6 MapReduce的编程规范1. Mapper阶段：2. Reducer阶段3. Driver阶段1.7 WordCount案例实操1.8 在集群上进行测试第二章 Hadoop序列化2.1 序…

Hadoop的8088界面上的 history 的地址显示localhost？？？

问题： 点击history后显示： 然后我觉得应该是配置文件出现问题了，但是所有与hadoop的集群的配置文件都是正常的，因为响应的服务已经启动了最后试了下 vim /etc/hosts将头两行的代码进行了注释，然后将集群的所有ip和主…

Zookeeper集群建设

** Zookeeper 集群建设 ** 实验原理： ZooKeeper分布式服务框架是 Apache Hadoop的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，例如，统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。…

实现SSH免密功能

(1)在Linux系统的终端的任何目录下通过切换cd ~/.ssh，进入到.ssh目录下，如图 ~表示当前用户的home目录，通过cd ~可以进入到你的home目录。.开头的文件表示隐藏文件，这里.ssh就是隐藏目录文件。 (2)在Linux系统命令框的.ssh目录下…

Haddop完全分布式集群搭建

《haddop集群搭建详解》 Hadoop完全分市式集群是典型的主从架构(master-slave)，一般需要使用多台服务器来组建。我们准备3台服务器(关闭防火墙、静态IP、主机名称)。如果没有这样的环境，可以在一台电脑上安装VMWare Workstation。在VM上安装三台Linux&am…

1.HDFS的Shell操作-基础命令、高级命令、基准测试

本文目录如下：1 HDFS的命令行显示(基础)1.1 启动Hadoop集群（方便后续的测试）1.2 help1.3 ls1.4 lsr1.5 mkdir1.6 put1.7 moveFromLocal1.8 appendToFile1.9 cat1.10 get1.11 mv1.12 rm1.13 cp1.14 chmod1.15 chown1.16 copyFromLocal1.17 cop…

hadoop自定义outputformat源码

hadoop outputformat是reduceTask中的重要过程 1.实例化outputformat，检查输出目录合法性在jobClient的submitJobInternal反射生成的outputformat // Check the output specificationif (reduces 0 ? jobCopy.getUseNewMapper() : jobCopy.getUseNewReducer()) {…

HIVE 第一章数据类型

hive数据： struct(name:string,age:int) struct(dirk,36) {"street":"1 Michigan Ave.","city":"Chicago","state":"IL","zip":60600} map<String,float> map(dirk,36,kedde,38) {&qu…

7个改变世界的Java项目

Java的开源生态系统是强大而健康的，这是我们（Oreilly）创建OSCON Java（Open Source Convention Java）的主要原因之一。在过去10年中，一些项目已经被广泛接受，并且已经统治了Java软件开发世界&…

7.Zookeeper案例—分布式锁—Curator 框架实现分布式锁、原生 Zookeeper 实现分布式锁案例

第8章 Zookeeper案例—分布式锁博客索引： 8.1 小节：分布式锁案例分析8.2 小节：Curator 框架实现分布式锁(重要)8.3 小节：原生 Zookeeper 实现分布式锁 8.1 分布式锁案例分析 8.2 Curator 框架实现分布式锁 8.2.1 原生的 Java AP…

6. Zookeeper案例—服务器动态上下线监听—需求分析、具体实现、测试

本文目录如下：第7章 Zookeeper案例—服务器动态上下线监听7.1 需求7.2 需求分析7.3 具体实现7.4 测试74.1.1 在 Linux 命令行上操作增加减少服务器第7章 Zookeeper案例—服务器动态上下线监听 7.1 需求某分布式系统中，主节点可以有多台，可…

Nutch主流程代码阅读笔记整理

Nutch 的Crawler和Searcher两部分被尽是分开，其主要目的是为了使两个部分可以布地配置在硬件平台上，例如Crawler和Searcher分别被放置在两个主机上，这样可以极大的提高灵活性和性能。一、总体流程介绍 Nutch 的Crawler和Searcher两部分被尽…

Linux下源码编译hadoop2.6.0

Hadoop不提供64位编译好的版本，只能用源码自行编译64位版本。学习一项技术从安装开始，学习hadoop要从编译开始。 1.操作系统编译环境 yum install cmake lzo-devel zlib-devel gcc gcc-c autoconf automake libtool ncurses-d…

hive建表和插入格式问题

本篇主要讨论建表，插表，表存储格式，字段分隔符，MR任务输入文件注意事项有不正确的地方，还请指正 hive建表语句下面的示例，建立表bankFilter，以 hp_settle_dt 划分分区，存储为 rc…

1.Hadoop运行环境搭建-Linux虚拟机准备、JDK安装、Hadoop安装、Windows安装Hadoop

本文目录如下：1.Hadoop运行环境搭建1.1 虚拟机环境准备1.2 安装JDK1.2.1 卸载现有JDK1.2.2 在Linux系统下的opt目录中查看软件包是否导入成功1.2.3 解压JDK到/opt/module目录下1.2.4 配置JDK环境变量1.2.5 测试JDK是否安装成功1.3 安装Hadoop1.3.1 进入到Hadoop安装…

过滤停用词

过滤停用词过滤停用词中的重点是设置全局变量，设置全局变量有两种方法，1.hdfs读取，将文件设置在所有节点都能访问的地方，适合文件较大类型 2.利用分布式缓存的方式，运行的时候会把文件复制在每个节点中，适合…

从wordcount词频统计代码到倒排索引的改编

从wordcount词频统计代码到倒排索引的改编分析word count代码 Map中输出了单词和intwriteable类的对象one，而倒排索引，需要输出单词和文件名偏移，偏移是key中含有的，使用.tostring方法就可以将它变成字符串与文件名和连接。要输出…

亚马逊云科技让AI开发速度更快，门槛更低

过去只有大型科技公司、政府机构和大学才有能力和时间、金钱去部署生成式AI能力。近二十年来，云服务把计算的门槛降低了。亚马逊云科技全球产品副总裁Matt Wood博士表示：“我们希望在生成式AI上做同样的事，把技术提供到每个开发者和商业用户的…

hive中如何将存在分隔符号的一列进行拆分，成为多行（可参考之前行转列，列转行笔记第三部分）

hive中如何将存在分隔符号的一列进行拆分，成为多行（可参考之前行转列，列转行笔记第三部分） 三、行转列 split()︰将一个字符串按照指定字符分割，结果为一个array explode():将一列复杂的array或者map拆分为多行,它的参…

3.Spark运行模式—YARN模式—搭建运行环境、提交应用、配置历史服务器 | Windows10运行模式

本文目录如下：第4章运行模式—YARN模式4.1 搭建运行环境4.1.1 进入到Spark安装包路径下4.1.2 解压安装文件到/opt/module下面4.1.3 查看是否解压成功4.2 修改配置文件4.3 启动 HDFS 以及 YARN 集群4.4 提交应用4.5 配置历史服务器第5章 Windows10模式5.1 解压缩文件…

在 Kubernetes 中使用 vGPU 设备插件

vGPU device plugin 基于 NVIDIA 官方插件(NVIDIA/k8s-device-plugin)，在保留官方功能的基础上，实现了对物理 GPU 进行切分，并对显存和计算单元进行限制，从而模拟出多张小的 vGPU 卡。在 k8s 集群中，基于这些切分后的 …

廖雪峰大数据团队研发的开车宝典再次曝光，手慢删！

想什么呢！是廖雪峰老师送福利！众所周知，大数据改变了我们的生产生活，目前已被广泛应用于电商、交通、工业、金融、政务、医疗等行业，而大数据工程师也成为各行业炙手可热的岗位。但同样地大数据工程师技能要求也不低&a…

Presto：Unable to create input format com.hadoop.mapred.DeprecatedLzoTextInputFormat错误解析

我的hive中的ods层表是这样存储的： drop table if exists ods_ipqc_online_tmp; create external table ods_ipqc_online_tmp (MACH_ID string COMMENT 机台id,MACH_IP decimal(16, 2) COMMENT 机台ip,IPQC_ONLINEID string COMMENT IPQC在线ID,CREATE…

Thanos 与 VictoriaMetrics，谁才是打造大型 Prometheus 监控系统的王者？

更多精彩内容欢迎订阅我的博客：https://fuckcloudnative.io/Thanos[1] 和 VictoriaMetrics[2] 都是用来作为 Prometheus 长期存储的成熟方案，其中 VictoriaMetrics 也开源了其集群版本[3]，功能更加强大。这两种解决方案都提供了以下功能&…

Prometheus监控神器-Alertmanager篇（一）

Docker 技术鼻祖系列本章节主要涵盖了Alertmanager的工作机制与配置文件的比较详细的知识内容，由浅入深的给大家讲解。警报一直是整个监控系统中的重要组成部分，Prometheus监控系统中，采集与警报是分离的。警报规则在 Prometheus 定义&#x…

Hive自定义标准函数(UDF)

文章目录Hive自定义标准函数(UDF)继承UDF类或GenericUDF类添加依赖包继承UDF类重写evaluate()方法并实现函数逻辑打包为jar文件编译复制到正确的HDFS路径使用jar创建临时/永久函数创建临时函数并调用创建永久函数并调用总结Hive自定义标准函数(UDF) 继承UDF类或GenericUDF类 …

Hadoop 分布式环境搭建

文章目录Hadoop 分布式环境搭建一 Hadoop 运行环境搭建1.1 虚拟机环境准备1.2 安装 jdk1.8二 Hadoop 运行模式2.1 本地运行模式2.2 伪分布式运行模式2.3 完全分布式运行模式Hadoop 分布式环境搭建一 Hadoop 运行环境搭建 1.1 虚拟机环境准备 1） 准备一台虚拟机&…

hadoop的安装和配置步骤

文章目录hadoop的安装1、解压hadoop免安装压缩包2、修改文件夹名称3、删除压缩包文件4、准备配置环境配置环境1、配置hadoop-env.sh 文件关联java2、配置core-site.xml文件，配置核心3、配置hdfs-site.xml 配置类型4、配置mapred-site.xml.template文件5、配置vi yar…

搭建Hadoop架构平台

1.我使用的是seurefxp,xshell也可以准备工作检查互通关闭防火墙检查是否有映射:vim hosts(ip与主机名中间用tab缩进) 关闭一切进程：stop-all.sh 2.官网环境安装包下载地址Apache Hadoop 3.解压到servers,并获得路径（pwd） 命&#…

搭建单机hadoop并运行自带的分词jar包

这篇实验是紧接着Hyper-V的前奏是：Hyper-V搭建CentOS7 文章目录第四步：安装单机hadoop【jdk、tomcat】1. 前期准备（1）网络配置（2）修改主机名和添加ip映射重启：（3）关闭防…

hive与mysql的安装与配置

hive与mysql的安装与配置 hive是基于hadoop的数据仓库工具，将一定格式的文件映射为一张张表，因此hive版本和hadoop版本有对应关系，一定要检查自己安装的hadoop和hive版本是否兼容； hadoop版本：2.9.1，hive…

亲测有用！Centos7 + Zookeeper集群 + Hadoop集群配置

一、网络配置： 1.1 配置单机网络： 1.2 关闭防火墙： 1.3 SSH连接Centos7： 1.4 配置hosts文件： 二、JDK配置： 三、Zookeeper集群配置： 四、Hadoop集群配置： 4.1 文件建立 4.2 …

Hive hql 经典5道面试题

最近在深入了解Hive，尚硅谷的这5道题很经典，有引导意义，分步解题也很有用，故记录之，方便回看 1.连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量找出连续 3 天及以上减少碳排放量在 100 以上的用户 id dt lowc…

基于Seatunnel连通Hive数仓和ClickHouse的实战

背景目前公司的分析数据基本存储在 Hive 数仓中，使用 Presto 完成 OLAP 分析，但是随着业务实时性增强，对查询性能的要求不断升高，同时许多数据应用产生，比如对接 BI 进行分析等，Presto不能满足需求&#x…

解决运行MapReduce一直卡在Running

背景今日运行MapReduce时，一直卡在running，现在记录下解决方法解决方法在yarn-site.xml中，加入如下配置 <property><name>yarn.nodemanager.resource.memory-mb</name><value>20480</value></propert…

命令行运行Hadoop作业

背景通过IDE可以直接运行hadoop程序，但是不能生成Job_Id。但是，通过命令行来运行Hadoop程序或作业，就可以生成Job_Id，从而可以在web界面看到相应的信息。步骤打包第一步是把作业打成jar包，首先在项目的pom.xml…

【Hadoop大数据技术】——HDFS分布式文件系统（学习笔记）

📖 前言：Hadoop的核心是HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）和MapReduce。其中，HDFS是解决海量大数据文件存储的问题，是目前应用最广泛的分布式文件系统。目录 &#x…

Hive中增量插入的处理

增量数据采集，目前实现的方式是hive中按某个字段创建分区表， insert override的时候where语句带上对应的增量过滤条件。我一般选取日期字段ETL_DATE。 hive建立分区表，hql如下： CREATE TABLE IF NOT EXISTS product_sell( cate…

大数据开发-Hadoop之深入MapReduce

文章目录 MapReduce任务日志查看停止Hadoop集群中的任务MapReduce程序扩展Shuffle过程详解Hadoop中的序列化机制 MapReduce任务日志查看需要开启YARN的日志聚合功能，把散落在NodeManager节点上的日志统一收集管理，方便日志查看 [roothadoop01 hadoop]…

大数据开发-Hadoop之HDFS高级应用

文章目录 HDFS回收站HDFS的安全模式定时上传数据至HDFSHDFS的高可用和高扩展HDFS写数据过程源码剖析 HDFS回收站 HDFS会为每个用户创建一个回收站目录:/user/用户名/.Trash/回收站中的数据都会有一个默认的保存周期，过期未恢复则会被HDFS自动彻底删除默认情况下HDF…

Hadoop大数据应用：Yarn 节点实现扩容与缩容

目录一、实验 1.环境 2.Yarn 节点扩容 3.Yarn 节点缩容二、问题 1.yarn启动服务报错一、实验 1.环境 （1）主机表1 主机主机架构软件版本IP备注hadoop NameNode （已部署） SecondaryNameNode （已部署&…

hive-批量导出表结构，导入表结构

1、导出hive表结构 datastudio可以连接hive库，通过show databases 语句可以显示hive下建了多少数据库名。使用use 数据库名，进入某个数据库下，通过show tables可显示该数据库下建了多少张表。将所有库的表数据整理成库名.表名的形式放入…

基于docker 配置hadoop-hive-spark-zeppelin环境进行大数据项目的开发

转载于： 基于docker的spark-hadoop分布式集群之一： 环境搭建 - Fordestiny - 博客园 (cnblogs.com) ---------------------------------------------------------- 如有侵权请私信，看到私信后会立即删除... ------------------------------…

Hadoop，Hive 数据预处理CR

记录一次大材小用，我在将.csv电影数据集电影json数据导入MySQL时，出现了报错：很明显，意味着.csv中的数据有非utf8编码的，尝试使用file查看了下.csv文件的编码格式：如果不确定原始编码，可以先用file命令尝试检测一下： file -i input.csv该命令会显示文件的MIME类型…

HBase分布式数据库的原理和架构

一、HBase简介 HBase是是一个高性能、高可靠性、面向列的分布式数据库，它是为了在廉价的硬件集群上存储大规模数据而设计的。HBase利用Hadoop HDFS作为其文件存储系统，且Hbase是基于Zookeeper的。二、HBase架构 *图片引用 Hbase采用Master/Slave架构…

hadoop伪分布式环境搭建详解

（操作系统是centos7） 1.更改主机名，设置与ip 的映射关系 hostname //查看主机名 vim /etc/hostname //将里面的主机名更改为master vim /etc/hosts //将127.0.0.1后面的主机名更改为master，在后面加入一行IP地址与主机名之间的…

helm部署hadoop

（作者：陈玓玏） 参考helm仓库的文档：https://artifacthub.io/packages/helm/apache-hadoop-helm/hadoop helm helm repo add pfisterer-hadoop https://pfisterer.github.io/apache-hadoop-helm/ helm install hadoop pfistere…

Hive中的explode函数、posexplode函数与later view函数

1.概述在离线数仓处理通过HQL业务数据时，经常会遇到行转列或者列转行之类的操作，就像concat_ws之类的函数被广泛使用，今天这个也是经常要使用的拓展方法。 2.explode函数 2.1 函数语法 -- explode(a) - separates the elements of array …

hive行转列函数stack(int n, v_1, v_2, ..., v_k)

用stack()函数时，参数中的键值对应按照一对列名和列值进行排使用列 stack(int n, v_1, v_2, ..., v_k) 功能：把k列数据转换成n行，k/n列，其中n必须是正整数，后面的v_1到v_k必须是元素，不能是列名。&#x…

03hive数仓安装与基础使用

hive Hive概述 Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表，并提供完整的sql查询功能，本质上还是一个文件底层是将sql语句转换为MapReduce任务进行运行本质上是一种大数据离线分析工具学习成本相当低，不用开发…

开源大数据集群部署（十六）Hadoop集群部署（一）

作者：櫰木按照上文中hadoop集群规划进行安装。 1 HADOOP集群安装在hd1.dtstack.com主机root权限下安装hadoop集群解压 [roothd1.dtstack.com software]# tar -zvxf hadoop-3.2.4.tar.gz -C /opt/ [roothd1.dtstack.com software]# chown -R hdfs:hadoop /opt…

Hadoop集群基本测试

文章目录 1.上传小文件到集群2.上传大文件到集群3.执行wordcount程序4.配置历史服务器5.配置日志的聚集6.集群启动/停止方式总结7.编写Hadoop集群常用脚本Hadoop集群启停脚本（包含HDFS，Yarn，Historyserver）：myhadoop.s…

MapReduce超详解

简介概述 MapReduce是Hadoop提供的一套用于进行分布式计算的模型，本身是Doug Cutting根据Google的<MapReduce: Simplified Data Processing on Large Clusters>仿照实现的。 MapReduce由两个阶段组成：Map(映射)阶段和Reduce(规约)阶段，用户只需要实现map以及reduc…

【软件工程】软件工程定义、软件危机以及软件生命周期

🌸博主主页：釉色清风🌸文章专栏：软件工程🌸 今日语录：What matters isn’t how others think of your ambitions but how fervently you cling to them. 软件工程系列，主要根据老师上课所讲提及…

[2023年]-hadoop面试真题(一)

（北京）HDFS底层存储原理? (北京) HDFS读写数据流程? (北京) HDFS如何管理元数据或者checkpoint的理解 ? (北京) HDFS常用命令 ? (北京) hadoop调优 (北京) HDFS扩容原理 (北京) HDFS有哪些进程,分别是什么? (北京) HDFS中大量小文件对…

深入理解Hive：探索不同的表类型及其应用场景

文章目录 1. 引言2. Hive表类型概览2.1 按照数据存储位置2.2 按照数据管理方式2.3 按照查询优化2.4 按照数据的临时性和持久性 3. 写在最后 1. 引言在大数据时代，Hive作为一种数据仓库工具，为我们提供了强大的数据存储和查询能力。了解Hive的不同表类型…

大数据组件之Hadoop图文介绍

前言在当今大数据时代，回顾技术发展历程，Hadoop作为一项具有里程碑意义的开源项目，在大数据存储和处理领域曾一度占据主导地位。诞生于2005年的Apache Hadoop，以其独特的分布式文件系统（HDFS）和高效的并行…

初识Hive

官网地址为： Design - Apache Hive - Apache Software Foundation 一、架构先来看下官网给的图： 图上显示了Hive的主要组件及其与Hadoop的交互。Hive的主要组件有： UI： 用户向系统提交查询和其他操作的用户界面。截至2011年&…

Sqoop 学习

参考视频大数据Sqoop教程丨从零开始讲解大数据业务及数据采集和迁移需求_哔哩哔哩_bilibili 介绍 Sqoop是Hadoop生态体系和RDBMS（关系型数据库）体系之间传送数据的一种工具 Hadop生态系统：HDFS，Hbase，Hive等 RDBMS包…

py脚本模拟json数据，StructuredStreaming接收数据存储HDFS一些小细节 ERROR:‘path‘ is not specified

很多初次接触到StructuredStreaming 应该会写一个这样的案例 - py脚本不断产生数据写入linux本地， 通过hdfs dfs 建目录文件来实时存储到HDFS中 1. 指定数据schema： 实时json数据 2. 数据源地址：HDFS 3. 结果落地位置： HDFS …

Windows环境部署Hadoop-3.3.2和Spark3.3.2

目录一、Windows环境部署Hadoop-3.3.2 1.CMD管理员解压Hadoop压缩包 2.配置系统环境变量 3.下载hadoop winutils文件 4.修改D:\server\hadoop-3.3.2\etc\hadoop目录下的配置文件 (1)core-site.xml (2)hdfs-site.xml (3)mapred-site.xml (4)yarn-site.xml (5)workers…

HDFS面试指南：掌握关键问题

在大数据领域，Hadoop分布式文件系统（HDFS）是一个重要的组成部分，它能够有效地处理和存储大规模数据。在面试中，对HDFS的理解和知识是非常重要的。本文旨在从HDFS的诞生角度出发，理清都可能出现哪些方面的…

大数据开发 hadoop集群 2.hadoop框架入门

自从我学会了寻找，我就已经找到 ——史铁生 —— 24.3.10 内容简介 Hadoop入门： ①概念 ②环境准备 ③hadoop生产集群搭建 ④常见错误的解决方案 ①概念：1.Hadoop是什么 2.Hadoop发展历史 3.Hadoop…

02hadoop伪分布式搭建

3. 环境安装 3.1 安装方式单机模式只能启动MapReduce 伪分布式能启动HDFS、MapReduce 和 YARN的大部分功能完全分布式能启动Hadoop的所有功能 3.2 安装JDK 3.2.1 JDK安装步骤下载JDK安装包（下载Linux系统的 .tar.gz 的安装包） https://www…

律师事务所案件管理新宠：Java+SpringBoot+Vue+MySQL实战

✍✍计算机编程指导师 ⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！ ⚡⚡ Java实战 |…

大数据平台 hive 部署

大数据平台 hive 部署平台部署知识文章讲解了 hive 的安装与部署需要 Hadoop 以及 MySQL。目录文章目录大数据平台 hive 部署目录前期准备解压 hive 包配置 hive 的环境变量解决 jar 冲突内嵌模式部署修改 hive-env.sh 文件初始化元数据库使用 derby启动 HDFS 和 hiv…

数字化运营在教育行业的技术架构实践总结

随着科技的不断进步和数字化时代的到来，教育行业也正面临着数字化转型的挑战和机遇。教育行业的数字化运营需要依靠合理的技术架构来支撑，本文将探讨教育行业数字化运营的技术架构设计。 ## 第一步：需求分析和架构设计在构建教育行业数字化…

Hive调优总结

参数设置概述:hive的参数配置, 就是在那里配置hive的参数信息, 根据配置地方不同, 作用范围也不一样. 配置方式: 1. set方式进行设置. 2. 命令行方式进行设置. 3. 配置文件方式进行设置. 优先级问题: set方式 > 命令行方式 > 配置文件…

04hive数仓内外部表复杂数据类型与分区分桶

hive内部表和外部表默认为内部表，外部表的关键字 ：external内部表：对应的文件夹就在默认路径下 /user/hive/warehouse/库名.db/外部表：数据文件在哪里都行，无须移动数据 # students.txt 1,Lucy,girl,23 2,Tom,boy,2…

[hive面试真题]-基础理论篇

hive的工作流程 hive中分区表,分桶表工作中hive分区表的应用示例发现hive分区中的数据不对怎么处理 hive出现code 1 2 3 什么原因 ,怎么处理工作中hive常见的文件格式 .压缩格式工作时常用的hive函数谈谈对窗口函数的理解 hive中如果出现数据倾斜 ,怎么发现 ,怎么…

集群软件部署

目录软件部署集群软件前置环境网络配置ssh配置 JDK环境防火墙和SELinux制作快照 scp（ssh cp)ZooKeeper介绍安装 Hadoop介绍Hadoop集群角色角色和节点分配安装内存调整Hadoop集群安装报错分析结果 Spark介绍下载安装软件部署包含zookeeper、Hadoop、spark的安装…

Hadoop面经

hadoop原理请说下 HDFS 的组织架构描述HDFS的读写流程HDFS 在读取文件的时候，如果其中一个块突然损坏了怎么办HDFS 在上传文件的时候，如果其中一个 DataNode 突然挂掉了怎么办 NameNode 在启动的时候会做哪些操作Secondary NameNode 了解吗，…

HDFS面试重点

文章目录 1. HDFS的架构2. HDFS的读写流程3.HDFS中，文件为什么以block块的方式存储？ 1. HDFS的架构 HDFS的架构可以分为以下几个主要组件： NameNode（名称节点）： NameNode是HDFS的关键组件之一，…

win10启动hadoop时遇到的坑

目录背景 1、 Exception in thread "main" java.lang.IllegalArgumentException: Invalid URI for NameNode address (check fs.defaultFS): file:/// has no authority. 2、 Exiting with status 1: org.apache.hadoop.hdfs.server.common.InconsistentFSStateE…

Flink筛选重要配置参数

1.简单介绍一下flink背景随着科技的发展，大数据框架处理海量数据越来越流行。有状态流计算将会逐步成为企业作为构建数据平台的架构模式，而目前从社区来看，能够满足的只有Apache Flink。Flink通过实现Goolge Dataflow流式计算模型实现了高吞…

ClickHouse与Presto及Hive性能对比(7亿数据)

数据量总量7.6亿，机台数据 Hive中数据 DROP TABLE IF EXISTS dwd_ipqc_online; CREATE EXTERNAL TABLE dwd_ipqc_online (MACH_ID string COMMENT 機台ID,MACH_IP string COMMENT 機台IP,CREATE_TIME string COMMENT 創建時間,IPQC_ONLINEID strin…

安装Hadoop及Spark(Ubuntu 16.04)

转自：http://www.cnblogs.com/bovenson/p/5760856.html 安装Hadoop及Spark(Ubuntu 16.04) 安装JDK 下载jdk(以jdk-8u91-linux-x64.tar.gz为例) 新建文件夹 sudo mkdir /usr/lib/jvm 解压下载的jdk文件并移动到新建的文件夹下 sudo tar -xzvf jdk-8u91-linux-x…

hadoop个人笔记，仅供自己参考

hadoop可以看做成一个软件，就是运行在linux系统上。对集群上的文件进行操作是，前面得加上hadoop fs，例如查看集群上的更目录下的文件 hadoop fs -ls 将本地（linux系统）上的文件放到集群中时，例如目录inp…

【大数据技术】实验4：熟悉Spark基础编程

文章目录一、实验环境二、实验内容安装Spark环境Spark编程练习:使用scala语言编写独立应用程序：出现的问题一、实验环境操作系统：Linux（与实验1保持一致）；Hadoop版本：3.3.1；Spark版本&#xf…

【大数据技术】实验1：Hadoop集群环境搭建和熟悉常用的Linux操作

文章目录一、实验环境二、实验内容0．安装Linux操作系统（虚拟机）1．熟悉常用的Linux操作出现的问题一、实验环境操作系统：Linux（Centos8.4）；Hadoop版本：3.3.1 二、实验内…

数据平台数据接入实践

快速、高质量、稳定的将数据从业务系统接入到数据平台是至关重要的一环。前面的文章中，我们分别提到了关系型数据库的数据接入和非关系型数据库的数据接入。除了来自技术上的挑战，数据接入还会遇到哪些其他挑战呢？ 本文将尝试基于项目中的实…

log4j WARN 和 SLF4J WARN 解决办法

Log4j 是什么 Log4j是Apache的一个开源项目，通过使用Log4j，我们可以控制日志信息输送的目的地是控制台、文件、GUI组件，甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等；我们也可以控制每一条日志的输出格式&#xf…

MapReduce 例子：WordCount

MapReduce 简单应用 WordCount是MapReduce编程中最经典的例子，主要用于统计文本中单词出现的个数。比如将下述文本作为输入对象 hello world hello java hello python hello php hello scala 经过执行之后，便会得到下述结果 hello 5 java 1 php…

大数据踩坑合集（二）

大数据踩坑合集（二）之vim文件复制不完整今天在练习shell脚本时，需要复制一个脚本到文件里，脚本代码本身没有任何错误，在vim编辑器里复制粘贴的时候编辑器也没有报错，执行脚本的时候却报错了…初学者一…

大数据踩坑合集（一）

大数据踩坑合集（一）之 Xshell vim文件使用右侧数字键盘时数字变成英文字母的解决办法今天用Xshell连接Linux虚拟机进行工作时发现了一个小问题，使用右侧数字键盘数字时，数字变成了英文字母了 123456789变成了yxwvutsrq并且会自…

Maven的梗概介绍以及详细安装步骤

Maven的梗概介绍以及详细安装步骤 （1）Maven这个单词的本意是：专家，内行。读音是[meɪv(ə)n]或[mevn]。 （2）Maven是一款自动化构建工具，专注服务于Java平台的项目构建和依赖管理。在JavaEE开发…

Hadoop+Hive部署安装配置

最近结合具体的项目，搭建了HadoopHive，在运行Hive之前要首先搭建好Hadoop，关于Hadoop的搭建有三种模式，在以下的介绍中，我主要的采用的是Hadoop的伪分布安装模式。写下来给各位分享。准备工作： 以上所…

hive自定义udf

package com.gxzq.app;/*** author jinhong.liu* date 2023年01月31日 14:48*/import org.apache.hadoop.hive.ql.exec.UDFArgumentException; import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException; import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeExce…

怎样通过MapReduce完成排序工作，使其有序（字典序）呢？

第一步对原始的数据进行分割（Split）， 得到N个不同的数据分块第二步对每一个数据分块都启动一个Map进行处理。采用桶排序的方法，每个Map中按照首字母将字符串分配到26个不同的桶中第三步对于Map之后得到的中间结果&#xff…

Hbase面试题

Hbase是怎么写数据的？ HDFS和HBase各自使用场景 Hbase的存储结构热点现象（数据倾斜）怎么产生的，以及解决方法有哪些 HBase的 rowkey 设计原则 HBase的列簇设计 HBase 中 compact 用途是什么，什么时候触发，…

[转载]hadoop 常用命令

转自：http://blog.sciencenet.cn/blog-604578-740259.html 进入HADOOP_HOME目录。执行sh bin/start-all.sh 进入HADOOP_HOME目录。执行sh bin/stop-all.sh Usage: java FsShell [-ls <path>] [-lsr <path>] [-du …

Hive超详细介绍

一、Hive基本概念 1.1 hive是什么 hive是基于hadoop的一个数仓分析工具，hive可以将hdfs上存储的结构化的数据，映射成一张表，然后让用户写HQL(类SQL)来分析数据 tel up down 1383838438 1345 1567 1…

hadoop生态圈-- 个人笔记学习02

集群包括 HDFS集群YARN集群 （逻辑上分离，物理上在一起） HDFS存储数据 NameNodeDataNodeSecondaryNameNode YARN 数据运算的时候调度 ResorceManagerNodeManager mapreduce，分布式运算编程框架。编程滚翻进行程序开发&#x…

Hadoop理论及实践-HDFS四大组件关系（参考Hadoop官网）

NameNode（名称节点，Master主节点） NameNode主要功能 1、NameNode负责管理HDFS文件系统的元数据，包括文件，目录，块信息等。它将元数据Fsimage与Edit_log持久化到硬盘上。一个是Fsimage(镜像文件&#xff09…

快速搭建kerberos认证的HDFS环境

1)、搭建hdfs单机服务器搭建 2)、kdc单机kerberos认证我的服务器：192.168.1.166 1、安装kerberos 1.1 执行命令：yum -y install krb5-libs krb5-server krb5-workstation 1.2 修改host文件：vim /etc/hosts,加入 192.168.1.166 myli 192.168.1.166 kerberos.example.co…

使用ubuntu搭建hadoop伪分布全过程图解

目录 1. 安装jdk 2. 添加java环境变量 3. 设置免密登录 4. 安装hadoop 5. 添加hadoop环境变量 6. 修改hdoop-env.sh文件 7. 修改core-site.xml文件 8. 修改yarn-site.xml文件 9. 修改mapred-site.xml文件 10. 修改hdfs-site.xml文件 11. 进行授权 12. 创建namenode…

Linux环境搭建Hadoop及完全分布式集群

Hadoop Hadoop是一个开源的分布式计算框架，旨在处理大规模数据集和进行并行计算。核心包括两个组件：HFDS、MapReduce。配置方案各虚拟机的用户名分别为test0、test1、test2，主机名为hadoop100、hadoop101、hadoop102 虚拟机的分配如下&…

ssh免密登陆更换目标主机后无法连接

在进行hadoop分布式环境搭建时（三台机，master，slave1，slave2），后期slave2系统出现问题，更换新机后，master与slave2文件传输失败： 以为是秘钥过期的问题，更换…

HDFS概述及常用shell操作

HDFS 一、HDFS概述1.1 HDFS适用场景1.2 HDFS优缺点1.3 HDFS文件块大小二、HDFS的shell操作2.1 上传2.2 下载2.3 HDFS直接操作一、HDFS概述 1.1 HDFS适用场景因为HDFS里所有的文件都是维护在磁盘里的在磁盘中对文件的历史内容进行修改效率极其低(但是追加可以) 1.2 HDF…

WPF按钮相关

跟着官网敲的按钮相关的内容,还涉及了wpf很多其他的知识 1.创建基本按钮 <Grid><StackPanel HorizontalAlignment"Left"><Button>Button1</Button><Button>Button2</Button><Button>Button3</Button></StackPan…

ES-Hadoop：将Elasticsearch与Hadoop无缝集成的开源工具

hadoop 大数据技术之Hive（3）PyHive pyhdfs ES,Elasticsearch https://zhuanlan.zhihu.com/p/595505475?utm_id0 Hadoop hdfs 、hive、spark https://blog.51cto.com/u_16099278/6901638 ES-Hadoop：将Elasticsearch与Hadoop无缝集成的开源工…

Servlet使用

文章目录简介一、快速入门二、Servlet 执行流程三、Servlet 生命周期四、Servlet 方法介绍五、Servlet 体系结构六、Servlet urlPattern配置七、XML 配置方式编写 Servlet 简介一、快速入门 <dependencies><dependency><groupId>javax.servlet</groupId…

【Hadoop大数据技术】——MapReduce经典案例实战（倒排索引、数据去重、TopN）

📖 前言：MapReduce是一种分布式并行编程模型，是Hadoop核心子项目之一。实验前需确保搭建好Hadoop 3.3.5环境、安装好Eclipse IDE 🔎 【Hadoop大数据技术】——Hadoop概述与搭建环境（学习笔记） 目录 &#…

印度交易所股票行情数据API接口

1. 历史日线 # Restful API https://tsanghi.com/api/fin/stock/XNSE/daily?token{token}&ticker{ticker}默认返回全部历史数据，也可以使用参数start_date和end_date选择特定时间段。更新时间：收盘后3~4小时。更新周期：每天。请求方式…

【Hadoop大数据技术】——MapReduce分布式计算框架（学习笔记）

📖 前言：MapReduce是Hadoop系统核心组件之一，它是一种可用于大数据并行处理的计算模型、框架和平台，主要解决海量数据的计算问题，是目前分布式计算模型中应用较为广泛的一种。目录 🕒 1. MapReduce概述&am…

数据仓库核心：揭秘事实表与维度表的角色与区别

文章目录 1. 引言2. 基本概念2.1 事实表（Fact Table）2.2 维度表（Dimension Table） 3. 两者关系4. 为什么要有做区分5. 写在最后 1. 引言前篇我们深入探讨了Hive数据仓库中的表类型，包括内部表、外部表、分区表、桶表…

[2023年]-hadoop面试真题(三)

(上海) 什么是HDFS？(上海) 描述一下HDFS的主要特性？(上海) 你能解释一下HDFS的架构吗？(上海) 在HDFS中，什么是NameNode和DataNode？(上海) HDFS是如何处理数据的复制和故障恢复的？(上海) 描述一下HDFS的存储…

Windows下IntelliJ IDEA远程连接服务器中Hadoop运行WordCount（详细版）

使用IDEA直接运行Hadoop项目，有两种方式，分别是本地式：本地安装HadoopIDEA；远程式：远程部署Hadoop，本地安装IDEA并连接， 本文介绍第二种。一、安装配置Hadoop (1)虚拟机伪分布式见上才艺&a…

HDFS（Hadoop分布式文件系统）具有高吞吐量特点的原因

数据分块和分布式存储：HDFS将大文件分割成多个数据块，并通过数据块的复制和分布式存储在集群中的多台机器上存储这些数据块。这样，可以利用多台机器的并行处理能力，并同时读取或写入多个数据块，从而提高整体的吞吐量。…

【kerberos】hadoop集群使用keytab认证的逻辑

一、背景： haoop的kerberos认证核心是org.apache.hadoop.security.UserGroupInformation类。 UserGroupInformation一般有两种：（1）apache原生的（2）cdh hdp改良过的，即cloudera改良过的。由此衍…

Hadoop学习2：完全分布集群搭建

文章目录 Fully-Distributed Operation（完全分布模式） 重点机器环境同步集群规划配置文件修改以及同步步骤0：下面其他步骤涉及修改配置以这里为准（要不然部署使用过程会有很多问题）通用配置（三台节点机器&a…

伪分布Hadoop的安装与部署

1.实训目标 （1）熟悉掌握使用在Linux下安装JDK。 （2）熟悉掌握使用在Linux下安装Hadoop。 （3）熟悉掌握使用配置SSH免密登录。 2.实训环境与软件环境版本说明 Windows 10系统 64位操作电脑配置 …

多进程数据库不适合作为hive的元数据库

简介 “今天发现一个比较奇怪的现象，因为博主不熟悉mysql，所以在安装hive的使用了postgresql作为hive的元数据库，在测试几个连接工具对hive进行链接，后面再测试的时候发现链接不上了，并且报错日志如下：” …

Hadoop入门之Hadoop的组成

目录 Hadoop1.x和2.x的区别Hadoop组成HDFSYARNMapReduce 为什么说MR适合离线 Spark适合实时 Hadoop1.x和2.x的区别高内聚低耦合 Hadoop组成 HDFS HDFS-负责海量数据的存储: NameNode（nn）:管理真实数据的元数据的（hdfs集群中的老大&am…

【Hadoop】在Spark-Shell中删除Hive内部表和外部表的数据

你跨越万水千山只一眼便似万年梦里繁花也搁浅相逢不记前缘再聚凭何怀缅东风也叹路途远命运缠丝线情不愿消散恩怨皆亏欠世间踏遍难抵人生初相见 🎵 刘美麟《初见》 Apache Spark是一个强大的分布式数据处理框架，它提供了对…

Hive面试重点

文章目录 1.简述hive读写文件机制2. hive和传统数据库之间的区别 1.简述hive读写文件机制 Hive 读写文件的机制主要涉及到数据的导入和导出，以及数据在 Hadoop 分布式文件系统（HDFS）中的存储和管理。数据导入： Hive 可以从多种数…

Hive自定义UpperGenericUDF函数

Hive自定义UpperGenericUDF函数当创建自定义函数时，推荐使用 GenericUDF 类而不是 UDF 类，因为 GenericUDF 提供了更灵活的功能和更好的性能。以下是使用 GenericUDF 类创建自定义函数的步骤： 编写Java函数逻辑：编写继承自 Gener…

【HDFS】hdfs的count命令的参数详解

Usage: hadoop fs -count [-q] [-h] [-v] [-x] [-t [<storage type>]] [-u] [-e] [-s] <paths

【HDFS】客户端读某个块时，如何对块的各个副本进行网络距离排序？

本文包含如下内容： ① 通过图解+源码分析/A1/B1/node1和 /A1/B2/node2 这两个节点的网络距离怎么算出来的 ② 客户端读文件时，副本的优先级。（怎么排序的，排序规则都有哪些？） ③ 我们集群发现的一个问题。客户端读时，通过调用getBlockLocations RPC 获取文件的各个块。…

浅学实战：探索PySpark实践，解锁大数据魔法！

文章目录 Spark和PySpark概述1.1 Spark简介1.2 PySpark简介二基础准备2.1 PySpark库的安装2.2 构建SparkContext对象2.3 SparkContext和SparkSession2.4 构建SparkSession对象2.5 PySpark的编程模型三数据输入3.1 RDD对象3.2 Python数据容器转RDD对象3.3 读取文件转RDD对象…

YARN框架和其工作原理流程介绍

目录一、YARN简介二、YARN的由来三、YARN的基本设计思想四、YARN 的基本架构 4.1 基本架构图 4.2 基本组件介绍 4.2.1 ResourceManager 4.2.1.1 任务调度器(Resource Scheduler) 4.2.1.2 应用程序管理器（Applications Manager） 4.2.1.3 其他…

【hive】hive修复分区或修复表以及msck命令的使用

【hive】hive修复分区或修复表以及msck命令的使用文章目录【hive】hive修复分区或修复表以及msck命令的使用问题原因：解决方法：msck命令解析：例子: 问题原因： 之前hive里有数据，后面存储元数据信息的MySQL数据库坏…

PySpark安装及WordCount实现（基于Ubuntu）

先盘点一下要安装哪些东西： VMwareubuntu 14.04（64位）Java环境（JDK 1.8）Hadoop 2.7.1Spark 2.4.0（Local模式）Pycharm （一）Ubuntu VMware 和 ubuntu 14.04（…

本地安装hadoop及其依赖组件

安装目录以及各个版本大数据安装版本软件版本备注hadoophadoop-3.3.4hdfs基础sparkspark-3.2.4-bin-hadoop3.2计算框架zookeeperapache-zookeeper-3.5.7-bin分布式服务器hbasehbase-2.4.11列式存储hiveapache-hive-3.1.3-bin数仓元数据启动服务 su - hadoop -- 启动hadoo…

Hive on Spark （1）

spark中executor和driver分别有什么作用？ Spark中Executor 在 Apache Spark 中，Executor 是分布式计算框架中的一个关键组件，用于在集群中执行具体的计算任务。每个 Executor 都在独立的 JVM 进程中运行，可以在集群的多台机器上…

【1-3章】Spark编程基础(Python版)

课程资源：（林子雨）Spark编程基础(Python版)_哔哩哔哩_bilibili 第1章大数据技术概述（8节） 第三次信息化浪潮：以物联网、云计算、大数据为标志 （一）大数据大数据时代到来的原因…

Hadoop学习一（初识大数据）

目录一什么是大数据？ 二大数据特征三分布式计算四 Hadoop是什么? 五 Hadoop发展及版本六为什么要使用Hadoop 七 Hadoop vs. RDBMS 八 Hadoop生态圈九 Hadoop架构一什么是大数据？ 大数据是指无法在一定时间内用常规软件工具对其内…

简单理解Hadoop（Hadoop是什么、如何工作）

一、Hadoop主要的任务部署分为3个部分，分别是：Client机器，主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce进行监控和调度数据的并行处理时，名称节点则负责HDFS监视和…

同一个局域网主机中的一台主机连接另一台主机的虚拟机

星光下的赶路人star的个人主页理想的路总是为有信心的人预备着文章目录 1、描述问题2、解决前提3、解决办法4、实操4.1 虚拟机配置4.2 主机防火墙配置（是你要连接虚拟机的所在的主机）4.3 连接测试 1、描述问题想要连接朋友主机的虚拟机，利…

hive表的全关联full join用法

背景：实际开发中需要用到全关联的用法，之前没遇到过，现在记录一下。需求是找到两张表的并集。全关联的解释如下； 下面建两张表进行测试 test_a表的数据如下 test_b表的数据如下； 写第一个full join 的SQL进行查询…

业界主流的RPC框架有哪些，Dubbo与Hadoop RPC的区别

业界主流的RPC框架有哪些？Dubbo与Hadoop RPC的区别？

hadoop到底是什么

这就是Hadoop 一天天都在说hadoop,到底什么才是hadoop呢？ 1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 1)、 Hadoop实现了一个分布式…

【hadoop】Linux安装和配置

安装 RedHat Linux 7.4 创建新的虚拟机选择“自定义（高级）” 选择“下一步” 选择“稍后安装操作系统” 选择操作系统的类型设置虚拟机名称和保存路径下一步下一步设置网络类型，选择“使用仅主机模式网络” 下一步下一步下一步设置硬…

hive-sql

hive-常用SQL汇总查看数据库 -- 查看所有的数据库 show databases; 使用默认的库 -- 下面的语句可以查看默认的库 use default ;查看某个库下的表 -- 查看所有的表 show tables ; -- 查看包含 stu的表 ，这种是通配的方法来查看 show tables like *stu*; 查…

云原生数据库的幕后英雄：浅谈分布式数据库的计算和存储分离

引言分布式数据库替代传统商业数据库是近年最热门和最具争议的话题。理论上没有什么数据库不能被替代，现实却往往是代价大到难以承受。怎样才能更好的降低替代带来的代价呢？开源数据库TiDB创始人黄东旭在《近十年数据库流行趋势纵览！存储计算…

hadoop spark第一次接触

1. 第一次接触 Hadoop总结篇及面试常考点：https://blog.csdn.net/yu0_zhang0/article/details/81001421 阿里巴巴飞天大数据架构体系与Hadoop生态系统： https://zhuanlan.zhihu.com/p/82258807 hadoop HDFS常用文件操作命令： https://segmen…

3 自制一个集群分发脚本

1. 随便取了一个名字：xsync 2. 在一个配置环境变量的目录下，我是放在了/opt/software下，这个路径我是配置了环境变量的。 3. 编辑脚本：vim xsync #!/bin/bash#1. 判断参数个数 if [ $# -lt 1 ] thenecho Not Enough Arguement!…

Hadoop 入门知识

Hadoop 的基本组成 HDFS 分布式文件管理系统，主要是用来实现分布式存储的底层支持。MapReduce 分布式程序处理框架，主要是实现对并行任务的程序支持。HDFS HDFS 采用的是主从结构(master/slave)模式。一个HDFS集群是由一个NameNode和若干个DataNode组成…

centos7进行hadoop伪分布式配置

接上篇文章https://blog.csdn.net/m0_49049914/article/details/120489822 1.配置core-site.xml 下面这段话放在configration中 <configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><des…

centos7安装jdk和hadoop(实力踩坑)

jdk安装可以看这篇博客，https://www.cnblogs.com/sxdcgaq8080/p/7492426.html很棒， hadoop安装看这篇http://dblab.xmu.edu.cn/blog/install-hadoop-in-centos/ 我补充的是这其中的你会遇到的错误的解决方案当你以为自己的hadoop安装好了，满…

ubuntu Hadoop 填坑记

执行bin/hadoop的时候一直connection failed 需要将/etc/hosts 里面的ubuntu 里面的127.0.1.1 改成127.0.0.1每次重启之后都会Hadoop的web管理页面都打不开，也就是localhost:8088 和 localhost:9870 进不去，但是bin/start-all.sh 正常在Hadoop 安装目录…

【hive】hive分桶表的学习

hive分桶表的学习前言： 每一个表或者分区，hive都可以进一步组织成桶，桶是更细粒度的数据划分，他本质不会改变表或分区的目录组织方式，他会改变数据在文件中的分布方式。分桶规则： 对分桶字段值进行哈…

Ubuntu 14.04下 Hadoop3.0-alpha 的安装

前提准备安装JDK 和 JRE jdk 安装网上下载jdk1.7包放入/usr/java/jdk1.8.0目录下在~/.bashrc 文件下添加如下语句 export JAVA_HOME/usr/java/jdk1.8.0 export JRE_HOME${JAVA_HOME}/jre export CLASSPATH.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH${JAVA_HOME}/bin:$P…

Hbase命令list正常执行，创建表报error: org.apache.hadoop.hbase.PleaseHoldException: master is initialzing

一、参考该篇博文及其评论：https://blog.csdn.net/Dream_bin/article/details/88343000 我是按照该博文内容删除/hbase，再全部重启后（hadoop、hbase、整台机器重启）创建表成功。如果在执行zkCli.sh报错可以执行以下语句&#x…

Hadoop的hdfs

1、Hadoop是什么实际应用： （1）FlumeLogstashKafkaSpark Streaming进行实时日志处理分析 1.1、小故事版本的解释小明接到一个任务：计算一个100M的文本文件中的单词的个数，这个文本文件有若干行，每行有若…

新手推荐:Hadoop安装教程_单机/伪分布式配置_Hadoop-2.7.1/Ubuntu14.04

下述教程本人在最新版的Hadoop 2.7.1中测试通过使用文件：hadoop-2.7.1.tar.gz 和 hadoop-2.7.1.tar.gz.mds --------------------------------------------------------------------------------------------------------------------- 当开始着手实践Hadoop时&am…

hadoop分布式安装部署详细视频教程(网盘附配好环境的CentOS虚拟机文件/hadoop配置文件)

参考资源下载：http://pan.baidu.com/s/1ntwUij3视频安装教程：hadoop安装.flvVirtualBox虚拟机：hadoop.part1-part5.rarhadoop文件：hadoop-2.2.0.tar.gzhadoop配置文件：hadoop_conf.tar.gzhadoop学习教程：炼…

Flume内置拦截器与自定义拦截器（代码实战）

官网上内置拦截器的表由于拦截器一般针对Event的Header进行处理，这里先介绍一下Event event是flume中处理消息的基本单元，由零个或者多个header和body组成。Header 是 key/value 形式的，可以用来制造路由决策或携带其他结构化信息(如事件的…

Hive无法启动的解决方案

关掉虚拟机后，重新启动后，按照Hadoop和Hive的流程重新启动，发现无法启动成功，特别是元数据服务无法启动，出现以下错误: Exception in thread “main” java.lang.RuntimeException: java.net.ConnectException: Call F…

Centos 解压到指定目录（tar解压命令）

常用的： tar -zxvf *****.tar.gz -C /opt/** (解压到指定目录)整理对应的命令 tar –xvf file.tar //解压 tar包 tar -xzvf file.tar.gz //解压tar.gz tar -xjvf file.tar.bz2 //解压 tar.bz2 tar –xZvf file.tar.Z //解压tar.Z unrar e file.rar //解压rar unzi…

Hadoop小结（下）

HDFS 集群 HDFS 集群是建立在 Hadoop 集群之上的，由于 HDFS 是 Hadoop 最主要的守护进程，所以 HDFS 集群的配置过程是 Hadoop 集群配置过程的代表。使用 Docker 可以更加方便地、高效地构建出一个集群环境。每台计算机中的配置 Hadoop 如何配置集群…

hdfs使用心得

基本概念 namenode和Secondary NameNode NameNode主要是用来保存HDFS的元数据信息，比如命名空间信息，块信息等。当它运行的时候，这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上。 NN有两个不同的文件： fsimage - …

【Hadoop】Hadoop 编译源码

目录为什么要源码编译Hadoop 编译源码1前期工作准备2jar 包安装2.1安装 Maven2.2安装 ant2.3安装 glibc-headers 和 g2.4安装 make 和 cmake2.5安装 protobuf2.6安装 openssl 库2.7安装 ncurses-devel 库 3编译源码3.1解压源码到 /opt/ 目录3.2 进入到 hadoop 源码主目录 /opt…

大数据开发（Hadoop面试真题）

大数据开发（Hadoop面试真题） 一、HDFSⅠ、HDFS基础概念和架构1、HDFS的作用2、介绍下HDFS，说下HDFS优缺点，以及使用场景？3、请解释一下Hadoop中NameNode和DataNode的作用。4、请解释一下HDFS架构中NameNode和DataNode之…

【HDFS】DatanodeAdminBackoffMonitor退役节点极慢的问题定位

一、现象：下节点特别慢。10台节点，每台大约需要退役60w个块。但是3个小时才退役了3000多个块。 NN侧如下日志，可以看到30秒只退役了512-494 = 20个块，这要是退役600w个块，得猴年马月？ 2024-03-19 14:44:42,952 INFO org.apache.hadoop.hdfs.server.blockmanagement.D…

Spark面试整理-Spark与Hadoop的区别

Apache Spark和Hadoop是两个在大数据领域广泛使用的框架，它们有一些相似之处，但在设计和性能方面也有显著的不同。了解它们之间的区别有助于选择适合特定需求的工具。相似之处目的：Spark和Hadoop都是为了处理大规模的数据集。生态系统：它们都拥有一个丰富的生态系统和社区…

Hive和Hadoop版本对应关系

通过 Downloads (apache.org) 即可查看

hive SQL 移位、运算符、REGEXP正则等常用函数

orderflag & shiftleft(1,14) shiftleft(1,14) SQL中使用的运算符号详解_sql中各种符号-CSDN博客 Hive函数_hive shift-CSDN博客 （内建函数（类型排序）_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心）

Hive SQL必刷练习题：留存率问题（*****）

留存率： 首次登录算作当天新增，第二天也登录了算作一日留存。可以理解为，在10月1号登陆了。在10月2号也登陆了，那这个人就可以算是在1号留存今日留存率 （今日登录且明天也登录的用户数） / 今日登录的总…

复试专业前沿问题问答合集8-3——RNN、Hadoop、GPT大语言模型

复试专业前沿问题问答合集8-3——RNN、Hadoop、GPT大语言模型深度学习中的的RNN、Hadoop、GPT大语言模型的原理关系问答： GPT（Generative Pre-trained Transformer）和RNN（Recurrent Neural Network）是两种在自然语言处理（NLP）领域广泛使用的深度学习模型。它们在处理…

hive学习记录

问题集合 Q：终端启动hive时报错：/tmp/hive on HDFS should be writable？ A：hdfs dfs -chmod 777 /tmp/hive Q：hive： unable to create database path file…错误 A：在hive-site.xml里面添加以…

【Hadoop大数据技术】——Hadoop高可用集群（学习笔记）

📖 前言：Hadoop设计之初，在架构设计和应用性能方面存在很多不如人意的地方，如HDFS和YARN集群的主节点只能有一个，如果主节点宕机无法使用，那么将导致HDFS或YARN集群无法使用，针对上述问题&#…

【解决】Hadoop部署完成后无法通过浏览器访问

Hadoop Web 界面：Hadoop 提供了一些 Web 界面来监控集群状态和执行作业。可以尝试在浏览器中访问以下 URL 之一： HDFS 界面：http://<NameNode_Host>:50070 （查看 HDFS 文件系统状态） YARN 界面：http:…

【大数据】四、HDFS 基础操作

IDE 连接在本地电脑上解压 hadoop.tar.gz，配置环境变量之后去github 上把 winutil.exe 和 hadoop.dll 下载到 hadoop 的bin 文件夹下再修改 etc/hadoop-env.cmd 中的 JDK 路径我们使用 IDEA 打开一个 JAVA Maven项目，进行测试注意&#xff0…

Scala第十一章节(Option类型和偏函数)

2. Option类型 2.1 概述实际开发中, 在返回一些数据时, 难免会遇到空指针异常(NullPointerException), 遇到一次就处理一次相对来讲还是比较繁琐的. 在Scala中, 我们返回某些数据时，可以返回一个Option类型的对象来封装具体的数据，从而实现有效的避…

Flume概念与其组件的分析和使用（超详细）

概述 1.Flume的定义 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。 Flume最主要的作用是，实时读取服务器本地磁盘的数据，将数据写入到HDFS。 …

一亿张纸质选票和 bug 频发的扫描仪，将左右美国大选？

By 超神经内容提要：美国大选正式拉开帷幕。今年选民热情高涨，投票率创历史新高，预计将有 1.5-1.6 亿选票，因此，选票统计可能仍需时日，最终结果未必会在大选当日揭晓。在这期间，又是否会出现一些…

Hadoop HA集群两个NameNode都是standby或者主NameNode是standby，从NameNode是active的情况集锦

文章目录背景架构HDFS HA配置错误原因解决方案方案一方案二方案三（首先查看自己各参数文件是否配置出错） 后记补充failovertransitionToActive 常用端口号及配置文件常用端口号hadoop3.xhadoop2.x 常用配置文件这里说一下配置Hadoop HA集群可能出现的两…

最全分布式文件系统 HDFSYARNMapReduce详讲

HDFS简介 Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDF…

hive sql 拆解字段

在Hive SQL中，拆解字段通常涉及到字符串操作，如将一个包含多个部分的字符串拆解成多个独立的字段。可以使用内置的字符串函数来实现这个目标。以下是一些常见的用于拆解字段的字符串函数和示例： 1.SUBSTRING(str, start, length)：…

Hadoop小结（上）

最近在学大模型的分布式训练和存储，自己的分布式相关基础比较薄弱，基于深度学习的一切架构皆来源于传统，我总结了之前大数据的分布式解决方案即Hadoop： Why Hadoop Hadoop 的作用非常简单，就是在多计算机集群环境中营…

大数据项目实战（Hadoop集群搭建）

一，搭建大数据集群环境 1.2 Hadoop集群搭建 1.2.1 jdk安装 1.下载jdk (1)在根目录下创建三个子目录以备后用。具体如下： mkdir -p /export/data mkdir -p /export/software mkdir -p /export/servers (2)下载路径： 1、官网下载地址http…

Hadoop服务脚本

#!/bin/bash process("NameNode" "SecondaryNameNode" "DataNode" "NodeManager" "ResourceManager") JAVA_HOME"/opt/software/jdk1.8.0_371" HADOOP_HOME"/opt/software/hadoop-3.3.6"# 定义颜色的AN…

Hadoop启动以后，DataNode无法启动，不报错

这个就是当我们启动Hadoop时候，查看的时候会发现DataNode启动不了，但是也没有报错，那么这个问题怎么解决呢？ 解决办法 1.先看hdfs-site.xml是否正确 2.打开NameNode下的VERSION文件，复制其cluster ID一行，…

安装和设置ssh无密码登录

Hadoop作为大数据存储和处理的平台，是Apache软件基金会的开放源码，免费且广泛使用的软件，Hadoop的名称来自于原作者的孩子的玩具，黄色小象因此是Hadoop的标志。大家也知道，Hadoop有多台服务器组成的，当我们…

Hadoop大数据实战（二）--ubtuntu14.0安装Hadoop最全教程

目录1.安装jdk2.下载Hadoop3.设置Hadoop环境变量4.Hadoop配置文件设置5.创建并格式化 hdfs目录6.关闭防火墙7.启动Hadoop8.打开Hadoop web界面1.安装jdk 步骤1：启动终端：使用快捷键 CtrlAltT启动。也可以单击快捷工具栏的“终端”程序图标来启动。步骤…

【Sqoop教程】Sqoop学习教程以相关资料

当使用Sqoop进行数据传输时，以下是更详细的步骤和示例： 步骤1：安装和配置Sqoop 下载Sqoop并解压缩到指定目录。配置sqoop-env-template.sh文件，设置JAVA_HOME、HADOOP_COMMON_HOME等环境变量，并另存为sqoop-env.sh。…

Flume详解（2）

Flume Sink HDFS Sink 将数据写到HDFS上。数据以文件形式落地到HDFS上，默认是以FlumeData开头，可以通过hdfs.filePrefix来修改 HDFS Sink默认每隔30s会滚动一次生成一个文件，因此会导致在HDFS上生成大量的小文件，实际过程中&am…

大数据主要组件HDFS Iceberg Hadoop spark介绍

HDFSIceberghadoopspark HDFS 面向PB级数据存储的分布式文件系统，可以存储任意类型与格式的数据文件，包括结构化的数据以及非结构化的数据。HDFS将导入的大数据文件切割成小数据块，均匀分布到服务器集群中的各个节点，并且每个数据…

Hive自定义GenericUDF函数

Hive自定义GenericUDF函数当创建自定义函数时，推荐使用 GenericUDF 类而不是 UDF 类，因为 GenericUDF 提供了更灵活的功能和更好的性能。以下是使用 GenericUDF 类创建自定义函数的步骤： 编写Java函数逻辑：编写继承自 GenericUDF…

cdp集群yarn组件ResourceManager无法启动问题记录

前言：cdp集群装了Kerberos认证，在进行权限集成时集群所有组件高可用状态失效，yarn组件ResourceManager停止查看ResourceManager组件日志，报错如下： Error starting ResourceManager org.apache.hadoop.service.Servi…

hadoop基本概念

一、概念 Hadoop 是一个开源的分布式计算和存储框架。 Hadoop 使用 Java 开发，所以可以在多种不同硬件平台的计算机上部署和使用。其核心部件包括分布式文件系统 (Hadoop DFS，HDFS) 和 MapReduce。二、HDFS 命名节点 (NameNode) 命名节点 (NameNod…

【Hive】HIVE运行卡死没反应

Hive运行卡死再次强调 hive：小兄弟，没想到吧，咱可不是随便的人。😄 那么，这次又遇见了hadoop问题，问题描述是这样的。 hive> insert into test values(1, nucty, 男); Query ID atguigu_202403241754…

Hadoop大数据应用：HDFS 集群节点缩容

目录一、实验 1.环境 2.HDFS 集群节点缩容二、问题 1.数据迁移有哪些状态 2.数据迁移失败一、实验 1.环境 （1）主机表1 主机主机架构软件版本IP备注hadoop NameNode （已部署） SecondaryNameNode （已部署…

大数据开发--01.初步认识了解

一.环境准备 1.使用虚拟机构建至少三台linux服务器 2.使用公有云来部署服务器二.大数据相关概念大数据是指处理和分析大规模数据集的一系列技术、工具和方法。这些数据集通常涉及海量的数据，包括结构化数据（如关系型数据库中的表格）以及…

hadoop分布式环境搭建

准备三台centos虚拟机。（master，slave1，slave2） (hadoop、jdk文件链接：https://pan.baidu.com/s/1wal1CSF1oO2h4dkSbceODg 提取码：4zra) 前四步可参考hadoop伪分布式环境搭建详解-CSDN博客 1.修改主机名…

Hive实现查询左表有右表没有的记录

工作中遇到这样一个场景，业务逻辑是：如果一个主体发生了某一问题，就不再统计该主体的其他问题。思路：首先想到的方法就是not in方法，但是Hive并不不支持。那么使用left join对两个表进行连接，右表主键为空…

总结:HDFS+YARN+HIVE

总结:HDFSYARNHIVE 第一章 Hello大数据&分布式Part1 数据导论一. 数据二. 数据的价值 Part2 大数据诞生Part3 大数据概述一. 什么是大数据二.大数据特征三.大数据的核心工作 Part4 大数据软件生态一. 大数据软件生态 Part5 Apache Hadoop 概述一. Hadoop概念第二章分布式…

搭建hive环境,并解决后启动hive命令报 hive: command not found的问题

一、问题解决 1、问题复现 2、解决问题查阅资料得知该问题大部分是环境变量配置出了问题，我就输入以下命令进入配置文件检查自己的环境变量配置： [rootnode03 ~]# vi /etc/profile 检查发现自己的hive配置没有问题 ，于是我就退出&#xf…

数据分析之Hadoop详解

1.1 什么是Hadoop - Hadoop的概念: Apache™ Hadoop 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算框架允许使用简单的编程模型跨计算机集群分布式处理大型数据集可扩展: 从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储可靠的:…

数据分析之Hadoop详解

1.1 什么是Hadoop - Hadoop的概念: Apache™ Hadoop 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算框架允许使用简单的编程模型跨计算机集群分布式处理大型数据集可扩展: 从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储可靠的:…

大数据Spark面试题2023

文章目录Spark核心——RDD概念特点创建方式RDD的分区依赖关系Spark的shuffle介绍Spark的 Partitioner 分区器都有哪些?Spark中的算子都有哪些RDD工作流📌Spark运行模式(资源调度框架的使用，了解)📌讲一下Spark 的运行架构一个spark程序的执行…

Hadoop大数据开发实战（一）

大数据（巨型数据集合） LinuxHadoopmrzookeeperhivesqoophbaseflume 1 .Linux的目录结构 2.三种网络模式： -bridged （桥接方式，默认是使用vmnet0虚拟网卡） -net （网络地址转换模式，默…

【Hadoop】绪论

Hadoop绪论第一章：Hadoop背景知识与起源第二章：搭建Hadoop环境第三章：Hadoop的体系架构第四章：HDFS第五章：MapReduce第六章：HBase：基于HDFS之上的NoSQL数据库第七章：Hive&#xff1…

2016年最值得关注的大数据领域33大预测

2016年大数据领域会发生什么情况？考虑到如今在深层神经网络和规范性分析方面取得的进展，你可能觉得这个问题很好回答。而实际上，来自业界的大数据预测大不相同，本文精选出了最值得关注的33个预测，为您开启未知的2016&a…

Hadoop 入门例子

“Hello World”–WordCount 我们这里设置两个输入文件，都在input目录下，输出放在output目录下上诉的两个目录都作为main的参数传进来Map程序 /*** 这个map的作用是用来计数每个单词出现的次数* LongWritable 代表的是输入的key值类型* Text 代表的是…

Hadoop支持LZO压缩

LZO（Lempel-Ziv-Oberhumer）是一种快速压缩算法，特别适用于大数据处理。在Hadoop生态系统中，LZO压缩通常用于Hadoop MapReduce作业的输入和输出数据，以减少存储空间和数据传输的开销。以下是在Hadoop中使用LZO压缩的一般步骤：安装LZO库和工具：首先，需要在Hadoop集群…

【hive】hive中row_number() rank() dense_rank()的用法

hive中row_number() rank() dense_rank()的用法一、函数说明主要是配合over()窗口函数来使用的，通过over(partition by order by )来反映统计值的记录。 rank() over()是跳跃排序，有两个第二名时接下来就是第四名(同样是在各个分组内)dense_rank() …

正中优配：炒股软件自动提示买卖点？

股票商场好像大海般改变多端，许多股民往往由于没有精确的生意点而错失良机，导致亏损惨重。在这种情况下，许多炒股爱好者就开始寻觅主动提示生意点的炒股软件，以便在股票商场中抢占先机。可是，真的有这样奇特的炒股软…

大数据组件Sqoop-安装与验证

🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 个人主页：beixi 本文章收录于专栏（点击传送）：【大数据学习】 💓💓持续更新中，感谢各位前辈朋友们支持…

0301yarnmapredude入门-hadoop-大数据学习

文章目录 1 MapReduce概述2 YARN2.1 yarn概述2.2 yarn与MapReduce关系2.3 yarn架构2.4 辅助角色 3 MapReduce & YARN部署3.1 集群规划3.2 配置文件3.3 分发配置文件 4 体验4.1 集群启动命令介绍4.2 提交MapReduce任务到YARN执行结语 1 MapReduce概述分布式计算是一种计算…

Hive 表注释乱码解决

文章目录出现原因MySQL 字符集修改调整元数据库字符集测试出现原因一般 Hive 的元数据信息都存储在 MySQL 中，但 MySQL 数据库中的 character_set_server 和 character_set_database 参数，默认都为 latin1 字符集，这两个参数决定了服务器…

7 集群基本测试

1. 上传小文件到集群在hadoop路径下执行命令创建一个文件夹用于存放即将上传的文件： [atguiguhadoop102 ~]$ hadoop fs -mkdir /input上传： [atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -put wcinput/work.txt /input2.上传大文件 [atguiguhadoop1…

【Hive-小文件合并】Hive外部分区表利用Insert overwrite的暴力方式进行小文件合并

这里我们直接用实例来讲解，Hive外部分区表有单分区多分区的不同情况，这里我们针对不同情况进行不同的方式处理。利用overwrite合并单独日期的小文件 1、单分区 # 开启此表达式：(sample_date)?. set hive.support.quoted.identifiersnon…

MPP 还是主流架构吗

MPP 架构： MPP 架构的产品： Impala ClickHouse Druid Doris 很多 OLAP 引擎都采用了 MPP 架构批处理系统 - 使用场景分钟级、小时级以上的任务，目前很多大型互联网公司都大规模运行这样的系统，稳定可靠，低成本。…

Hadoop的分布式文件存储系统HDFS组件的使用

Hadoop的第一个核心组件：HDFS（分布式文件存储系统） 一、HDFS的组成1、NameNode2、DataNode3、SecondaryNameNode4、客户端：命令行/Java API 二、HDFS的基本使用1、命令行操作2、Java API操作三、HDFS的工作流程问题（H…

Hadoop的第二个核心组件：MapReduce框架第四节

Hadoop的第二个核心组件：MapReduce框架十、MapReduce的特殊应用场景1、使用MapReduce进行join操作2、使用MapReduce的计数器3、MapReduce做数据清洗十一、MapReduce的工作流程：详细的工作流程第一步：提交MR作业资源第二步：运行M…

Hive原理剖析

一、简介 Hive是建立在Hadoop上的数据仓库框架，提供大数据平台批处理计算能力，能够对结构化/半结构化数据进行批量分析汇总完成数据计算。提供类似SQL的Hive Query Language语言操作结构化数据，其基本原理是将HQL语言自动转换成MapReduce任务…

hadoop学习：mapreduce的wordcount时候，继承mapper没有对应的mapreduce的包

踩坑描述：在学习 hadoop 的时候使用hadoop 下的 mapreduce，却发现没有 mapreduce。第一反应就是去看看 maven 的路径对不对 settings——》搜索框搜索 maven 检查一下 Maven 路径对不对 OK 这里是对的那么是不是依赖下载失败导致 mapreduce 没下下…

两个hdfs之间迁移传输数据

本文参考其他大数据大牛的博文做了整理和实际验证，主要解决hdfs跨集群复制/迁移问题。在hdfs数据迁移时总会涉及到两个hdfs版本版本问题，致力解决hdfs版本相同和不同两种情况的处理方式，长话短说，进正文。 distcp: hadoop自带的…

Servlet的使用（JavaEE初阶系列17）

目录前言： 1.Servlet API的使用 1.1HttpServlet 1.2HttpServletRequest 1.3HttpServletResponse 2.表白墙的更新 2.1表白墙存在的问题 2.2前后端交互接口 2.3环境准备 2.4代码的编写 2.5数据的持久化 2.5.1引入JDBC依赖 2.5.2创建数据库 2.5.3编写数…

0201hdfs集群部署-hadoop-大数据学习

文章目录 1 前言2 集群规划3 hadoop安装包上传与安装3.1 上传解压 4 hadoop配置5 从节点同步和环境变量配置6 创建用户7 集群启动8 问题集8.1 Invalid URI for NameNode address (check fs.defaultFS): file:/// has no authority. 结语 1 前言下面我们配置下单namenode节点h…

深入了解Hadoop：特性与伪分布式运行进程

引言 Hadoop是一个强大的分布式计算框架，它能够对大规模数据进行可靠、高效和可伸缩的处理。随着数据量的不断增长，企业对于处理大规模数据的需求也越来越高，Hadoop因此成为了大数据处理领域的首选技术。本文将深入探讨Hadoop的特性以及伪分…

Hadoop 集群

部署准备可以访问的 web 页面全部绑定了 127.0.0.1。禁止外部访问，需要访问可以使用 nginx 反向代理增加鉴权之后暴露出去。如果不需要可以替换 IP 。 host配置各个节点设置hostname，并且修改/etc/hosts or 设置 DNS 服务器增加 hostname 到 IP 的…

Hive SQL必刷练习题：排列组合问题【通过join不等式】

排列组合问题【通过join不等式】这种问题，就是数学的排列不等式，一个队伍只能和其余队伍比一次，不能重复方法1：可以直接通过join，最后on是一个不等式【排列组合问题的解决方式】方法2：也可以是提前多加…

hadoop 高可用（HA）、HDFS HA、Yarn HA

目录 hadoop 高可用(HA) HDFS高可用 HDFS高可用架构 QJM 主备切换： Yarn高可用 hadoop 高可用(HA) HDFS高可用 HDFS高可用架构 QJM 主备切换： Yarn高可用

Hadoop面试重点

文章目录 1. Hadoop 常用端口号2.Hadoop特点3.Hadoop1.x、2.x、3.x区别 1. Hadoop 常用端口号 hadoop2.xhadoop3.x访问HDFS 端口500709870访问 MR 执行情况端口80888088历史服务器1988819888客户端访问集群端口90008020 2.Hadoop特点高可靠：Hadoop底层维护多个数…

大数据Hadoop生态圈体系视频课程

课程介绍熟悉大数据概念，明确大数据职位都有哪些；熟悉Hadoop生态系统都有哪些组件；学习Hadoop生态环境架构，了解分布式集群优势；动手操作Hbase的例子，成功部署伪分布式集群；动手Hadoop安装和配…

Hive的简单学习一

一 Hive的搭建 1.1 准备好文件 1. apache-hive-3.1.2-bin.tar.gz 2.mysql-connector-java-8.0.29.jar 3.上传到linux中 1.2 安装 1.解压 tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /usr/local/soft/ 2.重命名 mv apache-hive-3.1.2-bin hive-3.1.2 3.配置环境变量 …

【hive】单节点搭建hadoop和hive

一、背景需要使用hive远程debug，尝试使用无hadoop部署hive方式一直失败，无果，还是使用有hadoop方式。最终查看linux内存占用6GB，还在后台运行docker的mysql(bitnami/mysql:8.0)，基本满意。版本选择： &a…

Hive-生产常用操作-表操作和数据处理技巧-202404

hive语句操作我这个只涉及到hive的对表的操作，包括建表，建分区表，加载数据，导出数据，查询数据，删除数据，插入数据，以及对hive分区表的操作，包括查看分区，添加…

利用hdfs gateway挂载NFS到本地

HDFS NFS Gateway HDFS提供了基于NFS(Network File System)的插件，可以对外提供NFS网关，供其它系统挂载使用。 NFS网关支持NFSv3,并允许将HDFS作为客户机本地文件系统的一部分挂载，现在支持： 上传、下载、删除、追加内容我们通过…

hadoop103: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).

分析： 在启动hadoop服务的时候，遇到了这个问题： hadoop103: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 这个一看就是，密钥问题于是ssh 主机名就行测试需要输入密码，就说明这里有问…

hadoop:hafs:上传文件、删除文件、改变文件权限等常用命令

Hadoop是一个开源的分布式计算框架，用于处理和分析大数据集。Hadoop提供了大量的命令来管理集群、处理数据以及执行其他相关任务。 🍀以下是一些常用的Hadoop命令的汇总： 1 启动和关闭Hadoop服务启动所有Hadoop服务 start-all.sh 关闭所有Ha…

大数据之 Hive 快速搭建的详细步骤

Hive hive 搭建三种模式：内嵌模式本地模式远程模式内嵌模式 Hadoop 和 Hive 整合修改 hadoop/etc/下的 core-site.xml： <property><name>hadoop.proxyuser.root.hosts</name><value>*</value> </property> <property><nam…

hive 谓词下推实例分析(on与where的区别)

测试数据 t1 表 select * from t1; ----------------------------------- | t1.id | t1.name | t1.age | t1.dt | ----------------------------------- | 1 | aa | 12 | 01 | | 1 | aa | 12 | 02 | | 2 | aa | 14 …

java与hadoop中正则表达式有什么区别

Java和Hadoop中的正则表达式有一些区别，主要体现在以下几个方面： 语法差异：Java中的正则表达式遵循Java的正则表达式语法，而Hadoop中的正则表达式基于Google的RE2库实现，语法稍有不同。例如，在Java中使用\d…

【Hive-Exception】return code 1 from org.apache.hadoop.hive.ql.exec.DDLTaskHIVE

解决方案： set hive.msck.repair.batch.size1; set hive.msck.path.validationignore; MSCK REPAIR TABLE table_name;如果不能设置值，会报错。 Error: Error while processing statement: Cannot modify hive.msck.path.validation at runtime. It is …

【Hive SQL 每日一题】统计用户连续下单的日期区间

文章目录测试数据需求说明需求实现测试数据 create table test(user_id string,order_date string);INSERT INTO test(user_id, order_date) VALUES(101, 2021-09-21),(101, 2021-09-22),(101, 2021-09-23),(101, 2021-09-27),(101, 2021-09-28),(101, 2021-09-29),(101, 20…

CentOS7安装时直接跳过了安装信息摘要页面的解决方法

最近在配置Hadoop虚拟机的时候，创建的centos7虚拟机在安装信息摘要时直接自动跳过，直接跳到设置用户名和密码，在重复多次的重新删除安装后发现了问题所在： 在进行到选择操作系统来源时，注意是否出现“该操作系统将使用…

mapreduce 的工作原理以及 hdfs 上传文件的流程

推荐两篇博文 mapreduce 的工作原理： 图文详解 MapReduce 工作流程_mapreduce工作流程_Shockang的博客-CSDN博客 hdfs 上传文件的流程 HDFS原理 - 知乎

Deepin 图形化部署 Hadoop Single Node Cluster

Deepin 图形化部署 Hadoop Single Node Cluster 升级操作系统和软件快捷键 ctrlaltt 打开控制台窗口更新 apt 源 sudo apt update更新系统和软件 sudo apt -y dist-upgrade升级后建议重启开启ssh服务打开资源管理器进入系统盘找到 etc 目录在系统盘的 etc 目录上右键…

使用nginx-lua配置统一url自动跳转到hadoop-ha集群的active节点

下载安装nginx所用的依赖 yum -y install gcc zlib zlib-devel pcre-devel openssl openssl-devel下载nginx wget http://nginx.org/download/nginx-1.12.2.tar.gz tar -xvf nginx-1.12.2.tar.gz稍后安装nginx 安装lua语言 yum install readline-develcurl -R -O http://w…

2 | Window 搭建单机 Hadoop 和Spark

搭建单机 Hadoop 和 Spark 环境可以学习和测试大数据处理的基础知识。在 Windows 操作系统上搭建这两个工具需要一些配置和设置，下面是一个详细的教程：注意：在开始之前，请确保你已经安装了 Java 开发工具包（JDK），并且已经下载了 Hadoop 和 Spark 的最新版本。你可以从…

hadoop学习：mapreduce入门案例四：partitioner 和 combiner

先简单介绍一下partitioner 和 combiner Partitioner类用于在Map端对key进行分区默认使用的是HashPartitioner 获取key的哈希值使用key的哈希值对Reduce任务数求模决定每条记录应该送到哪个Reducer处理自定义Partitioner 继承抽象类Partitioner，重写getPartiti…

ClickHouse配置Hdfs存储数据

文章目录背景配置单机配置HA高可用Hdfs集群参考文档背景由于公司初始使用Hadoop这一套，所以希望ClickHouse也能使用Hdfs作为存储看了下ClickHouse的文档，拿Hdfs举例来说，有两种方式来完成，一种是直接关联Hdfs上的数据文件&am…

大数据毕业设计选题推荐-收视点播数据分析-Hadoop-Spark-Hive

✨作者主页：IT研究室✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

Hadoop环境搭建及Demo

参考博客 Windows 10安装Hadoop 3.3.0教程 (kontext.tech) Hadoop入门篇——伪分布模式安装 & WordCount词频统计 | Liu Baoshuai’s Blog Hadoop安装教程 Linux版_linux和hadoop的安装_lnlnldczxy的博客-CSDN博客 hadoop启动出错 The value of property bind.address …

hadoop解决数据倾斜的方法

分析&回答 1，如果预聚合不影响最终结果，可以使用conbine，提前对数据聚合，减少数据量。使用combinner合并,combinner是在map阶段,reduce之前的一个中间阶段,在这个阶段可以选择性的把大量的相同key数据先进行一个合并,可以看做…

从零开始的Hadoop学习（五）| HDFS概述、shell操作、API操作

1. HDFS 概述 1.1 HDFS 产出背景及定义 1）HDFS 产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的…

【HDFS】XXXRpcServer和ClientNamenodeProtocolServerSideTranslatorPB小记

初始化RouterRpcServer时候会new ClientNamenodeProtocolServerSideTranslatorPB，并把当前RouterRpcServer对象（this）传入构造函数： ClientNamenodeProtocolServerSideTranslatorPBclientProtocolServerTranslator =new ClientNamenodeProtocolServerSideTranslatorPB(this…

在window上安装hadoop3.3.4

暑假不知道啥原因电脑死机啦。环境需要重新配一下首先需要配置Hadoop集群，但是为了代码调试方便需要先在Windows上配置Hadoop环境。 1.前期准备首先在搭建Hadoop环境之前需要先安装JDK，并且配置好Java环境变量。这里有个bug就是Java环境变量中不允许…

hdfs滚动升级（rollingUpgrade ）

最近对hdfs的升级过程很感兴趣，所以准备研究下其升级的过程，本篇文章是依据官网文档进行的升级过程（地址：Apache Hadoop 2.10.2 – HDFS Rolling Upgrade），该文章中还有关于降低的介绍，感兴趣的…

正中优配：A股上半年净赚近3万亿：谁是“盈利王”？谁是“亏损王”？

忙碌的半年报披露季划上句号。 2023年上半年，A股5267家上市公司获得营收算计达35.44万亿元，归母净利算计达2.95万亿元。归母净利亏本的企业达1014家，占上市公司数量的比重达20%。本年上半年，谁是上市公司“盈余王”&#xff1f…

JavaWeb篇_08——Servlet技术以及第一个Servlet案例

Servlet技术 Web开发历史回顾 CGI 公共网关接口（Common Gateway Interface，CGI）是Web 服务器运行时外部程序的规范。 CGI缺点以进程方式运行，对每一个客户端的请求都要启动一个进程来运行程序，导致用户数目增加时…

Hadoop -HDFS常用操作指令

1.启动HDFS hadoop/sbin/start-dfs.sh2.关闭 HDFS hadoop/sbin/stop-dfs.sh3. 在HDFS中创建文件夹 #老版本 hadoop fs -mkdir -p path #新版本 hadoop dfs -mkdir -p path4.查看指定目录下内容 hadoop fs -ls [-h] [-R] path hadoop dfs -ls [-h] [-R] ptahpath 指定…

从零开始的Hadoop学习（六）| HDFS读写流程、NN和2NN工作机制、DataNode工作机制

1. HDFS的读写流程（面试重点） 1.1 HDFS写数据流程 1.1.1 剖析文件写入 （1）客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 &#x…

如何免费获取CDH集群技术支持

CDH拥有全球70% 的Hadoop用户，在国内也拥有庞大的用户群体。由于Cloudera 和Hortonworks 合并后厂商政策调整，不再更新、不再免费、不再提供服务，众多企业用户生产集群面临着进退两难的窘境和未知的技术风险。社区版不再更新。Cloudera所有…

spark获取hadoop服务token

spark 作业一直卡在accepted 问题现象问题排查1.查看yarn app日志2.问题分析与原因问题现象通过yarn-cluster模式提交spark作业，客户端日志一直卡在submit app，没有运行问题排查 1.查看yarn app日志 appid已生成，通过yarn查看app状态为…

云计算与大数据——部署Hadoop集群并运行MapReduce集群(超级详细！)

云计算与大数据——部署Hadoop集群并运行MapReduce集群(超级详细！) Linux搭建Hadoop集群(CentOS7hadoop3.2.0JDK1.8Mapreduce完全分布式集群) 本文章所用到的版本号： CentOS7 Hadoop3.2.0 JDK1.8 基本概念及重要性很多小伙伴部署集群用hadoop用mapr…

云计算技术的选择题Hadoop的知识点

一单项选择题 (单选题)下列哪个不属于Hadoop的特性? A. 成本高 B. 高可靠性 C. 高容错性 D. 运行在Linux平台上正确答案: A:成本高; (单选题)Hadoop框架中最核心的设计是什么? A. 为海量数据提供存储的HDFS和对数据进行计算的MapReduce B. 提供整个HDFS文件系统的NameSpac…

docer安装hadoop

基于 Docker 构建 Hadoop 平台 0. 绪论使⽤ Docker 搭建 Hadoop 技术平台，包括安装 Docker 、 Java 、 Scala 、 Hadoop 、 Hbase 、 Spark 。集群共有 5 台机器，主机名分别为 h01 、 h02 、 h03 、 h04 、 h05 。其中 h01 为 master &#xff…

第1关：Hive 的 Alter Table 操作

相关知识为了完成本关任务，你需要掌握： 1.Alter Table 命令 Alter Table 命令 Alter Table 命令可以在 Hive 中修改表名，列名，列注释，表注释，增加列，调整列顺序，属性名等操作。…

cdh6.3.2集群在线主机扩容

cdh6.3.2集群在线主机扩容配置主机到添加节点的免密配置jdk挂在数据盘关闭添加节点的防火墙和selinux修改添加节点的hostname修改添加节点的/etc/hosts，添加主节点的hostname和ip地址的对应修改添加节点的时钟同步 & 重启时钟，将时钟的server保持和主节点一致发送安装包…

Hadoop3教程（十四）：MapReduce中的排序

文章目录 （99）WritableComparable排序什么是排序什么时候需要排序排序有哪些分类如何实现自定义排序 （100）全排序案例案例需求思路分析实际代码 （101）二次排序案例（102） 区内排序案例…

Hadoop+Hive+Spark+Hbase开发环境练习

1.练习一 1.数据准备在hdfs上创建文件夹，上传csv文件 [rootkb129 ~]# hdfs dfs -mkdir -p /app/data/exam 查看csv文件行数 [rootkb129 ~]# hdfs dfs -cat /app/data/exam/meituan_waimai_meishi.csv | wc -l 2.分别使用 RDD和 Spark SQL 完成以下分析&#xf…

Hadoop3教程（十七）：MapReduce之ReduceJoin案例分析

文章目录 （113）ReduceJoin案例需求分析（114）ReduceJoin案例代码实操 - TableBean（115）ReduceJoin案例代码实操 - TableMapper（116）ReduceJoin案例代码实操 - Reducer及Driver参考文献…

Hadoop集群资源管理器-YARN

1.YARN 简介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上，由 YARN 进行统一地管理和资源分配。 2.YARN架构

Hadoop3教程（十八）：MapReduce之MapJoin案例分析

文章目录 （118）MapJoin案例需求分析ReduceJoin的问题如何解决ReduceJoin的问题如何将一个文件主动缓存到集群的内存里 （119）MapJoin案例代码实现参考文献 （118）MapJoin案例需求分析 ReduceJoin的问题在R…

3D模型格式转换工具HOOPS Exchange对工业级3D产品HOOPS的支持与应用

一、概述 HOOPS Exchange是一套高性能模型转换软件库，可以给软件提供强大的模型的导入和导出功能，我们可以将其单独作为转换工具使用，也可以将其集成到自己的软件中。同样，HOOPS 的其它产品，也离不开HOOPS Exchange…

hadoop mapreduce的api调用WordCount本机和集群代码

本机运行代码 package com.example.hadoop.api.mr;import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache…

hadoop详解

HDFS: 1.HDFS文件系统: HDFS是大数据开源框架hadoop的组件之一，全称（Hadoop Distributed File System），它是一个分布式文件系统，由多台服务器联合起来实现文件存储功能,通过目录树来定位文件，集群中的服务器…

大数据毕业设计选题推荐-营业厅营业效能监控平台-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

JAVA生成ORC格式文件

一、背景由于需要用到用java生成hdfs文件并上传到指定目录中，在Hive中即可查询到数据，基于此背景，开发此工具类 ORC官方网站：https://orc.apache.org/ 二、支持数据类型三、工具开发 package com.xx.util;import com.alibab…

Hive篇面试题+详解

Hive篇面试题 1.什么是Hive？它的主要功能是什么？ Hive是一个基于Hadoop的数据仓库工具，它提供了一个类SQL的查询语言（HiveQL）来查询和分析存储在Hadoop集群中的大规模数据。Hive的主要功能是将结构化数据映射到Hadoop…

Filter与Listener（过滤器与监听器）

1.Filter 1.过滤器概述过滤器——Filter，它是JavaWeb三大组件之一。另外两个是Servlet和Listener 它可以对web应用中的所有资源进行拦截，并且在拦截之后进行一些特殊的操作在程序中访问服务器资源时，当一个请求到来，服务器首…

Hadoop：HDFS--分布式文件存储系统

目录 HDFS的基础架构 VMware虚拟机部署HDFS集群 HDFS集群启停命令 HDFS Shell操作 hadoop 命令体系： 创建文件夹 -mkdir 查看目录内容 -ls 上传文件到hdfs -put 查看HDFS文件内容 -cat 下载HDFS文件 -get 复制HDFS文件 -cp 追加数据到HDFS文件中 -appendTo…

Hadoop的第三大组成：YARN框架

Hadoop的第三大组成--YARN框架一、YARN基本概念二、YARN的基本架构组成1、ResourceManager：YARN集群的管理者2、NodeManager3、Container4、ApplicationMaster 三、YARN的详细工作流程--运行MapReduce四、YARN的资源调度器问题五、YARN的web网站问题一、YARN基本概…

探索Apache Hive：融合专业性、趣味性和吸引力的数据库操作奇幻之旅

大数据技术之Hadoop：MapReduce与Yarn概述（六）

目录一、分布式计算二、分布式资源调度 2.1 什么是分布式资源调度 2.2 yarn的架构 2.2.1 核心架构 2.2.2 辅助架构前面我们提到了Hadoop的三大核心功能：分布式存储、分布式计算和资源调度，分别由Hadoop的三大核心组件可以担任。即HDFS是分布式…

Spark 管理和更新Hadoop token 流程

Hadoop Token 管理 AM 通过 kerberos authenticationAM 获取 Yarn 和 HDFS TokenAM send tokens to containersContainers load tokens Enable debug message log4j.logger.org.apache.hadoop.securityDEBUG AM Generate tokens Logs: 23/09/07 22:38:50,375 INFO [main]…

【HDFS】Hadoop-RPC：客户端侧通过Client.Connection#sendRpcRequest方法发送RPC序列化数据

org.apache.hadoop.ipc.Client.Connection#sendRpcRequest：这个方法是客户端侧向服务端发送RPC请求的地方。调用点是Client#call方法过来的。此方法代码注释里描述了一个细节：这个向服务端发送RPC请求数据的过程并不是由Connection线程发送的，而是其他的线程（sendParams…

hadoop大数据集群中更换磁盘，balance的速度缓慢问题（解决）

hadoop大数据集群中更换磁盘，balance的速度缓慢问题（解决） 看现象只有4个bloucks在执行的调整参数： 增大配置参数，观察重新负载的速度修改配置文件 hdfs-site.xml dfs.datanode.balance.max.concurrent.moves100 …

Hive-安装与配置（1）

🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 个人主页：beixi 本文章收录于专栏（点击传送）：【大数据学习】 💓💓持续更新中，感谢各位前辈朋友们支持…

Hive中Join优化的几种算法

文章目录 1. Common Join2. Map Join3. Bucket Map Join4. Sort Merge Bucket Map Join （ SMB Map Join ） 1. Common Join Common Join 是最稳定且默认的Join算法，通过 MR Job 完成 Join 。需要注意的是，在三个表的 Join 关联中…

Spark有两种常见的提交方式：client 模式和 cluster 模式对机器 CPU 的影响

Spark有两种常见的提交方式：client 模式和 cluster 模式。这两种方式对机器 CPU 的影响略有不同 ，请参考以下说明 Client 模式： 在 Client 模式下，Spark Driver 运行在提交任务的客户端节点上（即运行 spark-submit 命…

代码生成商业化一些思考

代码生成解决方案生成项目代码有3大类的解决思路： 1.从底到上的生成，部分代码生成生成一行代码或者一个方法种一小块代码生成，ide插件代码生成基本这种思路 2.大语言模型作为软件工程不同角色agent，用户给出idea每个agent自动…

Hadoop MapReduce 调优参数

文章目录 MapReduce 调优参数详解MapReduce 调优参数一键复制前言： 下列参数基于 hadoop v3.1.3 版本，共三台服务器，配置都为 4 核，4G 内存。 MapReduce 调优参数详解这个参数定义了在 Reduce 阶段同时进行的拷贝操作的数量&…

大数据毕业设计选题推荐-农作物观测站综合监控平台-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

2023.11.8 hadoop学习-概述,hdfs dfs的shell命令

目录 1.分布式和集群 2.Hadoop框架 3.版本更新 4.hadoop架构详解 5.页面访问端口 6.Hadoop-HDFS HDFS架构 HDFS副本 7.SHELL命令 8.启动hive服务 1.分布式和集群分布式: 多台服务器协同配合完成同一个大任务(每个服务器都只完成大任务拆分出来的单独1个子任务)集群:…

大数据毕业设计选题推荐-家具公司运营数据分析平台-Hadoop-Spark-Hive

✨作者主页：IT研究室✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

2023.11.16 hivesql高阶函数之开窗函数

目录 1.开窗函数的定义 2.数据准备 3.开窗函数之排序需求:用三种排序方法查询学生的语文成绩排名,并降序显示 4.开窗函数分组需求:按照科目来分类,使用三种排序方式来排序学生的成绩 5.聚合函数与分组配合使用 6.聚合函数同时和分组以及排序关键字配合使用 --需求1&…

hive sql 取当周周一 str_to_date(DATE_FORMAT(biz_date, ‘%Y%v‘), ‘%Y%v‘)

select str_to_date(DATE_FORMAT(biz_date, %Y%v), %Y%v)方法拆解 select DATE_FORMAT(now(), %Y%v), str_to_date(202346, %Y%v)

L1 项目概述与Hadoop部署

1.技术栈：HadoopHiveSqoopFlumeAzkaban Flume采集Nginx web服务器上的日志，采集完成后存储到Hadoop的平台，最终存储到HDFS上，处理和分析采用Hive的方式，处理完之后利用Sqoop导出到Mysql中，最终利用一个Java…

大数据技术之Hadoop：提交MapReduce任务到YARN执行（八）

目录一、前言二、示例程序 2.1 提交wordcount示例程序 2.2 提交求圆周率示例程序三、写在最后一、前言我们前面提到了MapReduce，也说了现在几乎没有人再写MapReduce代码了，因为它已经过时了。然而不写代码不意味着它没用，当下很火…

Hive安装配置 - 本地模式

文章目录一、Hive运行模式二、安装配置本地模式Hive（一）安装配置MySQL1、删除系统自带的MariaDB2、上传MySQL组件到虚拟机3、在主节点上安装MySQL组件4、在主节点上配置MySQL（1）查看MySQL服务状态（2）查看M…

Hyper-v虚拟机Hadoop集群搭建

大数据 Hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。(海量数据存储) HDFS为海量的数据提供了存储，而MapReduce**分布式计算…

大数据技术之Flume（超级详细）

大数据技术之Flume（超级详细） 第1章概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。 1.2 Flume组成架构 Flume组成架构如…

Hdoop学习笔记（HDP）-Part.02 核心组件原理

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

2023.12.3 分布式SQL查询引擎-Presto

目录 1.Prosto简介 Apache Hadoop-MapReduce Apache Hive 2.Presto的优缺点 3.个人自用启动服务个人自用启动服务 4.presto和hive的区别 5.presto优化 1.Prosto简介 Apache Hadoop-MapReduce 优点：统一、通用、简单的编程模型，分而治之思想处理…

Hive环境准备[重点学习]

1.前提启动hadoop集群 hadoop在统一虚拟机中已经配置了环境变量启动hdfs和yarn集群命令:start-all.sh [rootnode1 /]# start-all.sh启动mr历史服务命令:mapred --daemon start historyserver [rootnode1 /]# mapred --daemon start historyserver检查服务命令:jps [r…

尚硅谷大数据项目《在线教育之实时数仓》笔记006

视频地址：尚硅谷大数据项目《在线教育之实时数仓》_哔哩哔哩_bilibili 目录第9章数仓开发之DWD层 P041 P042 P043 P044 P045 P046 P047 P048 P049 P050 P051 P052 第9章数仓开发之DWD层 P041 9.3 流量域用户跳出事务事实表 P042 DwdTrafficUserJum…

Java大数据开发入门教程：使用Hadoop处理海量数据

引言： 随着互联网的发展和智能设备的普及，数据量的爆炸式增长已成为现实。如何高效地处理和分析这些海量数据成为了当今技术领域的一个重要课题。在大数据领域，Hadoop作为一个开源的分布式计算框架，被广泛应用于海量数据的存储和处…

sql面试题之连续登陆问题以及连续登陆问题的扩展！！！

最大连续登陆天数问题在SQL领域，不管是刚入门的小白还是工作几年的大牛给人的感觉就是比较棘手且细思极恐的问题，今天我们通过两个案例从不同角度去了解连续登陆问题以及连续登陆问题变化的场景。消除恐惧的最好办法就是面对恐惧，加油！奥利给！某游戏公司有两张用户登陆表…

Hadoop学习笔记（HDP）-Part.09 安装OpenLDAP

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop学习笔记（HDP）-Part.19 安装Kafka

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

WPF仿网易云搭建笔记(0):项目搭建

文章目录前言项目地址项目Nuget包搭建项目初始化项目架构App.xaml引入MateralDesign资源包项目初步分析将标题栏去掉DockPanel初步布局资源字典举例结尾前言最近在找工作，发现没有任何的WPF可以拿的出手的工作经验，打算仿照网易云搭建一个WPF版本…

Name or service not knownstname

Name or service not knownstname Hadoop 或 Spark 集群启动时报错 Name or service not knownstname 原因时因为 workers 文件在windows 使用图形化工具打开过操作系统类型不对引发的在Linux系统上删除 workers 文件使用 vim 重新编辑后分发即可

基于hadoop下的spark安装

目录简介安装准备 spark安装配置文件配置简介 Spark主要⽤于⼤数据的并⾏计算，⽽Hadoop在企业主要⽤于⼤数据的存储（⽐如HDFS、Hive和HBase 等），以及资源调度（Yarn）。但是也有很多公司也在使⽤MR2进…

Linux Ubuntu环境下使用docker构建spark运行环境（超级详细）

Linux Ubuntu环境下使用docker构建spark运行环境（超级详细） 这篇文章深入研究了在Linux Ubuntu环境下使用Docker构建Spark运行环境的详细步骤。首先，文章介绍了Spark的基本概念以及在大数据处理中的关键作用，为读者提供了对Spa…

大数据云计算——Docker环境下部署Hadoop集群及运行集群案列

大数据云计算——Docker环境下部署Hadoop集群及运行集群案列本文着重介绍了在Docker环境下部署Hadoop集群以及实际案例中的集群运行。首先，文章详细解释了Hadoop的基本概念和其在大数据处理中的重要性，以及为何选择在Docker环境下部署Hadoop集群。接着&…

十五、YARN辅助架构

1、学习内容 （1）了解什么是代理服务器 （2）了解什么是历史服务器 2、辅助架构 （1）辅助架构的由来对于YARN架构来讲，除了ResourceManager集群资源总管家、NodeManager单机资源管家两个核心角…

十七、如何将MapReduce程序提交到YARN运行

1、启动某个节点的某一个用户 hadoopnode1:~$ jps 13025 Jps hadoopnode1:~$ yarn --daemon start resourcemanager hadoopnode1:~$ jps 13170 ResourceManager 13253 Jps hadoopnode1:~$ yarn --daemon start nodemanager hadoopnode1:~$ jps 13170 ResourceManager 15062 Jp…

hadoop运行jar遇到的一个报错

报错信息： 2023-12-19 14:28:25,893 INFO mapreduce.Job: Job job_1702967272525_0001 failed with state FAILED due to: Application application_1702967272525_0001 failed 2 times due to AM Container for appattempt_1702967272525_0001_000002 exited with…

Hadoop 集群环境搭建

目录第一部分：系统安装... 3 1：图形化安装... 3 2：选择中文... 3 3：安装选项... 3 4：软件选项... 4 5：安装位置... 4 6：网络配置... 6 7：开始安装... 7 8：创建用户... 7 9：重启系统... 7 10：登录测试... 8 第二部分：初始化设置... 9 1：SSH远程登录... 9 2：yum 源…

世界新冠疫情大数据案例

一、环境要求 HadoopHiveSparkHBase 开发环境。二、数据描述 countrydata.csv 是世界新冠疫情数，数据中记录了从疫情开始至 7 月 2 日，以国家为单位的每日新冠疫情感染人数的数据统计。字段说明如下： 世界新冠疫情数据 countrydata.cs…

Hive SQL判断一个字符串中是否包含字串的N种方式及其效率

Hive SQL判断一个字符串中是否包含字串的N种方式及其效率背景方案1:regexp_extract方案2:instr方案3:locate方案4:like方案5: rlike方案6:strpos 计算效率对比背景这是个常见需求，某个表tab中，需要判断某个string类型的字段中，哪些数据含…

hive中array相关函数总结

目录 hive官方函数解释示例实战 hive官方函数解释 hive官网函数大全地址： hive官网函数大全地址 Return TypeNameDescriptionarrayarray(value1, value2, …)Creates an array with the given elements.booleanarray_contains(Array, value)Returns TRUE if the a…

Hadoop入门学习笔记——二、在虚拟机里部署HDFS集群

视频课程地址：https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 Hadoop入门学习笔记（汇总） 目录二、在虚拟机里部署HDFS集群2.1. 部署node1虚拟机2.2. 部…

阿里云CentOS7安装Hadoop3伪分布式

ECS准备开通阿里云ECS 略控制台设置密码连接ECS 远程连接工具连接阿里云ECS实例，这里远程连接工具使用xshell 根据提示接受密钥根据提示写用户名和密码用户名：root 密码：在控制台设置的密码修改主机名将主机名从localhost改为需要…

Sqoop【实践 02】Sqoop1最新版全库导入 + 数据过滤 + 字段类型支持说明及举例代码（query参数及字段类型强制转换）

Sqoop1最新版举例 1.环境说明2.import-all-tables3.query4.字段类型支持 1.环境说明还是之前的环境： # 不必要信息不再贴出 # JDK [roottcloud ~]# java -version java version "1.8.0_251" # MySQL [roottcloud ~]# mysql -V mysql Ver 14.14 Distrib…

hadoop伪分布式环境启动时web端访问不到

在搭建hadoop伪分布式环境时，开启hdfs-site.sh后，web端访问不到，但是节点已经正常开启： 在尝试关闭防火墙后也没有效果，后来在/etc/hosts文件中加入本机的ip和主机名映射后，重新初始化namenode，…

WPF自定义Panel：让拖拽变得更简单

在 WPF 应用程序中，拖放操作是实现用户交互的重要组成部分。通过拖放操作，用户可以轻松地将数据从一个位置移动到另一个位置，或者将控件从一个容器移动到另一个容器。然而，WPF 中默认的拖放操作可能并不是那么好用。为了解决这个问…

Linux（centos7）部署hadoop集群

部署环境要求：已完成JDK环境部署、配置完成固定IP、SSH免费登录、防火墙关闭等。 1、下载、上传主机官网：https://hadoop.apache.org 2、解压缩、创建软连接解压： tar -zxvf hadoop-3.3.6.tar.gz软连接： ln -s /usr/local/apps/hadoop-3.3.6 hadoop3、文件配置 hadoo…

YARN集群和 MapReduce 原理及应用

YARN集群模式本文内容需要基于 Hadoop 集群搭建完成的基础上来实现如果没有搭建，请先按上一篇: <Linux 系统 CentOS7 上搭建 Hadoop HDFS集群详细步骤> 搭建：https://mp.weixin.qq.com/s/zPYsUexHKsdFax2XeyRdnA 配置hadoop安装目录下的 etc…

什么是数据湖

什么是数据湖数据湖是目前比较热的一个概念，许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前，搞清楚什么是数据湖，明确一个数据湖项目的基本组成，进而设计数据湖的基本架构，对于数据湖的构建至关重要。关于什么是数据湖？有不同的定义。 Wikipedia…

Hadoop在ubuntu虚拟机上的伪分布式部署|保姆级教程

一、目标通过本实验的练习，应达到如下目标： 了解Hadoop的三种安装模式掌握Hadoop的安装配置方法熟悉基本的Hadoop命令理解Hadoop:示例程序WordCount的运行方法二、Hadoop的三种安装模式单机模式standalone mode 单机模式是Hadoop的默认模式在这种默…

Hadoop+Spark大数据技术（微课版）曾国荪、曹洁版思维导图第三章 MapReduce分布式计算框架（核心思想：“分而治之”）

第三章 MapReduce分布式计算框架 （核心思想：“分而治之”） 3.1 MapReduce 概述 3.1.1 并发、并行与分布式编程的概念并发和并行并发是指两个任务可以在重叠的时间段内启动、运行和完成； 并行是指任务在同一时间运行。并发是独…

Hadoop+Spark大数据技术第三次作业

第三次作业 1.简述HDFS Shell三种操作命令hadoop fs、hadoop dfs、hdfs dfs的异同点。相同点用于与 Hadoop 分布式文件系统（HDFS）交互。可以执行各种文件系统操作，如文件复制、删除、移动等。不同点 hadoop fs、hadoop dfs已弃用&#xf…

[2021]Zookeeper getAcl命令未授权访问漏洞概述与解决

今天在漏洞扫描的时候蹦出来一个zookeeper的漏洞问题，即使是非zookeeper的节点，或者是非集群内部节点，也可以通过nc扫描2181端口，获取极多的zk信息。关于漏洞的详细描述参考apache zookeeper官方概述：CVE-2018-8012: A…

把本地文件上传到HDFS上操作步骤

因为条件有限，我这里以虚拟机centos为例实验条件：我在虚拟机上创建了三台节点，部署了hadoop，把笔记本上的数据上传到hdfs中数据打包上传到虚拟机节点上采用的是rz命令，可以帮我们上传数据没有的话可以使用命令安装…

Hadoop安装部署-DataNode集群版

Hahoop分布式文件系统支持DataNode节点的大规模扩展，本文主要描述DataNode集群版的安装部署。如上所示，Hadoop分布式文件系统中每个文件是以数据块的方式存储在不同的DataNode中，每个数据块都支持高可用性，当其中一个数据块对应的…

【大数据】大数据概论与Hadoop

目录 1.大数据概述 1.1.大数据的概念 1.2.大数据的应用场景 1.3.大数据的关键技术 1.4.大数据的计算模式 1.5.大数据和云计算的关系 1.6.物联网 2.Hadoop 2.1.核心架构 2.2.版本演进 2.3.生态圈的全量结构 1.大数据概述 1.1.大数据的概念大数据即字面意思&#x…

Hive常用函数_20个字符串处理

Hive常用函数_20个字符串处理以下是Hive中常用的字符串处理函数，可用于执行各种字符串处理转换操作。 1. CONCAT()：将多个字符串连接在一起。 SELECT CONCAT(Hello, World); -- Output: HelloWorld2. SUBSTR()：从字符串中提取子字符串&…

一篇讲明白 Hadoop 生态的三大部件

文章目录每日一句正能量前言01 HDFS02 Yarn03 Hive04 HBase05 Spark及Spark Streaming关于作者推荐理由后记赠书活动每日一句正能量黎明时怀着飞扬的心醒来，致谢爱的又一天，正午时沉醉于爱的狂喜中休憩，黄昏时带着感恩归家，然后…

深入理解HDFS工作原理：大数据存储和容错性机制解析

** 引言： ** 在当今数据爆炸的时代，存储和管理大规模数据成为了许多组织面临的重要挑战。为了解决这一挑战，分布式文件系统应运而生。Hadoop分布式文件系统（HDFS）作为Apache Hadoop生态系统的核心组件之一&#xff…

报错there is no HDFS_NAMENODE_USER defined

在Hadoop安装目录下找到sbin文件夹，修改里面的四个文件 1、对于start-dfs.sh和stop-dfs.sh文件，添加下列参数： HDFS_DATANODE_USERroot HDFS_DATANODE_SECURE_USERhdfs HDFS_NAMENODE_USERroot HDFS_SECONDARYNAMENODE_USERroot 2、对于st…

Leo赠书活动-21期《一篇讲明白 Hadoop 生态的三大部件》

✅作者简介：大家好，我是Leo，热爱Java后端开发者，一个想要与大家共同进步的男人😉😉 🍎个人主页：Leo的博客 💞当前专栏： 赠书活动专栏 ✨特色专栏：…

Hive详解（2）

Hive 表结构分区表多字段分区：需要使用多个字段来进行分区，那么此时字段之间会构成多层目录，前一个字段形成的目录会包含后一个字段形成的目录，从而形成多级分类的效果。例如商品的大类-小类-子类， 省市县、年…

HDFS的Shell操作及客户端配置方法

HDFS进程启停命令 Hadoop HDFS组件内置了HDFS集群的一键启停脚本。 $HADOOP_HOME/sbin/start-dfs.sh，一键启动HDFS集群$HADOOP_HOME/sbin/stop-dfs.sh，一键关闭HDFS集群执行原理： 在执行此脚本的机器上，启动（关闭&…

单台服务器(非集群节点)向Hadoop集群传输数据

背景： 有一台服务器A和一个hadoop集群B, 集群B的namenode地址为 192.168.0.2，A与B的网络是互通的，但是A不属于这个集群的节点。现在需要从服务器A上把 /data/aaa.txt文件上传到集群hdfs的 /data_tmp目录下解决方法： 使用 hado…

Day1 - Hive基础知识

Hive 简介概述 Hive是由Facobook开发的后来贡献给了Apache的一套用于进行数据仓库管理的工具，使用类SQL语言来对分布式文件系统中的PB级别的数据来进行读写、管理以及分析Hive基于Hadoop来使用的，底层的默认计算引擎使用的是MapReduce。Hive利用类SQ…

Linux 系统 CentOS7 上搭建 Hadoop HDFS集群详细步骤

集群搭建整体思路：先在一个节点上安装、配置，然后再克隆出多个节点，修改 IP ，免密，主机名等提前规划：需要三个节点，主机名分别命名：node1、node2、node3 在下面对 node1 配置时，先假设 node2 和 node3 是存在的 **注意：**整个搭建过程，除了1和2 步，其他操作都使…

web渗透测试漏洞复现：Hadoop 未授权访问漏洞复现并getshell

web渗透测试漏洞复现 1. Hadoop 未授权访问漏洞复现1.1 Hadoop简介1.2 Hadoop资产搜索1.3 Hadoop未授权漏洞复现1.3 Hadoop未授权漏洞修复建议1.5 拓展利用---Hadoop未授权getshell1.5.1 攻击链路分析1.5.2 Hadoop getshell漏洞利用1.5.3 脚本方法一：反弹shell1.5.4 脚本方法二…

Hadoop生态系统主要是什么？

Hadoop生态系统主要由以下几部分组成： Hadoop HDFS：这是Hadoop的核心组件之一，是一个用于存储大数据的分布式文件系统。它可以在廉价的硬件上提供高度的容错性，通过数据复制和故障切换实现数据的高可用性。 MapReduce&#xff1a…

大数据Hadoop之——Apache Hudi 数据湖实战操作（FlinkCDC）

文章目录一、概述二、Hudi 数据管理1）.hoodie文件2）数据文件三、数据存储四、Hive 与 Hudi 集成使用1）安装mysql数据库2）安装 Hive1、下载2、配置3、解决Hive与Hadoop之间guava版本的差异4、下载对应版本的mysql驱动包5、初始化元…

HDFS集群环境配置

HDFS集群环境配置环境如下三台服务器： 192.168.32.101 node1192.168.32.102 node2192.168.32.103 node3 一、Hadoop安装包下载点此官网下载二、Hadoop HDFS的角色包含： NameNode，主节点管理者DataNode&am…

MapReduce概述

MapReduce概述 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。 MapReduce…

Hadoop3 - MapReduce ORC 列式存储

一、列式存储常见的 DB 数据库，大多都是行式存储系统，比如 MySql，Oracle 等，利于数据一行一行的写入，所以数据的写入会更快，对按行查询数据也更简单。但是像现在常见的 HBase 存储大数据确使用的列式存储…

yarn集群部署

yarn集群部署案例我们来基于一个案例讲解yarn集群部署我们要部署yarn集群，需要分别部署HDFS文件系统及YARN集群 Hadoop HDFS分布式文件系统，我们会启动： NameNode进程作为管理节点DataNode进程作为工作节点SecondaryNamenode作为辅助同…

Hive笔记

1. Hive 基本概念 1.1 什么是 Hive 1） hive 简介 Hive：由 Facebook 开源用于解决海量结构化日志的数据统计工具。 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。…

【HDFS】写数据报 NOT_ENOUGH_STORAGE_SPACE

一、问题描述对测试集群做压测，实验配置如下： 10个Client、每个Client使用550线程去写80000个文件，每个文件10KB。在测试的过程中，客户端侧报了很多写入失败的异常日志，如下所示。提示信息显示3台运行的datanode都被exclude了，因此选不出节点写入导致写入失败。 13…

深入理解 Hadoop 上的 Hive 查询执行流程

在 Hadoop 生态系统中，Hive 是一个重要的分支，它构建在 Hadoop 之上，提供了一个开源的数据仓库系统。它的主要功能是查询和分析存储在 Hadoop 文件中的大型数据集，包括结构化和半结构化数据。Hive 在数据查询、分析和汇总方面发挥…

hive窗口函数数据范围

hadoop-3.1.1分布式搭建与常用命令

一、准备工作 1.首先需要三台虚拟机： master 、 node1 、 node2 2.时间同步 ntpdate ntp.aliyun.com 3.调整时区 cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 4.jdk1.8 java -version 5.修改主机名三台分别执行 vim /etc/hostname 并将内容指定为…

Hive查询转换与Hadoop生态系统引擎与优势

目录摘要一、Hive是什么二、HDFS是什么三、Hive与HDFS的关系四、什么是HiveQL五、什么是mapreduce六、Hive如何将查询转为mapreduce任务七、Hadoop生态系统中的高性能引擎八、使用Hadoop的优点摘要 Hadoop生态系统中包含了多个关键组件，如Hive、HDFS、MapReduce等…

Hadoop系列总结

一、Hadoop linux基本操作前提掌握Linux基本操作参考 Linux基本操作-CSDN博客 1、查看hadoop指定路径下文件大小前6的文件信息 hdfs dfs[hadoop fs] -du -h /path/to/directory|sort -hr|head -n 6

大数据实验一，Hadoop安装及使用

目录一．实验内容二．实验目的三．实验过程截图及说明 1、安装SSH，并配置SSH无密码登录 2、配置java环境 3.Hadoop的安装与配置 4、修改四个配置文件： 5、格式化HDFS的NameNode： 6、启动Hadoop 7、…

大数据分析与内存计算——Spark安装以及Hadoop操作——注意事项

一、Spark安装 1.相关链接 https://dblab.xmu.edu.cn/blog/4322/ 2.安装Spark（Local模式） 按照文章中的步骤安装即可遇到问题：xshell以及xftp不能使用解决办法： 在linux使用镜像网站进行下载：wget https://mi…

ubuntu-server部署hive-part3-安装mysql

参照 https://blog.csdn.net/qq_41946216/article/details/134345137 操作系统版本：ubuntu-server-22.04.3 虚拟机：virtualbox7.0 部署mysql 下载上传下载地址 https://downloads.mysql.com/archives/community/ 以root用户上传，/usr/loc…

hive 慢sql 查询

hive 慢sql 查询查找 hive 执行日志存储路径（一般是 hive-audit.log ） 比如：/var/log/Bigdata/audit/hive/hiveserver/hive-audit.log 解析日志获取执行时间执行 OperationId 执行人 UserNameroot 执行sql 数据分隔符为 \001 并写入 hiv…

hadoop:案例：将顾客在京东、淘宝、多点三家平台的消费金额汇总，然后先按京东消费额排序，再按淘宝消费额排序

一、原始消费数据buy.txt zhangsan 5676 2765 887 lisi 6754 3234 1232 wangwu 3214 6654 388 lisi 1123 4534 2121 zhangsan 982 3421 5566 zhangsan 1219 36 45二、实现思路：先通过一个MapReduce将顾客的消费金额进行汇总，再通过一个MapReduce来根据金…

大数据实验统计-1、Hadoop安装及使用；2、HDFS编程实践；3、HBase编程实践；4、MapReduce编程实践

大数据实验统计 1、Hadoop安装及使用； 一．实验内容 Hadoop安装使用： 1）在PC机上以伪分布式模式安装Hadoop； 2）访问Web界面查看Hadoop信息。二．实验目的 1、熟悉Hadoop的安装流程。 2、…

Hadoop 复习 ---- chapter04

Hadoop 复习 ---- chapter04HDFS 的特性 1：它是一个分布式文件系统，适用于一次写入，多次读取的场景。 2：它是一个主从结构体系，由 namenode datanode （secondaryNamenode） 3：namen…

大数据下Flink on YarnSession 高可用集群环境部署开辟资源发布任务

前言：搭建大数据环境集群环境算是比较麻烦的一个事情，并且对硬件要求也比较高其中搭建大数据环境需要准备jdk环境和zk环境，还有hdfs，还有ssh之间的免密操作，还有主机别名访问不通的问题等。必然会出现的问题&#xff…

Flume 拦截器概念及自定义拦截器的运用

文章目录 Flume 拦截器拦截器的作用拦截器运用1.创建项目2.实现拦截器接口3.编写事件处理逻辑4.拦截器构建5.打包与上传6.编写配置文件7.测试运行 Flume 拦截器在 Flume 中，拦截器（Interceptors）是一种可以在事件传输过程中拦截、处理和修改…

hadoop入门两道面试题

1.常用端口号 hadoop3.x HDFS NameNode 内部常用端口：8020/9000/9820 HDFS NameNode 对用户的查询端口：9870 Yarn查看任务运行情况的端口：8088 历史服务器：19888 hadoop2.x HDFS NameNode 内部常用端口：8020/9000 HDFS…

三表相连 mapjoin

三表相连 mapjoin要求输出的样式三张表score.csvstudent.csvsubject.csv创建三个类StudentScgetset方法实现类MapJoinDriver用mapjoin不需要reduceMapJoinMapper运行结果要求输出的样式三张表 score.csv student.csv subject.csv 创建三个类 StudentSc getset方法插入gets…

hadoop在linux上启动成功了，但是浏览器访问不了

根据网上的资料进行安装hadoop的伪集群都安装成功，并且启动也成功了，如下图所示： 2、但是在浏览器上确是怎么也访问不了， 解决思路， 2.1、根据网上的一些文章处理解决是关闭防火墙， 2.1.1、我根据操作步骤…

【Servlet】Servlet入门

文章目录一、介绍二、入门案例导入servlet-api的解决办法一、介绍概念：server applet，即：运行在服务器端的小程序 Servlet就是一个接口，定义了Java类被浏览器访问到（tomcat识别）的规则。将来我们定义…

化繁为简｜中信建投基于StarRocks构建统一查询服务平台

近年来，在证券服务逐渐互联网化，以及券商牌照红利逐渐消退的行业背景下，中信建投不断加大对数字化的投入，尤其重视数据基础设施的建设，期望在客户服务、经营管理等多方面由经验依赖向数据驱动转变，从而提高…

Hive 之 UDF 运用（包会的）

文章目录 UDF 是什么？reflect静态方法调用实例方法调用自定义 UDF（GenericUDF）1.创建项目2.创建类继承 UDF3.数据类型判断4.编写业务逻辑5.定义函数描述信息6.打包与上传7.注册 UDF 函数并测试返回复杂的数据类型 UDF 是什么？ H…

【Spark分布式内存计算框架——Spark Core】4. RDD函数（下）重分区函数、聚合函数

重分区函数如何对RDD中分区数目进行调整（增加分区或减少分区），在RDD函数中主要有如下三个函数。 1）、增加分区函数函数名称：repartition，此函数使用的谨慎，会产生Shuffle。 2）、…

root@localhost‘s password: Permission denied, please try again.

编辑、etc/ssh/sshd_config文件 ,将PermitRootLogin这行改为yes rootubuntu:/home/ubuntu# vim /etc/ssh/sshd_config 重新加载改文件 /etc/init.d/ssh restart

hadoop分布式计算组件

什么是计算、分布式计算？ 计算：对数据进行处理，使用统计分析等手段得到需要的结果分布式计算：多台服务器协同工作，共同完成一个计算任务分布式计算常见的2种工作模式分散->汇总(MapReduce就是这种模式)中心调…

hive metatool 使用说明

metatool 使用说明 usage: metatool-dryRun Perform a dry run ofupdateLocation changes.When runwith the dryRun optionupdateLocation changes aredisplayed but not persisted.dryRun is valid only with theupdateLocation option.-ex…

Hive数据倾斜的原因以及常用解决方案

在Hadoop平台的hive数据库进行开发的时候，数据倾斜也是比较容易遇到的问题，这边文章对数据倾斜的定义以及产生的原因、对应的解决方案进行学习。一、数据倾斜的定义数据倾斜：数据分布不均匀，造成数据大量的集中到一点&#xf…

大数据---Hadoop安装Hadoop简易版

编写自动安装Hadoop的shell脚本完整流程: 大数据—Hadoop安装教程（二） 文章目录编写自动安装Hadoop的shell脚本上传压缩包编写shell脚本vim hadoopautoinstall.sh运行上传压缩包在opt目录下创建连个目录install和soft 将压缩包上传到install目录下 …

Hadoop的eclipse搭建（客观莫划走，留下来看一眼（适用人群学生初学，其他人看看就行））

前言：Hadoop的eclipse搭建是建立在Hadoop的安装之后进行的，因为Linux上的Hadoop和Windows上的Hadoop版本要求一致，不一致可能会出现某些问题准备工作：Java的安装包、eclipse的安装包、Hadoop的包（Windows的Hadoop安装…

[HADOOP]数据倾斜的避免和处理

避免数据倾斜初始设计方面： 设计阶段考虑数据分布，并尽可能确保数据均匀分布。预处理数据： 在数据加载到 Hadoop 之前进行预处理，以减少倾斜。使用抽样或统计方法来了解数据分布特征，并据此调整。使用合适的Partiti…

Cookie的详解使用（创建，获取，销毁）

文章目录 Cookie的详解使用（创建，获取，销毁）1、Cookie是什么2、cookie的常用方法3、cookie的构造和获取代码演示SetCookieServlet.javaGetCookieServlet.javaweb.xml运行结果如下 4、Cookie的销毁DestoryCookieServletweb.xml运行…

Hadoop安装笔记2单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

紧接着上一篇博客：Hadoop安装笔记1： Hadoop安装笔记1单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理-CSDN博客https://blog.csdn.net/Zhiyilang/article/details/135…

Spark与Hadoop的关系和区别

在大数据领域，Spark和Hadoop是两个备受欢迎的分布式数据处理框架，它们在处理大规模数据时都具有重要作用。本文将深入探讨Spark与Hadoop之间的关系和区别，以帮助大家的功能和用途。 Spark和Hadoop简介 1 Hadoop Hadoop是一个由Apache基金会…

Hive 的安装与部署

目录 1 安装 MySql2 安装 Hive3 Hive 元数据配置到 MySql4 启动 Hive Hive 官网 1 安装 MySql 为什么需要安装 MySql? 原因在于Hive 默认使用的元数据库为 derby，开启 Hive 之后就会占用元数据库，且不与其他客户端共享数据，如果想多窗口操作…

Hadoop之mapreduce参数大全-2

25.指定在Reduce任务在shuffle阶段的fetch操作中重试的超时时间 mapreduce.reduce.shuffle.fetch.retry.timeout-ms是Apache Hadoop MapReduce任务配置中的一个属性，用于指定在Reduce任务在shuffle阶段的fetch操作中重试的超时时间（以毫秒为单位&#x…

Hive基础知识（十一）：Hive的数据导出方法示例

1. Insert 导出 1）将查询的结果导出到本地 hive (default)> insert overwrite local directory /opt/module/hive/data/export/student select * from student5; Automatically selecting local only mode for query Query ID atguigu_20211217153118_31119102-…

Hadoop 实战 | 词频统计WordCount

词频统计通过分析大量文本数据中的词频，可以识别常见词汇和短语，从而抽取文本的关键信息和概要，有助于识别文本中频繁出现的关键词，这对于理解文本内容和主题非常关键。同时，通过分析词在文本中的相对频率&#xff0…

Hadoop生态圈中的Hive数据仓库技术

Hadoop生态圈中的Hive数据仓库技术一、Hive数据仓库的基本概念二、Hive的架构组成三、Hive和数据库的区别四、Hive的安装部署五、Hive的基本使用六、Hive的元数据库的配置问题七、Hive的相关配置项八、Hive的基本使用方式1、Hive的命令行客户端的使用2、使用hiveserver2方法操…

安装配置sqoop

一、了解Sqoop 1、Sqoop产生的原因 A. 多数使用hadoop技术的处理大数据业务的企业，有大量的数据存储在关系型数据中。 B. 由于没有工具支持，对hadoop和关系型数据库之间数据传输是一个很困难的事。以上是sqoop产生的主要原因，也因此Sqoop主要用于hadoop与关系型数据库之…

JDK8 和 JDK17 下基于JDBC连接Kerberos认证的Hive(代码已测试通过正常)

0.背景之前自研平台是基于jdk8开发的,连接带Kerberos的hive也是jdk8,现在想升级jdk到17,发现过Kerberos的hive有点不一样,特地记录连接Kerberos,krb5.conf 和对应服务的keytab文件以及principal肯定是需要提前准备的, 一般从服务器或者运维那里获取krb5.conf 与 Hive对应的…

HBase 2.x ---- HBase API

HBase 2.x ---- HBase API 1. 环境准备2. 创建链接1. 单线程创建连接2. 多线程创建连接3. DDL1. 创建命名空间2. 判断表格是否存在3. 创建表4. 修改表5. 删除表4. DML1. 插入数据2. 读取数据3. 扫描数据4. 带过滤扫描5. 删除数据1. 环境准备新建项目后在 pom.xml 中添加依赖&…

hadoop 3.3大数据集群搭建系列1-安装hadoop

文章目录一. 软硬件配置1.1 主机配置及规划1.2 软件配置1.3 安装常用的工具二. 安装前准备2.1 设置主机名2.2 设置hosts2.3 关闭防火墙2.4 ssh免密登陆2.5 ntpdate时间同步三. 安装3.1 安装hadoop3.1.1 下载hadoop并解压3.1.2 配置hadoop_home环境变量3.1.3 编辑etc/hadoop/had…

HBase 分布式搭建

前言：请先确保 Hadoop 集群搭建完成。 Hadoop 完全分布式搭建（超详细）搭建环境介绍：三台主机，一主两从，系统为 Centos 7.5。相关组件版本信息如下： jdk1.8hadoop-3.1.3zookeeper-3.5.7hbase-2.2.3注意，以下安装教程中涉及到的路径请替换成自己的！ ZooKeeper 安…

hive和hbase的一些数据导入导出操作

一、hive 数据导入导出 1、distcp 分布式拷贝新旧集群之间如果能直接通讯，在不考虑影响业务的情况下，最便捷的方式是使用分布式拷贝，但是又分为相同版本和不同版本直接拷贝，以下为相同版本之间拷贝的方式。 hadoop distcp -D …

大数据开发工程师要求高么？有前景么

Python近段时间一直涨势迅猛，在各大编程排行榜中崭露头角，得益于它多功能性和简单易上手的特性，让它可以在很多不同的工作中发挥重大作用。正因如此，目前几乎所有大中型互联网企业都在使用 Python 完成各种各样的工作&#xff0…

云计算-Hadoop-2.7.7 最小化集群的搭建（3台）

云计算-Hadoop-2.7.7 最小化集群的搭建（3台） 文章目录云计算-Hadoop-2.7.7 最小化集群的搭建（3台）一、环境依赖下载二、部署概要三、hadoop101模板机配置1. 更新 & 升级2. 安装好用的vim VimForCpp3. 安装必要依赖4. 关闭防火…

大数据：Shell的操作

文章目录HDFS常用命令一、创建目录1、创建单层目录2、创建多层目录查看目录三、上传本地文件到HDFS四、查看文件内容五、下载HDFS文件到本地六、删除HDFS文件七、删除HDFS目录HDFS常用命令启动Hadoop集群命令：start-all.sh 一、创建目录 1、创建单层目录命令…

LinuxHadoop环境

Hadoop环境Hadoop集群拓扑1、集群拓扑2、角色分配一、虚拟机安装二、虚拟机克隆1、克隆类型（1）完整克隆（2）链接克隆2、克隆步骤（1）克隆出master虚拟机（2）克隆出slave1虚拟机&#xf…

大数据面试题（五）：Hadoop优化核心高频面试题

文章目录 Hadoop优化核心高频面试题一、Mapreduce 跑的慢的原因？ 1、计算机性能 2、I/O 操作优化二、Mapreduce优化方法 1、数据输入 2、map阶段 3、reduce阶段 4、IO传输 5、数据倾斜问题 6、常用的调优参数三、HDFS小文件优化方法 1、HDFS小文件…

Yarn模式部署Flink集群

一、环境准备 1、准备两台服务器server115 和server116安装好hadoop环境，其中server115配置hdfs的namenode，在server116上配置hdfs的SecondaryNameNode，server116配置yarn的 ResourceManager，启动hadoop集群 2、配置hadoop环境变…

案例-Shell定时采集数据到HDFS

1. 准备工作创建日志文件存放的目录 /export/data/logs/log，执行命令：mkdir -p /export/data/logs/log 创建待上传文件存放的目录/export/data/logs/toupload，执行命令：mkdir -p /export/data/logs/toupload 查看创建的目录树结…

使用Java API操作HDFS

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录学习目标（一）了解HDFS Java API1、HDFS常见类与接口2、FileSystem的常用方法（二）编写Java程序访问HDFS1、创建Maven项…

【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战（超详细附源码）

需要源码请点赞关注收藏后评论区留言私信~~~ 一、HDFS的Shell介绍 Shell在计算机科学中俗称“壳”，是提供给使用者使用界面的进行与系统交互的软件，通过接收用户输入的命令执行相应的操作，Shell分为图形界面Shell和命令行式Shell。文件系统…

端口号及作用

CDH 端口说明7180Cloudera Manager 前端端口7182Cloudera Manager Server 与 Agent通讯端口8888Hue前端端口 Hadoop 端口说明9870HDFS 前端端口8020NameNode的后台通信端口8088Yarn 前端端口8032Resource Manager的后台通信端口19888Yarn历史服务端口，通过mr-jobh…

大数据框架Hadoop篇之Hadoop入门

1. 写在前面今天开始，想开启大数据框架学习的一个新系列，之前在学校的时候就会大数据相关技术很是好奇，但苦于没有实践场景，对这些东西并没有什么体会，到公司之后，我越发觉得大数据的相关知识很重要&…

初识流计算框架Spark

Spark简介 Spark最初由美国加州伯克利大学（UCBerkeley）的AMP（Algorithms, Machines and People）实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。Sp…

hadoop02--Apache Hadoop集群搭建与介绍

文章目录本文重点内容大纲一、Apache Hadoop入门1.1、Hadoop介绍1.2、Hadoop起源发展1.3、Hadoop特性优点二、Apache Hadoop集群搭建2.1、发行版本2.2、Hadoop集群2.3、Hadoop部署模式、集群规划2.4、Hadoop源码编译三、Hadoop具体安装部署3.1、服务器基础环境准备3.2、安装包目…

Hadoop核心组成和生态系统简介

一、Hadoop的概念 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System）&am…

Hive学习——单机版Hive的安装

目录一、基本概念 (一)什么是Hive (二)优势和特点 (三)Hive元数据管理二、Hive环境搭建 1.自动安装脚本 2./opt/soft/hive312/conf目录下创建hive配置文件hive-site.xml 3.拷贝一个jar包到hive下面的lib目录下 4.删除hive的guava，拷贝hadoop下的guava 5…

【HDFS】FsDatasetImpl#recoverClose方法

recoverClose的目的recoverClose的过程recoverClose的调用点一、前言 HDFS客户端写文件时，如果某个datanode发生错误或者异常。客户端会把这个datanode从pipeline里踢除，然后进行pipiline recovery，用剩余datanodes去写或者满足一定的条件时补充新的datanode到pipeline中写…

Hadoop HDFS的主要架构与读写文件

一、Hadoop HDFS的架构 HDFS：Hadoop Distributed File System，分布式文件系统 １，NameNode 存储文件的metadata，运行时所有数据都保存到内存，整个HDFS可存储的文件数受限于NameNode的内存大小一个Block在…

Hadoop - HDFS

Hadoop - HDFS 1. HDFS介绍 1.1 定义 HDFS是一个分布式文件系统，适合一次写入，多次读出的场景数据可以保存在多个副本当中，可以通过增加副本的数量来增加容错不适用于低延时数据访问的场景不能高效的对小文件进行存储因为会占用Na…

基于Hive的河北新冠确诊人数分析系统的设计与实现

项目描述临近学期结束，还是毕业设计，你还在做java程序网络编程，期末作业，老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下，你想解决的问…

Hive内部表与外部表的区别具体说明

目录 1.在/opt/atguigu/目录下，新建两个txt文件 2.在hadoop的web端递归创建一个目录，存储这两个文件 3.查看web端的文件一、内部表： 1.创建一个内部表，并指定内部表的存储位置 2.查看内部表，内部表中没有数据 …

HBase 复习 ---- chapter06

HBase 复习 ---- chapter06需求：读取 HBase 中的 t_log 表中 f：userid 的值。然后将 f：userid 的值。出现的次数统计出来。输出到 HDFS 上。数据从 HBase 表中读取，所以 Mapper 类必须继承 TableMapper 数据最终写到 HDFS&#x…

hadoop 3.x大数据集群搭建系列8- 一些辅助的shell脚本

文章目录一. jps查看各个节点后台进程二. 启停hadoop集群三. 群起zookeeper集群脚本zk.sh四. 同步文件五. 启动停止整个集群一. jps查看各个节点后台进程我们经常需要查看各个节点的进程情况 vi jps.sh #!/bin/bash for i in hp5 hp6 hp7 do echo -------------------------…

Hadoop3 - MapReduce SequenceFile 、MapFile 格式存储

一、MapReduce 小文件问题上篇文章说 MapReduce 并行机制时，讲到如果是针对小于 block 的小文件的话，会每个拆分成一个 MapTask 导致对大量小文件的处理，另外 HDFS 对大量小文件的存储效率其实也是不高，MapReduce在读取小文件进…

hadoop使用公平调度器

总计写在前面，请使用公平调度器!!! 我根据时间节点来梳理一下发生了什么。 Stage 1（默认调度器） 大概在几年前，搭建的数仓集群中。数据量不大，做离线一个晚上就能轻松调度完，那时候使用的hadoop自带的调度…

Hive-架构与设计

架构与设计一、背景和起源二、框架概述1.设计特点三、架构图1.UI交互层2.Driver驱动层3.Compiler4.Metastore5.Execution Engine 四、执行流程1.发起请求2.获取执行计划3.获取元数据4.返回元数据5.返回执行计划6.运行执行计划7.运行结果获取五、数据模型1.DataBase数据库2.T…

(04)Hive的相关概念——order by 、sort by、distribute by 、cluster by

Hive中的排序通常涉及到order by 、sort by、distribute by 、cluster by 一、语法 selectcolumn1,column2, ... from table [where 条件] [group by column] [order by column] [cluster by column| [distribute by column] [sort by column] [limit [offset,] rows]; …

hive表中导入数据多种方法详细说明

文章中对hive表中导入数据方法目录方式一：通过load方式加载数据方式二：直接向分区表中插入数据方式三：查询语句中创建表并加载数据（as select） 方式四：创建表时通过location指定加载数据路径 1. 创建表…

paimon取消hive转filesystem

目录概述实践关键配置spark sql 结束概述公司上一版本保留了 hive ，此版优化升级后，取消 hive。实践关键配置同步数据时，配置如下，将形成两个库 # ods库 CREATE CATALOG paimon WITH (type paimon,warehouse hdfs:///d…

sqoop-import 详解

文章目录前言一、介绍1. sqoop简介2. sqoop import的作用3. 语法3.1 sqoop import 语法3.2 导入配置属性二、导入参数1. 常见参数2. 验证参数3. 导入控制参数4. 用于覆盖映射的参数5. 增量导入参数6. 输出行格式参数7. 输入解析参数8. Hive 参数9. HBase 参数10. Accumulo 参…

大数据开发（Hadoop面试真题-卷五）

大数据开发（Hadoop面试真题） 1、HDFS的块默认大小，64M和128是在哪个版本更换的？怎么修改默认块大小？2、HDFS HA怎么实现？3、导入大文件到HDFS时如何自定义分片？4、HDFS的Mapper和Reducer的个数如…

Apache Paimon 使用之Creating Catalogs

Paimon Catalog 目前支持两种类型的metastores： filesystem metastore (default)，在文件系统中存储元数据和表文件。 hive metastore，将metadata存储在Hive metastore中。用户可以直接从Hive访问表。 1.使用 Filesystem Metastore 创建 Cat…

Hive案例分析之消费数据

Hive案例分析之消费数据部分数据展示 1.customer_details customer_id,first_name,last_name,email,gender,address,country,language,job,credit_type,credit_no 1,Spencer,Raffeorty,sraffeorty0dropbox.com,Male,9274 Lyons Court,China,Khmer Safety,Technician III,jc…

Spark 搭建模式（本地、伪分布、全分布模式）

Spark搭建模式 Standalone模式环境搭建 1.伪分布式 #1.进入$SPARK_HOME/conf [rootmaster ~] cd $SPARK_HOME/conf#2.拷贝spark-env.sh.template [rootmaster conf] cp spark-env.sh.template spark-env.sh [rootmaster conf] vi spark-env.sh# Options for the daemons u…

详解数据库、Hive以及Hadoop之间的关系

1.数据库： 数据库是一个用于存储和管理数据的系统。数据库管理系统（DBMS）是用于管理数据库的软件。数据库使用表和字段的结构来组织和存储数据。关系型数据库是最常见的数据库类型，使用SQL（Structured Query Language…

大数据开发适合哪类人群？

有不少应届大学毕业生和0基础人群选择学大数据，但是要选择零基础的大数据培训班，从Java基础开始学习，由浅入深掌握离线数据分析、实时数据分析和内存数据计算等重要内容。应届大学生缺乏工作经验和技能，对未来没有明确的规划&am…

Hive超市零售案例

超市零售案例一、部分数据展示 Fiskars 剪刀| 蓝色,61,中国,华东,杭州,用品,曾惠,2,浙江,办公用品,US-2019-1357144,130 GlobeWeis 搭扣信封| 红色,43,中国,西南,内江,信封,许安,2,四川,办公用品,CN-2019-1973789,125 Cardinal 孔加固材料| 回收,4,中国,西南,内江,装订机,许…

PiflowX-TopN组件

TopN组件组件说明按列排序的N个最小值或最大值。有界性 batch streaming 计算引擎 flink 组件分组 common 端口 Inport：默认端口 outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子column_listcolumn_list“*”无否查…

HIVE伪分布安装

引言 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，类似于RDBMS(关系型数据库，如MySQL、Oracle、PgSQL)，并提供类SQL的查询功能。实验准备 1.搭建好伪分布安装模式的Hadoop的虚拟机，并配置了Linux网络。（可看我前面发布的文章） 2.apache…

Hive集合函数 collect_set 和 collect_list 使用示例

Hive集合函数 collect_set 和 collect_list 使用示例在Hive中， collect_set 和 collect_list 是用于收集数据并将其存储为集合的聚合函数。以下是它们的语法： 1. collect_set(expression)- expression : 要收集的数据表达式。collect_set 函数用于将…

Hive中的CONCAT、CONCAT_WS与COLLECT_SET函数

1.CONCAT与CONCAT_WS函数 1.1 CONCAT函数 -- concat(str1, str2, ... strN) - returns the concatenation of str1, str2, ... strN or concat(bin1, bin2, ... binN) - returns the concatenation of bytes in binary data bin1, bin2, ... binN Returns NULL if any argum…

【Hadoop_05】NN、2NN以及DataNode的工作机制

1、NameNode和SecondaryNameNode1.1 NN和2NN工作机制1.2 Fsimage和Edits解析1.3 CheckPoint时间设置 2、DataNode2.1 DataNode工作机制2.2 数据完整性2.3 掉线时限参数设置 1、NameNode和SecondaryNameNode 1.1 NN和2NN工作机制思考：NameNode中的元数据是存储在哪…

k8s部署hadoop

（作者：陈玓玏） 配置和模板参考helm仓库：https://artifacthub.io/packages/helm/apache-hadoop-helm/hadoop 先通过以下命令生成yaml文件： helm template hadoop pfisterer-hadoop/hadoop > hadoop.yaml用kube…

【Hadoop】解决Hive创建内部表失败：正确配置事务管理器

谁让你我静似月只能在心里默念檐下燕替我飞到你身边谁让你我静似月各自孤单错弄弦风吹的帘落见月人不眠 🎵 周笔畅《谁动了我的琴弦》在使用Apache Hive进行数据处理时，创建内部表是一项常见的操作，它允许用户在H…

云计算与大数据技术应用知识及案列

云计算与大数据技术应用知识及案列简述什么是云计算？ 答：云计算是一种动态扩展的计算模式，通过网络将虚拟化的资源作为服务提供；云计算是一种无处不在的、便捷的通过互联网访问一个可定制的IT资源（IT资源包括网络、服…

linux单机部署hadoop

1.下载安装包 https://archive.apache.org/dist/hadoop/common/ 2.上传压缩 3.修改配置文件 1）设置JDK的路径 cd /usr/local/software/hadoop-3.1.3/etc/hadoop vi hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.402.b06-1.el7_9.x86_64/ 查看…

Hive函数 date_format 使用示例总结

Hive函数 date_format 使用示例总结 Hive函数 date_format 用于将日期或时间戳格式化为指定的输出格式。假设要对时间 2024-03-18 18:18:18.008 进行格式化，以下是一些常见的时间提取格式，这些格式可以在 date_format 函数中使用： 1. yyyy …

hive sql实现查找商品表名称中包含敏感词的商品

背景用户上传的商品表一般会包含商品名称，由于这些商品名称是用户自己起的，里面可能包含了敏感词，需要通过sql找出来哪些商品的商品名称包含了敏感词汇 hive sql实现查找商品表名称中包含敏感词的商品实现思路： 1.商品表和敏…

【Hadoop大数据技术】——ZooKeeper分布式协调服务（学习笔记）

📖 前言：ZooKeeper是一个开源的分布式协调服务，它是Google Chubby的开源实现，其设计目标是将那些复杂且容易出错的分布式应用封装起来，构成一个高效可靠的原语集，并以一系列简单易用的接口提供给用户使用。…

数仓，大数据平台，数据中台，数据湖

数据湖的概念分为侠义和广义的两种，侠义的数据湖指的是数据湖存储指可以存放各种格式的海量数据的地方，而广义的数据湖除了数据存储之外还包含数据的管理和分析提供数据目录、数据服务、以及统一的数据访问方式；这个一般完善的数据处理系统都…

hive授予指定用户特定权限及beeline使用

背景：因业务需要，需要使用beeline对hive数据进行查询，但是又不希望该用户可以查询所有的数据，希望有一个新用户bb给他指定的库表权限。解决方案： 1.赋权语句，使用hive管理员用户在终端输入hive进入命令控…

岭师大数据技术原理与应用-序章-软工版

HeZaoCha-CSDN博客序章—软工版一、环境介绍1. VMware Workstation Pro2. CentOS3. Java4. Hadoop5. HBase6. MySQL7. Hive 二、系统安装1. 虚拟网络编辑器2. 操作系统安装三、结尾先说说哥们写这系列博客的原因，本来学完咱也没想着再管部署这部分问题的说&…

数仓-hive DDL (带你手敲秒懂hive三种常见分区)

hive 数仓DDL 分区分区是将表的数据以分区字段的值作为目录去存储 ---> 减少磁盘IO， 方便数据管理静态分区创建外表同时指定静态分区字段 create table if not exists table_name(id int,name string)partitioned by (day string,h string); …

大数据 - Hadoop系列《五》- HDFS文件块大小及小文件问题

系列文章： 大数据- Hadoop入门-CSDN博客大数据 - Hadoop系列《二》- Hadoop组成-CSDN博客大数据 - Hadoop系列《三》- HDFS（分布式文件系统）概述_大量小文件的存储使用什么分布式文件系统-CSDN博客大数据 - Hadoop系列《三》- MapRedu…

利用sqoop实现sql表数据导入到Hadoop

1.在开发这创建好sql表后，开始执行下面步骤 2.sqoop的安装路径，我这里放在以下位置 3. 进入到option2脚本中，下面是脚本里的内容下面四点要根据情况随时更改： 1>jdbc:mysql://node00:3306/数据库名 2>sid,sname->前…

入门用Hive构建数据仓库

在当今数据爆炸的时代，构建高效的数据仓库是企业实现数据驱动决策的关键。Apache Hive 是一个基于 Hadoop 的数据仓库工具，可以轻松地进行数据存储、查询和分析。本文将介绍什么是 Hive、为什么选择 Hive 构建数据仓库、如何搭建 Hive 环境以及如何在 Hi…

HaDoop学习1

第一章读时模式（Read-Time Schema）- 写时模式（Write-Time Schema） 通常与模式演变（Schema Evolution）相关即在数据表结构发生变化时，已经存在的数据如何适应新的模式？ 【读时模…

大数据实验四-MapReduce编程实践

一．实验内容 MapReduce编程实践： 使用MapReduce实现多个文本文件中WordCount词频统计功能，实验编写Map处理逻辑、编写Reduce处理逻辑、编写main方法。二．实验目的 1、通过实验掌握基本的MapReduce编程方法。 2、实现统计HDF…

Linux环境下安装redis踩坑zmalloc.h:50:31收录（附解决方法）

老将回归第一篇问题收录（苦笑） 报错收录解决：zmalloc.h:50:31: 致命错误：jemalloc/jemalloc.h：没有文件或目录解法一： # 执行如下命令 MALLOC环境变量去建立Redis的libcmake MALLOClibc解决解法二&a…

hadoop中hdfs的fsimage文件与edits文件

hadoop中hdfs的fsimage文件与edits文件的作用首先，我们抛出fsimage和edits文件的功能描述。 Fsimage文件: HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件inode的序列化信息。 Edits文件:存放HDFS文件系统的所有更…

Hive命令行运行SQL将数据保存到本地如何去除日志信息

1.场景分析先有需求需要查询hive数仓数据并将结果保存到本地，但是在操作过程中总会有日志信息和表头信息一起保存到本地，不符合业务需要，那如何才能解决该问题呢？ 废话不多少，直接上代码介绍： 2.问题解决…

【HBase】【一】windows搭建源码开发环境

目录环境配置1. Windows安装Cygwin2. 安装ProtocolBuffers3. 启动zookeeper4. 搭建Hadoop环境5. 编译Hbase源码6. 启动HRegionServer7. 启动HMaster8. 启动HShell客户端环境配置系统：windows10 IDE: Eclipse hadoop: 3.3.4 hbase: 2.4.15 java: 17 1. Window…

【大数据入门核心技术-Hbase】（二）HBase数据模型

目录一、NameSpace 二、Region 三、Row 四、Column 五、Cell 六、RowKey 七、Store 八、TimeStamp 一、NameSpace 命名空间，类似于关系型数据库的 DatabBase 概念，每个命名空间下有多个表。HBase 有两个自带的命名空间，分别是 hbase…

大数据框架之Hadoop：入门（六）常见错误及解决方案

1）防火墙没关闭、或者没有启动YARN INFO client.RMProxy: Connecting to ResourceManager at hdp101/192.168.10.101:80322）主机名称配置错误 3）IP地址配置错误 4）ssh没有配置好 5）root用户和vagrant两个用户启动集…

大数据面试题集锦-Hadoop面试题(二)-HDFS

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题，关注一下"张飞的猪大数据分享"吧，公众号会不定时的分享相关的知识和资料。 1、 HDFS 中的 block 默认保存几份？ 默认保存…

如何安装配置hbase

当完成hdfs、zookeeper的安装配置后，现在进入到hbase的安装和配置环节。这样的做的目的之一是要把海量的数据存入到hbase数据库中。JDK版本的要求hbase对JDK版本是有要求的，不是JDK版本越高越好，根据我走过的坑，目前最好的JDK版本…

大数据框架之Hadoop：入门（五）Hadoop编译源码（面试重点）

5.1 前期准备工作 1.CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意：采用root角色编译，减少文件夹权限出现问题 2.jar包准备(hadoop源码、JDK8、maven、ant 、protobuf) （1）hadoop-2.7.7-sr…

Hadoop安装 --- 简易安装Hadoop

目录 1、使用xftp工具在opt目录下创建install和soft文件 2、使用xftp工具将压缩包上传到install文件 3、编写shell脚本 3.1、创建目录来放shell脚本 3.2、创建autoinsatll.sh文件并修改权限 3.3、编写autoinsatll.sh 文件刷新资源运行文件格式化启动所有进程 Ha…

Hadoop概论

一、概述广义：Hadoop生态圈；狭义：Apache基金会开发的分布式系统开源框架，核心组件包括： HDFS-分布式文件系统MAPREDUCE-分布式运算编程框架YARN-作业调度和集群资源管理框架优点 & 特性扩容能力成本低高效率可靠…

Hudi-集成Flink

文章目录集成Flink环境准备sql-client方式启动sql-client插入数据查询数据更新数据流式插入code 方式环境准备代码类型映射核心参数设置去重参数并发参数压缩参数文件大小Hadoop参数内存优化读取方式流读（Streaming Query）增量读取（Increment…

hadoop环境新手安装教程

1、资源准备： （1）jdk安装包：我的是1.8.0_202 （2）hadoop安装包：我的是hadoop-3.3.1 注意这里不要下载成下面这个安装包了，我就一开始下载错了错误示例： 2、主机网络相…

Hive JSON数据处理：get_json_objec、json_tuple、用JSON Serde加载数据

Hive JSON数据处理文章目录Hive JSON数据处理将JSON保存为字符串，用JSON函数处理get_json_objectjson_tuple用JSON Serde加载数据将JSON保存为字符串，用JSON函数处理使用get_json_object、json_tuple实现将JSON数据中每个字段独立解析出来&#xff0c…

MapReduce（未完待续。。。）

一、MR概述 MapReduce是一个分布式运算的框架。优点：易于编程、扩展性良好、容错性高、适合上千台服务器集群并发工作。1、优点：易于编程、易扩展、高容错，适合PB级以上。缺点：不擅长实时、流式、DAG计算 2、过程：…

YARN运行流程

YARN是Hadoop资源管理器，他是一个通用资源管理平台和调度平台，可为上层应用提供统一的资源管理和调度，MapReduce等运算程序则相当于运行于操作系统上的应用程序，YARN为这些程序提供运算所需的资源内存、cpu。 YARN并不清楚用户提…

Hive基础知识（十六）：Hive-SQL分区表使用与优化

1. 分区表分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区&…

Hive数据导出的四种方法

hive数据仓库有多种数据导出方法，我在本篇文章中介绍下面的四种方法供大家参考：Insert语句导出、Hadoop命令导出、Hive shell命令导出、Export语句导出。一、Insert语句导出语法格式 Hive支持将select查询的结果导出成文件存放在文件系统中。语法格…

PiflowX如何快速开发flink程序

PiflowX如何快速开发flink程序参考资料 Flink最锋利的武器：Flink SQL入门和实战 | 附完整实现代码-腾讯云开发者社区-腾讯云 (tencent.com) Flink SQL 背景 Flink SQL 是 Flink 实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标…

Hadoop集群部署流程

前置要求需要3台虚拟机，系统为Centos7，分别host命名为node1，node2，node3，密码均为root请确保这三台虚拟机已经完成了JDK、SSH免密、关闭防火墙、配置主机名映射等前置操作在3台虚拟机的/etc/hosts文件中&#xff0…

工作流调度系统Azkaban

1、概述 1.1、工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序java程序mapreduce程序hive脚本等各任务单元之间存在时间先后及前后依赖关系,为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度任务的…

Sqoop (四) --------- 配置解析简明版

目录一、直接导入 HDFS二、导入到 Hive三、导入到 Hbase三、导出1. SQL中表为空表时2. 表不为空表时① updateonly 模式② allowinsert 模式3. 如何查看导出命令的具体实现一、直接导入 HDFS A、全表导入(部分导入) bin/sqoop import \##连接的关系型数据库的url,用户名&…

Hive——操作数据库创建修改表（DDL数据定义）

DDL操作1. 数据库操作1.1 创建&查询数据库1.2 修改&删除数据库2. 表操作2.1 创建表2.2 内部表和外部表2.2.1 管理表2.2.2外部表2.2.3管理表与外部表的互相转换2.3 修改表1. 数据库操作 1.1 创建&查询数据库定义： CREATE DATABASE [IF NOT EXISTS] d…

centos7 安装hadoop

文章目录一、将hadoop的压缩文件传递到虚拟机里面二、解压缩三、配置环境变量一、将hadoop的压缩文件传递到虚拟机里面路径随意，只要你能到时候能找到压缩文件就行。二、解压缩这里我给解压到opt/module目录里(没有可以自己创建,主要是为了方便管理) tar -zx…

Hive的Join连接

前言 Hive-3.1.2版本支持6种join语法。分别是：inner join（内连接）、left join（左连接）、right join（右连接）、full outer join（全外连接）、left semi join（左…

大数据技术之Hadoop(优化新特性)

第1章 HDFS—故障排除1.1 集群安全模式1）安全模式：文件系统只接受读数据请求，而不接受删除、修改等变更请求2）进入安全模式场景NameNode在加载镜像文件和编辑日志期间处于安全模式NameNode再接收DataNode注册时，处于安…

Hadoop总结——Hadoop基础

一、Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决，海量数据的存储和海量数据的分析计算问题广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈二、Hadoop发展历史 1）Lucene--Doug Cutting开…

(08)Hive——Join连接、谓词下推

前言 Hive-3.1.2版本支持6种join语法。分别是：inner join（内连接）、left join（左连接）、right join（右连接）、full outer join（全外连接）、left semi join（左…

docker搭建hadoop集群个人总结

1.搭建过程 https://dblab.xmu.edu.cn/blog/1233/ https://www.cnblogs.com/rmxd/p/12051866.html#_label4 按照这两篇文章即可，总结来说 pull ubuntu，进入系统，配置java、hadoop，保存镜像。然后根据这个镜像启动三个容器master&…

hive中常见参数优化总结

1.with as 的cte优化，一般开发中习惯使用with as方便阅读，但如果子查询结果在下游被多次引用，可以使用一定的参数优化手段减少表扫描次数默认set hive.optimize.cte.materialize.threshold-1;不自动物化到内存，一般可以设置为 se…

搭建Hadoop集群过程中常见错误的解决方案

格式化报错权限问题出现cannot creat directory或cannot creat file类型如下报错信息： cannot create directory Permission denied如果使用的是 user 用户，多数情况下是因为文件权限问题，hadoop3.3.1、big_data（存数据&am…

深入理解 Hive UDAF

1. 概述用户自定义聚合函数(UDAF)支持用户自行开发聚合函数完成业务逻辑。从实现上来看 Hive 有两种创建 UDAF 的方式，第一种是 Simple 方式，第二种是 Generic 方式。 1.1 简单 UDAF 第一种方式是 Simple(简单) 方式，即继承 org.apache.hadoop.hive.ql.exec.UDAF 类，并…

大数据项目之电商数仓、实时数仓同步数据、离线数仓同步数据、用户行为数据同步、日志消费Flume配置实操、日志消费Flume测试、日志消费Flume启停脚本

文章目录8. 实时数仓同步数据9. 离线数仓同步数据9.1 用户行为数据同步9.1.1 数据通道9.1.1.1 用户行为数据通道9.1.2 日志消费Flume配置概述9.1.2.1 日志消费Flume关键配置9.1.3 日志消费Flume配置实操9.1.3.1 创建Flume配置文件9.1.3.2 配置文件内容如下9.1.3.2.1 配置优化9.…

105-120-Hadoop-MapReduce-outputformat：

105-Hadoop-MapReduce-outputformat： OutputFormat 数据输出，OutputFormat接口实现类 OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了 OutputFormat 接口。下面我们介绍几种常见的OutputFormat实现类。 1．O…

数据同步工具DataX从Mysql同步数据到HDFS实战

目录1. 查看数据同步模板2. 高可用HA的HDFS配置3. MysqlReader针对Mysql类型转换说明4. HdfsWriter支持大部分Hive类型5. Mysql准备数据如下6. 新建job/mysql2hdfs.json7. 执行job8. 查看hdfs的文件1. 查看数据同步模板我自己在下面的模板文件中添加了一些说明注释 [rootbig…

分布式计算模型Mapreduce实践与原理剖析（一）

第一章 MapReduce核心理论 1.1 什么是MapReduce MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据应用” 的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并行运…

Hbase环境搭建

目录一、Hadoop伪分布式Hbase环境搭建二、Hadoop完全分布式Hbase环境搭建本文伪分布式节点名：master 完全分布式一主、两从节点名：master、slave1、slave2 一、Hadoop伪分布式Hbase环境搭建 1、创建一个专门放文件的目录： mkdir /export…

【HBase入门】2. 集群搭建

安装上传解压HBase安装包 tar -xvzf hbase-2.1.0.tar.gz -C ../server/ 修改HBase配置文件 hbase-env.sh cd /export/server/hbase-2.1.0/conf vim hbase-env.sh # 第28行 export JAVA_HOME/export/server/jdk1.8.0_241/ export HBASE_MANAGES_ZKfalsehbase-site.xml vim…

parquet-tools工具使用

parquet-tools工具目前有两种parquet-tools工具 1、wesleypeck编写的开源parquet-tools（使用偏多，且可定制） parquet-tools出现org/apache/hadoop/conf/Configuration问题的解决该版本由于原作者不在进行更新，目前网上能…

Apache Hadoop生态部署-3台设置的免密登录，xsync分发脚本，jpsall脚本

目录查看服务架构图-服务分布、版本信息集群服务器间的免密登录 jpsall集群jps查看脚本 xsync集群分发脚本查看服务架构图-服务分布、版本信息系统环境：centos7 Java环境：Java8 集群服务器间的免密登录作用：这里配置的是root用户…

锁屏面试题百日百刷-Hive篇(七)

锁屏面试题百日百刷，每个工作日坚持更新面试题。锁屏面试题app、小程序现已上线，官网地址：https://www.demosoftware.cn。已收录了每日更新的面试题的所有内容，还包含特色的解锁屏幕复习面试题、每日编程题目邮件推送等功能…

数据迁移工具 -- Sqoop 安装配置

1、Sqoop概述 Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库（mysql、postgresql等）间进行数据的传递。可以将关系型数据库（MySQL ,Oracle,Postgres等）中的数据导入到HDFS中，也可以将HDFS的数…

Hive3入门至精通(基础、部署、理论、SQL、函数、运算以及性能优化)15-28章

Hive3入门至精通(基础、部署、理论、SQL、函数、运算以及性能优化)15-28章[Hive3入门至精通(基础、部署、理论、SQL、函数、运算以及性能优化)1-14章](https://blog.csdn.net/wt334502157/article/details/127489556) Hive3入门至精通(基础、部署、理论、SQL、函数、运算以及性…

11.hadoop系列之MapReduce框架原理之InputFormat数据输入

我们先简要了解下InputFormat输入数据 1.数据块与数据切片数据块： Block在HDFS物理上数据分块，默认128M。数据块是HDFS存储数据单位数据切片： 数据切片只是在逻辑上对输入进行分片，并不会物理上切片存储。数据切片是MapReduce…

Linux环境运行Maven 生成的hadoop jar包

运行命令： hadoop jar ./jar包名字 class对象路径输入路径输出路径 linux内部jar包测试 cd 到以下目录，创建以下文件夹 [rootreagan180 ~]# cd /opt/soft/hadoop313/share/hadoop/mapreduce/ 创建文件夹（读取路径） [roo…

关于尚硅谷Hadoop-报错解决方案日志

以后都会将学习Hadoop中遇到的问题写到这里，供自己参考，能帮到大家更好SecondaryNameNode未启动解决办法：可能是端口被占用（我没遇到）hadoop104未在/etc/hosts配置映射路径我在hadoop104的/etc/hosts 添加了所有hadoop…

Hadoop

Hadoop Hadoop1.x 2.x 3.x区别 Hadoop1.x组成：MapReduce负责计算和资源调度，HDFS负责数据存储，Common辅助工具。 Hadoop2.x组成：MapReduce负责计算，Yarn负责资源调度，HDFS负责数据存储，Commo…

基于zookeeper的Hadoop集群搭建详细步骤

目录一、一些基本概念二、集群配置图三、Hadoop高可用集群配置步骤 1.在第一台虚拟机解压hadoop-3.1.3.tar.gz到/opt/soft/目录 2.修改文件名、属主和属组 3.配置windows四台虚拟机的ip映射 4.修改hadoop配置文件 (1)hadoop-env.sh (2)workers (3)crore-site.xml …

大数据框架之Hadoop：HDFS（七）HDFS 2.X新特性

7.1集群间数据拷贝 scp实现两个远程主机之间的文件复制 scp -r hello.txt roothadoop103:/root/hello.txt // 推 push scp -r roothadoop103:/root/hello.txt hello.txt // 拉 pull scp -r roothadoop103:/root/hello.txt roothadoop104:/root //是通过本地主机中…

「数据仓库」怎么选择现代数据仓库?

构建自己的数据仓库时要考虑的基本因素我们用过很多数据仓库。当我们的客户问我们，对于他们成长中的公司来说，最好的数据仓库是什么时，我们会根据他们的具体需求来考虑答案。通常，他们需要几乎实时的数据，价格低廉&…

Spark介绍

1、Spark是什么?类似与Hadoop的MapReduce的计算框架,基于map和reduce实现分布式计算,对比MapReduce可有效减少落盘次数,增加效率.任务之间通信交互不需要落盘,仅在shuffle时需要重新将数据排序分区落盘.Spark的缓存功能更加高效，特别是在SparkSQL中,一般是以列式存…

Hive基操

数据交换 //hive导出到hdfs /outstudentpt 目录 0: jdbc:hive2://guo146:10000> export table student_pt to /outstudentpt; //从hdfs导入到hive 0: jdbc:hive2://guo146:10000> import table studentpt from /outstudentpt; 数据排序 Order by会对所给的全部数据进行…

Hadoop的生成经验调优和基准测试

文章目录（1）项目经验之HDFS存储多目录（2）项目经验之集群数据均衡（3）项目经验之Hadoop参数调优（4）项目经验之支持LZO压缩配置（5）项目经验之LZO创建索引&#x…

sparn on kerberos-yarn

一、环境：-- Hadoop集群1. Hadoop集群（dm46、dm47、dm48），开启了Kerberos安全，集群所有组件基于K8S管理，运行在docker pod中2. yarn中的python版本是3.6，java版本是1.8-- 客户端：dm4…

Hadoop YARN

目录Hadoop YARN介绍Hadoop YARN架构、组件程序提交YARN交互流程YARN资源调度器Scheduler调度器策略FIFO SchedulerCapacity SchedulerFair SchedulerHadoop YARN介绍 YARN是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度上图&#xff1…

大数据周会-本周学习内容总结03

目录 01【大数据导论与Linux基础】 02【Apache Hadoop、HDFS】 03【Hadoop MapReduce与Hadoop YARN】 04【数据仓库基础与Apache Hive入门】 05【Apache Hive DML语句与函数使用】 06【Hadoop生态综合案例：陌陌聊天数据分析】 01【大数据导论与Linux基础】大…

python读写hdfs文件的实用解决方案

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理…

hive建分区表，分桶表，内部表，外部表

hive建分区表，分桶表，内部表，外部表一、概念介绍 Hive是基于Hadoop的一个工具，用来帮助不熟悉 MapReduce的人使用SQL对存储在Hadoop中的大规模数据进行数据提取、转化、加载。Hive数据仓库工具能将结构化的数据文件映射为一张数…

MapReduce小试牛刀

部署完hadoop单机版后，试下mapreduce是怎么分析处理数据的 Word Count Word Count 就是"词语统计"，这是 MapReduce 工作程序中最经典的一种。它的主要任务是对一个文本文件中的词语作归纳统计，统计出每个出现过的词语一共出现的次…

DataWhale 大数据处理技术组队学习task5

六、期中大作业 1. 面试题 1.1 简述Hadoop小文件弊端当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，另一方面就是元数据文件过多，使得寻址索引速度变慢。小文件过多，在进行M…

Hive使用注意事项

1）注意表中的数据是存储在hdfs中的，但是表的名称、字段信息是存储在metastore中的 2)中文乱码问题： 中文乱码的原因是因为hive数据库里面的表都是latin1编码的，中文本来就会显示乱码，但是又不能修改整个数据库里面所有…

Compact 调优实例

1.问题描述 10月27号，用户反馈 g_feature 资源组的回溯任务在夜间的耗时比较大。在00:49——04:16期间，查询的平均耗时是大于100ms的。 2. 分析原因根据问题现象，在夜间的耗时比较大，白天的耗时比较小，首先想到的就…

Big_Data

Linux 计算机硬件软件体系冯诺依曼体系结构计算机处理的数据和指令一律用二进制数表示顺序执行程序计算机硬件由运算器、控制器、存储器、输入设备和输出设备五大部分组成计算机硬件组成输入设备输入设备用来将人们熟悉的信息形式转换为机器能够识别的信息形式常见的…

大数据框架之Hadoop：HDFS（三）HDFS客户端操作（开发重点）

3.1 HDFS客户端环境准备 1．根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径（例如：D:\javaEnv\hadoop-2.77），如下图所示。 2．配置HADOOP_HOME环境变量，如下图所示。 3&#…

Hadoop开启Yarn的日志监控功能

1.开启JobManager日志 （1）编辑NameNode配置文件${hadoop_home}/etc/hadoop/yarn-site.xml和mapred-site.xml 编辑yarn-site.xml  <configuration><property><name>yarn.…

Hive行列转换应用：多行转多列、多行转单列、多列转多行、单列转多行

Hive行列转换应用文章目录Hive行列转换应用多行转多列多行转单列多列转多行单列转多行多行转多列通过条件转换CASE WHEN函数实现多行转多列，即取出对应的数据放在对应的位置。例1： 写法一： SELECTid,CASEWHEN id < 2 THEN aWHEN id …

纯手动搭建hadoop3.x集群记录005_配置历史服务器_配置日志聚集_配置集群时间同步_---大数据之Hadoop3.x工作笔记0166

<property><name>mapreduce.jobhistory.address</name><value>hadoop102:10020</value> </property> <property><name>mapreduce.jobhistory.webapp.addr…

【HDFS】FsDatasetImpl系列文章（八）：recoverRbw方法

前置文章：【HDFS】BlockConstructionStage的几种状态：PIPELINE_SETUP_APPEND、PIPELINE_SETUP_CREATE、TRANSFER_RBW等一、调用点&调用场景只有一处调用点，在BlockReceiver的构造方法里： isClient（来自Client的写数据请求，不是数据块复制或者balancer的情况）的…

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——MapReduce开发总结

在编写MapReduce程序时，需要考虑如下几个方面： 1、输入数据接口：InputFormat 默认使用的实现类是：TextInputFormatTextInputFormat的功能逻辑是：一次读一行文本，然后将该行的起始偏移量作为key&#xff0…

Flink相关介绍

简介 Flink的定位是：Apache Flink是一个框架和分布式处理引擎，如图所示，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境运行，以内存执行速度和任意规模来执行计算。 Flink 框架处理流程应用场景 1、电…

【大数据】HDFS管理员命令行(Administration Commands)详细使用说明

Administration Commands 概览命令详解balancercacheadmincryptodatanodedfsadmindfsrouterdfsrouteradmindiskbalancerechaadminjournalnodemovernamenodenfs3portmapsecondarynamenodestoragepolicieszkfc)概览所有的HDFS命令都是执行bin/hdfs脚本，当执行此脚本…

spark三种操作模式的不同点分析

通常情况下,由于mapreduce计算引擎的效率问题,大部分公司使用的基本都是hive数仓spark计算引擎的方式搭建集群,所以对于spark的三种操作方式来进行简单的分析。在日常开发中，使用最多的方式取决于具体的需求和场景。以下是每种方式的一些常见用途：Spark …

自学大数据第六天~HDFS命令

HDFS常用命令查看hadoop版本 version hadoop version注意,没有 ‘-’ [hadoopmaster ~]$ hadoop version Hadoop 3.3.4 Source code repository https://github.com/apache/hadoop.git -r a585a73c3e02ac62350c136643a5e7f6095a3dbb Compiled by stevel on 2022-07-29T12:3…

用idea操作hbase数据库，并映射到hive

依赖条件：需要有Hadoop，hive，zookeeper，hbase环境映射：每一个在 Hive 表中的域都存在于 HBase 中，而在 Hive 表中不需要包含所有HBase 中的列。HBase 中的 RowKey 对应到 Hive 中为选择一个域使用 :key 来对…

Hive 压缩配置详解

压缩 1 MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFAULT无DEFAULT.deflate否GzipgzipDEFAULT.gz否bzip2bzip2bzip2.bz2是LZOlzopLZO.lzo否LZ4无LZ4.lz4否Snappy无Snappy.snappy否为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器&#xff0c…

【大数据】Hive系列之- Hive-分区表(静态分区和动态分区)

分区表分区表分区表基本操作创建分区表语法加载数据到分区表中准备数据加载数据增加分区创建单个分区同时创建多个分区删除分区删除单个分区同时删除多个分区查看分区表有多少分区查看分区表结构二级分区创建二级分区表正常的加载数据加载数据到二级分区表中查询分区数据把数据…

Flume多路复用模式把接收数据注入kafka 的同时，将数据备份到HDFS目录

启动hadoop、在hdfs中创建需要访问的目录配置Hadoop的核心配置文件core-site.xml：设置Hadoop的核心配置参数，例如NameNode的地址、数据块大小、副本数量等。示例配置如下：<configuration><property><name>fs.defaultFS<…

网络资源面经2

文章目录Kafka 原理，数据怎么平分到消费者生产者分区消费者分区Flume HDFS Sink 小文件处理Flink 与 Spark Streaming 的差异，具体效果Spark 背压机制具体实现原理Yarn 调度策略Spark Streaming消费方式及区别Zookeeper 怎么避免脑裂，什么是脑…

Hadoop之hdfs查看fsimage和edits

/opt/module/hadoop-3.1.3/data/dfs/name/current (1) Fsimage文件: HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件inode的序列化信息。 (2) Edits文件:存放HDFS文件系统的所有更新操作的路径，文件系统客户端执行的所有…

初识Hadoop，走进大数据世界

文章目录数据！数据！遇到的问题Hadoop的出现相较于其他系统的优势关系型数据库网格计算本文章属于Hadoop系列文章，分享Hadoop相关知识。后续文章中会继续分享Hadoop的组件、MapReduce、HDFS、Hbase、Flume、Pig、Spark、Hadoop集群管理系统以及…

centos6.10安装FastDfs出错的问题

在centos6.10虚拟机安装dfs文件服务器时，安装报错，报错为： gcc: error trying to exec cc1’: execvp: 没有那个文件或目录 1.ping www.baidu.con 排查网络是否通 2.yum update 排查yum源是否可用 3.yum源地址不可用时，修改yu…

Hive窗口函数语法规则、窗口聚合函数、窗口表达式、窗口排序函数 - ROW NUMBER 、口排序函数 - NTILE、窗口分析函数

Hive窗口函数文章目录Hive窗口函数语法规则窗口聚合函数窗口表达式窗口排序函数 - ROW NUMBER窗口排序函数 - NTILE窗口分析函数窗口函数也叫开窗函数、OLAP函数其最大特点：输入值是从SELECT语句的结果集中的一行或多行的“窗口”中获取的。如果函数具有OVER子句&a…

纯手动搭建hadoop集群记录001_搭建虚拟机_调通网络_配置静态IP_安装JDK---大数据之Hadoop3.x工作笔记0162

1.首先准备机器,172.19.126.115 172.19.126.116 172.19.126.117 我准备了3台 Windows机器 2.然后我打算在Windows机器上使用虚拟机,搭建3台Centos虚拟机来进行安装hadoop 3.这里我们的3台windows机器中的,3台linux虚拟机也使用了3个IP,分别是 172.19.126.120 172.19.126.1…

Hadoop环境搭建（1）

一、在已安装的虚拟机上面进行修改（以CentOS 7为例）①修改主机名查看自己主机名，命令hostname第一种修改主机名方法，命令vi /etc/hostname第二种修改主机名方法，命令hostnamectl set -hostname 自定义主机名可以更改为…

大数据技术原理与应用介绍

大数据技术原理与应用概述大数据不仅仅是数据的“大量化”，而是包含“快速化”、“多样化”和“价值化”等多重属性。两大核心技术：分布式存储和分布式处理大数据计算模式批处理计算流计算图计算查询分析计算大数据具有数据量大、数据类型繁…

MAC下搭建hadoop

一：简介 Hadoop是一个用Java开发的开源框架，它允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器，每个都提供本地计算和存储。特别适合写一次，读多次的场景。 Hado…

Hive窗口函数

概述窗口函数（window functions）也叫开窗函数、OLAP函数。如果函数具有over子句，则它是窗口函数窗口函数可以简单地解释为类似于聚合函数的计算函数，但是通过group by 子句组合的常规聚合会隐藏正在聚合的各个…

Hive On Tez小文件合并的技术调研

Hive On Tez小文件合并的技术调研背景在升级到CDP7.1.5之后，默认的运算引擎变成了Tez，之前这篇有讲过： https://lizhiyong.blog.csdn.net/article/details/126688391 具体参考Cloudera的官方文档：https://docs.cloudera.com…

Hadoop-MapReduce

Hadoop-MapReduce 文章目录Hadoop-MapReduce1 MapRedcue的介绍1.1 MapReduce定义1.2 MapReduce的思想1.3MapReduce优点1.4MapReduce的缺点1.5 MapReduce进程1.6 MapReduce-WordCount1.6.1 job的讲解2 Hadoop序列化2.1 序列化的定义2.2 hadoop序列化和java序列化的区别3 MapRedu…

Spark Storage模块详解

Storage模块负责管理Spark计算过程中产生的数据，包括基于Disk的和基于Memory的。用户在实际编程中，面对的是RDD，可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化；持久化的动作都是由Storage模块完成的&#x…

如何用Spark SQL实现多Catalog联邦查询

目前对多Catalog的支持俨然成为计算引擎的标配，因为在OLAP场景，跨数据源的联合查询是一大刚需。但是，传统的计算引擎如Hive、Spark2对多Catalog支持能力很弱，也许是受Flink、Presto（Trino）的步步紧逼&#…

03 Hive概述

Hive概述1、什么是Hive2、Hive优缺点3、Hive架构原理4、Hive 和数据库比较5、Hive计算引擎1、什么是Hive 由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQ…

Python是不是被严重高估了？

Python起源一种shell的脚本语言 ，而现在已经发展成最通用的语言之一了，TIOBE指数的数据显示，Python是目前世界上最受欢迎的编程语言。 Python之所以这么受欢迎有很多原因。从Web开发到物联网编程再到AI等各个方面都能用到它。另外Python代码…

Spark大数据处理讲课笔记3.1 掌握RDD的创建

文章目录零、本节学习目标一、RDD为何物（一）RDD概念（二）RDD示例（三）RDD主要特征二、做好准备工作（一）准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS（二&…

大数据之数据治理架构 —— Atlas

文章目录什么是数据治理？什么是 Atlas?Atlas 的作用Atlas 架构Atlas 架构解析Atlas 大数据集群搭建JDK 与 Hadoop 搭建MySQL 与 Hive 搭建Zookeeper 与 HBase 搭建Kafka 搭建Solr 搭建Atlas 搭建与集成Atlas 启动Hive 元数据导入Atlas 模拟生成血缘依赖什么是数据治…

centos7配置zookeeper本地模式与集群模式的详细教程

系列文章目录 centos7配置静态网络常见问题归纳_centos7网络问题虚拟机centos7配置Hadoop单节点伪分布配置教程卸载centos7自带的jdk的操作步骤文章目录系列文章目录文章目录前言一、配置前的前期准备 1.1、zookeeper配置的条件 1.2、配置本地模式 1.3、配置修…

【大数据之Hadoop】十三、MapReduce之WritableComparable排序

MapReduce框架必须进行排序，MapTask和ReduceTask都会对key按字典顺序排序，是默认的行为（默认使用快速排序），有利于提高效率。任何程序数据都会进行排序，不管逻辑是否需要。对于排序而言分为两个阶段&#…

Hive学习——分桶抽样、侧视图与炸裂函数搭配、hive实现WordCount

目录一、分桶抽样 1.抽取表中10%的数据 2.抽取表中30%的数据 3.取第一行 4.取第10行 5.数据块抽样 6.tablesample详解二、UDTF——表生成函数 1.explode()——炸裂函数 2.posexpolde()——只能对array进行炸裂 3.inline()——炸裂结构体数组三、UDTF与侧视图的搭…

软件测试入门简单么？入行后如何做职业规划

软件测试的确是入门相对简单的一个学科，他们不常写代码，主要去检查代码，是不是出现了漏洞、程序是否能运行下去？那这部分程序员就是做软件测试。这个类别没有做Java难没有大数据那么复杂，但还可以拿到程序员的高薪。…

2023-Hive调优最全指南

本文基本涵盖以下内容： 一、基于Hadoop的数据仓库Hive基础知识二、HiveSQL语法三、Hive性能优化四、Hive性能优化之数据倾斜专题五、HiveSQL优化十二板斧六、Hive面试题(一) 七、Hive/Hadoop高频面试点集合(二) 01-基于Hadoop的数据仓库Hive基础知识 Hi…

大数据项目实战之数据仓库：用户行为采集平台——第2章项目需求及架构设计

第2章项目需求及架构设计 2.1 项目需求分析 1）采集平台 （1）用户行为数据采集平台搭建 （2）业务数据采集平台搭建 2）离线需求 3）实时需求 4）思考题 1、项目技术如何选型&…

尚硅谷大数据Hadoop教程-笔记02【HDFS】

视频地址：尚硅谷大数据Hadoop教程（Hadoop 3.x安装搭建到集群调优） 尚硅谷大数据Hadoop教程-笔记01【入门】尚硅谷大数据Hadoop教程-笔记02【HDFS】尚硅谷大数据Hadoop教程-笔记03【MapReduce】尚硅谷大数据Hadoop教程-笔记04【Yarn】尚硅谷大…

Kafka消费者 TCP管理

Kafka消费者 TCP管理创建 TCPFindCoordinator连接协调者消费数据TCP 连接数关闭 TCP 连接消费者的程序入口类是 KafkaConsumer 构建 KafkaConsumer 时 ，不会创建任何 TCP 连接TCP 连接是用 KafkaConsumer.poll 创建创建 TCP poll 创建 TCP 的地方 : 发起 FindC…

大数据项目实战之数据仓库：用户行为采集平台——第4章用户行为数据采集模块

第4章用户行为数据采集模块 4.1 数据通道 4.2 环境准备 4.2.1 集群所有进程查看脚本 1）在/home/atguigu/bin目录下创建脚本xcall [atguiguhadoop102 bin]$ vim xcall2）在脚本中编写如下内容 #! /bin/bashfor i in hadoop102 hadoop103 hadoop104 d…

Alluxio跨集群同步机制的设计与实现

一、Alluxio 应用场景和背景 Alluxio 跨集群同步机制的设计和实现确保了在运行多个 Alluxio 集群时，元数据是一致的。 Alluxio 位于存储和计算层之间，在不同的底层文件系统（UFS）上层提供高性能缓存和统一的命名空间。虽然通过 A…

流行架构对比

Storm与Spark：谁才是我们的实时处理利器 Storm:实时处理领域的Hadoop 作为一套专门用于事件流处理的分布式计算框架，Storm的诞生可以追溯到当初由BackType公司开发的项目——这家市场营销情报企业于2011年被Twitter所收购。Twitter旋即将该项目转为开源…

安装Linux虚拟机和Hadoop平台教程汇总及踩坑总结

安装Linux虚拟机和ubuntu系统一、材料和工具1、下载VirtualBox虚拟机软件https://download.virtualbox.org/virtualbox/6.1.4/VirtualBox-6.1.4-136177-Win.exe2. 下载Ubuntu桌面系统https://cn.ubuntu.com/download/desktop二、步骤（一）确认系统版本如果…

Hadoop入个门

文章目录1️⃣、Hadoop概述1.1、Hadoop是什么1.2、三大发行版本1.3、优势1.4、组成HDFSYARNMapReduceHDFS、YARN、MapReduce三者关系1.6、大数据技术生态体系image-202303111027195802️⃣、Hadoop运行环境搭建2.1、虚拟机环境准备2.2、克隆虚拟机2.3、在hadoop2上安装JDK2.4、…

大数据系列——Hive理论

概述 Hive是一个数据仓库管理工具，将结构化的数据文件映射为一张数据库表，并提供类SQL（HQL）查询功能。由Facebook实现并开源,最后捐赠给Apache发展为顶级项目。以RDBMS数据库为元数据存储服务， 以Hadoop HDFS来存储…

大数据-学习实践-4MapReduce

大数据-学习实践-4MapReduce (大数据系列) 文章目录大数据-学习实践-4MapReduce1知识点2具体内容2.1MapReduce介绍2.2分布式计算介绍、原理2.2.1MapReduce原理剖析2.2.2Map2.2.3Reduce2.3 WordCount分析2.4MapReduce任务日志查看2.4.1停止Hadoop集群的任务2.4.2MapReduce程序扩…

自学大数据第六天~HDFS命令(一)

HDFS常用命令查看hadoop版本 version hadoop version注意,没有 ‘-’ [hadoopmaster ~]$ hadoop version Hadoop 3.3.4 Source code repository https://github.com/apache/hadoop.git -r a585a73c3e02ac62350c136643a5e7f6095a3dbb Compiled by stevel on 2022-07-29T12:3…

【大数据】Hive系列之- Hive-DML 数据操作

Hive系列-DML 数据操作数据导入向表中装载数据（Load）语法操作用例通过查询语句向表中插入数据（Insert）创建一张表插入数据基本模式插入（根据单张表查询结果）查询语句中创建表并加载数据（As Sele…

Redis篇之redis服务的启动方式总结

当我们部署好redis服务后，接下来就是redis的启动。总结如下： redis服务的启动方式 1、直接启动进入redis根目录下，在bin目录中找到redis-server，执行如下命令： ./redis-server &注意：如果加上 ‘&am…

Hive支持Json格式

1、下载hive-json-serde相关包下载json-serde-1.3.8-jar-with-dependencies.jar、json-udf-1.3.8-jar-with-dependencies.jar，将其放到mapreduce、spark对应的lib目录下，如下： /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/lib/下载地…

Spark数据倾斜场景及解决思路

文章目录数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个 task 执行特别慢的情况某个 task 莫名其妙内存溢出的情况数据倾斜解决方案1. Hive 表中的数据本身很不均匀 -使用 Hive ETL 预处理数据2. 导致倾斜的 key 就少数几个，而且对计算本…

hadoop 集群搭建（详细版）

hadoop 集群搭建更改主机名映射设置免密同步时间创建工作目录下载jdk安装配置Hadoop修改配置文件向其他节点分发配置完成的程序为Hadoop添加环境变量启动集群初始化启动集群web页面web页面:[hdfsweb页面](http://192.168.88.128:9870/)web页面:[yarnweb页面](http://192.168.88…

【Hive基础】-- hive sql 的执行原理和流程

Hive SQL是一种高级语言，用于查询存储在 Hadoop 分布式文件系统（HDFS）的大型数据集。它为分析数据提供了一个类似于 SQL 的接口，并支持 Hadoop 生态系统的 MapReduce 处理框架。本质：将 Hive SQL 转化成 MapReduce 程序。可以用一张图描述 Hive SQL的执行原理和执行流程，…

HIVE通过jdbc连接，使用insert into插入中文数据乱码

HIVE通过jdbc连接，使用insert into插入中文数据乱码 [2023-03-21 21:36:31] Fetched row string: 1 � �xxQ܀/ Pl� � hmfyahoo.com 15652996964 210302199608124861 f45W,3632734&#x…

Centos7下搭建单节点的Hadoop

文章目录1.虚拟机基础配置1）网络配置2）虚拟机主机名配置3）虚拟机ip与主机映射4）关闭防火墙5）做时间同步6) JDK1.8安装2. Hadoop搭建1) 解压以及配置环境变量2) 具体参考官网的搭建单节点的章节3) configuration**![在这…

hadoop单机版安装

文章目录1. 将安装包hadoop-3.1.3.tar.gz上次至linux中2. 进行解压操作3. 修改目录名称4. 配置环境变量5. 使用官方提供的jar包实现wordcount案例1. 将安装包hadoop-3.1.3.tar.gz上次至linux中 2. 进行解压操作 tar -zxvf hadoop-3.1.3.tar.gz -C /opt/softs/##tar: 解压打包的…

hive学习笔记

一、Hive基本概念1.1 hive是什么hive是基于hadoop的一个数仓分析工具，hive可以将hdfs上存储的结构化的数据，映射成一张表，然后让用户写HQL(类SQL)来分析数据tel up down 1383838438 1345 1567 138383…

Hive 事务和锁的功能测试

Hive 事务和锁的功能测试 Hive 的事务和锁，可以在会话级别设置。 1. 无事务、无锁的方式各云厂商，如阿里云，百度云默认都采用此方案。如果不使用此方案，用户需要手动改配置。此方案读写表都没有限制。任务的执行时间可以估计…

Hive---浅谈Hive

浅谈Hive 文章目录浅谈HiveHive文件映射Hive组件元数据（Metadata）元数据存储元数据服务（Metastore）Metastore配置方式Metastore远程模式Hive启动方式第一种（本地）第二种beelineHive Apache Hive作为一款大…

【HBase-读写流程】HBase的读写流程与内部执行机制

【HBase-读写流程】HBase的读写流程与内部执行机制1）HBase 读取数据流程1.1.文字描述1.2.流程图2）HBase 写入数据流程2.1.文字描述2.2.流程图3）flush 机制与 compact 机制的原理3.1.文字描述3.2.流程图1）HBase 读取数据流程 1.1.…

hadoop伪分布式安装

文章目录1. 将安装包hadoop-3.1.3.tar.gz上次至linux中2. 进行解压操作3. 修改目录名称4. 配置环境变量5. 修改自定义配置文件5.1 hadoop-env.sh5.2 core-site.xml5.3 hdfs-site.xml5.4 workers6. 格式化集群7. 免密登录8. 启动hdfs9. 关闭hdfs1. 将安装包hadoop-3.1.3.tar.gz上…

Hive 拉链表的两种实现方式

目录 1.什么是拉链表 2.拉链表的产生背景 2.1数据同步 2.1.1全量同步 2.1.2增量同步 2.2增量同步和拉链表 3.拉链表的实现方式 3.1数据准备 3.2思路1 3.3思路2 1.什么是拉链表我们首先要知道，拉链表是一个逻辑上的概念。拉链表记录的是增量数据&#x…

Flume系列：Flume组件架构

目录 Apache Hadoop生态-目录汇总-持续更新一：Flume 概述二：Flume 基础架构 2.1：Agent 2.2：Source 2.3：Sink 2.4：Channel 1) Memory Channel 2) File Channel 3) Kafka Channel 2.5&#xff1a…

滚动升级HDFS HA cluster

文章目录滚动升级HDFS cluster升级步骤滚动升级HDFS cluster 前言 1、首先需要是一个HA HDFS，即最少有两个namenode，否则不能进行滚动升级2、一般journalnode和zookeeper非常稳定，不需要升级。如果升级这两个组件则需要停机。升级步骤创…

【大数据之Hadoop】十四、MapReduce之Combiner合并

Combiner是Mapper和Reducer之间的组件，其组件的父类是Reducer。 Combiner和Reducer的区别： Combiner是运行在每一个MapTask所在的节点，即对每一个MapTask的输出进行局部汇总，减少网络传输量。 Reducer则是接收全局是Mapper的输出…

Eclipse环境搭建并且运行wordcount程序

一、安装Hadoop插件 1. 所需环境 hadoop2.0伪分布式环境平台正常运行所需压缩包：eclipse-jee-luna-SR2-linux-gtk-x86_64.tar.gz 　　　　　　　　　　在Linux环境下运行的eclipse软件压缩包,解压后文件名为eclipse 　　　　　　　　　　hadoop2x-eclipse-plugin-m…

史上最全的2023最新大数据面试笔记【200+页，10w+字】

简介：我本硕都是双非计算机专业，研二开始学习大数据开发的相关知识，从找实习到秋招，投递过100公司，拿到过10的offer，包括滴滴、字节、蚂蚁、携程、蔚来、去哪儿等大厂，现在已经签约蚂蚁数据研发…

【Hadoop】三、数据仓库基础与Apache Hive入门

文章目录三、数据仓库基础与Apache Hive入门1、数据仓库基本概念1.1、数据仓库概念1.2、场景案例：数据仓库为何而来1.3、数据仓库主要特征1.4、数据仓库主流开发语言--SQL 2、Apache Hive入门2.1、Apache Hive概述2.2、场景设计：如何模拟实现Hive功能2.…

hive函数02

hive函数02 窗口函数窗口函数（Window functions )也叫做开窗函数、OLAP函数，其最大特点是∶输入值是从SELECT语句的结果集中的一行或多行的“窗口”中获取的。窗口函数可以简单地解释为类似于聚合函数的计算函数，但是通过GROUP BY子句组合…

Hive SQL语句的正确执行顺序

关于 sql 语句的执行顺序网上有很多资料，但是大多都没进行验证，并且很多都有点小错误，尤其是对于 select 和 group by 执行的先后顺序，有说 select 先执行，有说 group by 先执行，到底它俩谁先执行呢&#x…

DataNode启动报错Failed to add storage directory [DISK]file:【已解决】

Failed to add storage directory [DISK]file hadoop启动后缺少DataNode进程报错out文件报错log文件解决 hadoop启动后缺少DataNode进程 jps查看hadoop进程缺少DataNode的进程报错out文件查看DataNode的out日志 DataNode启动报错 ulimit -a for user root core file size…

YARN统一资源管理

YARN统一资源管理 Apache YARN即Yet Another Resource Negotiator,是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台…

DATAX hdfsreader orc格式读取数据丢失问题

最近做一个数据同步任务，从hive仓库同步数据到pg，Hive有4000w多条数据，但datax只同步了280w就结束了，也没有任何报错。看了下datax源码，找到HdfsReader模块DFSUtil核心实现源码读取orc格式的文件方法： pu…

hadoop理论基础（一）

1.hadoop的组成2 HDFS概述HDFS（Hadoop Distributed File System）是一个分布式文件系统（1）NameNode:存储文件的元数据;如文件名、文件目录结构、文件属性，以及每个文件的块列表和块所在的DataNode等。(2)DataNode:在本地…

手把手教你快速在生产环境搭建Doris集群

手把手教你快速在生产环境搭建Doris集群一、部署规划组件分布规划节点node4node5node6node7node8Node9Node10Node11服务FE（follower）BEFE（follower）BEFE（follower）BEFE（observer&#xff…

sparkSQL-基础编程（巩固篇）

基本创建 DSL语法 SQL语法基本创建 Session对象创建 //提供Session对象val session SparkSession.builder() //构建器.appName("sparkSQL") //序名称程.master("local[*]") //执行方式：本地.enableHiveSupport() //支持hive相关操作.getO…

锁屏面试题百日百刷-Hive篇(十一)

锁屏面试题百日百刷，每个工作日坚持更新面试题。锁屏面试题app、小程序现已上线，官网地址：https://www.demosoftware.cn。已收录了每日更新的面试题的所有内容，还包含特色的解锁屏幕复习面试题、每日编程题目邮件推送等功能。让你…

sentry权限控制

sentry权限控制文章目录sentry权限控制前言1. 安装2. hive内得配置4. hdfs配置5. Hue 授权6. 连接hive配置权限7. 验证前言 Apache Sentry是一个可以对Hadoop集群中的数据及元数据进行细粒度管理的权限管理系统。Sentry目前可以与ApacheHive，HiveMetastore / HCat…

hadoop-Yarn资源调度器【尚硅谷】

大数据学习笔记 Yarn资源调度器 Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行与操作系统之上的应用程序。 （也就是负责MapTask、ReduceTask等任…

Hbase 映射到Hive

目录一、环境配置修改关闭掉hbase，zookeeper和hive服务进入hive312/conf 修改hive-site.xml配置， 在代码最后添加配置将hbase235的jar包全部拷贝到hive312的lib目录，并且所有的是否覆盖信息全部输入n，不覆盖查看hive312下…

HDFS读数据流程

1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。 2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据…

【Hive 基础】-- 数据倾斜

1.什么是数据倾斜？由于数据分布不均匀，导致大量数据集中到一点，造成数据热点。常见现象：一个 hive sql 有100个 map/reducer task， 有一个运行了 20分钟，其他99个 task 只运行了 1分钟。2.产生数据倾斜的原…

HBase性能调优

在线的OLTP系统对响应时间的要求非常高。当HBase为OLTP系统提供在线实时的数据存储时，响应时间以及吞吐量尤为重要。某一个配置项的不妥当可能直接造成线上HBase集群整体响应超时，然后应用服务器线程池耗尽，最终导致服务不可用，而…

Sqoop详解

目录一、sqoop基本原理 1.1、何为Sqoop？ 1.2、为什么需要用Sqoop？ 1.3、关系图 1.4、架构图二、Sqoop可用命令 2.1、公用参数：数据库连接 2.2、公用参数：import 2.3、公用参数：export 2.4、公用参数&#xff…

Hive中的高阶函数（二）

1、UDTF之explode函数 explode(array)将array列表里的每个元素生成一行； explode(map)将map里的每一对元素作为一行，其中key为一列，value为一列； 一般情况下，explode函数可以直接使用即可，也可以根据需要结…

（大数据开发随笔9）Hadoop 3.3.x分布式环境部署——全分布式模式

索引完全分布式模式守护进程布局集群搭建准备总纲配置文件格式化集群启动集群集群控制命令集群启停进程查看启动日志查看集群常见问题案例演示：WordCount完全分布式模式分布式文件系统中，HDFS相关的守护进程也分布在不同的机器上，如&#x…

第十二章 Ambari二次开发之集成Alluxio

1、Alluxio高可用部署生产环境：使用具有高可用性的模式来运行Alluxio masters。 1.1、Alluxio架构 Alluxio可以被分为三个部分：**masters、workers以及clients。**一个典型的设置由一个主服务器、多个备用服务器和多个worker组成。客户端用于通过S…

大数据｜MapReduce模型 | Hadoop MapReduce的基本工作原理

前文回顾：HDFS分布式文件系统目录 📚对付大数据处理：分而治之 🐇大数据的并行化计算 🐇大数据任务划分和并行计算模型 📚构建抽象模型：Map和Reduce 🐇关键思想 🥕…

安装k8s工具之一-sealos（测试安装hadoop）

背景 Kubernetes（K8s）是一种开源的容器编排平台，可以帮助用户管理和调度容器化应用程序。Sealos是一个基于SSH的快速Kubernetes集群部署和管理工具，它可以帮助用户快速部署和管理Kubernetes集群，并提供了许多实用的功…

Hbase RegionServer的核心模块

RegionServer是HBase系统中最核心的组件，主要负责用户数据写入、读取等基础操作。RegionServer组件实际上是一个综合体系，包含多个各司其职的核心模块：HLog、MemStore、HFile以及BlockCache。一、RegionServer内部结构 RegionServer是HBas…

自学大数据第四天~hadoop集群的搭建

Hadoop集群安装配置当hadoop采用分布式模式部署和运行时,存储采用分布式文件系统HDFS,此时HDFS名称节点和数据节点位于不同的机器上; 数据就可以分布到多个节点,不同的数据节点上的数据计算可以并行执行了,这时候MR才能发挥其本该有的作用; 没那么多机器怎么办~~~~多几个虚拟…

Hive与HBase的区别及应用场景

当数据量达到一定量级的时候，存储和统计计算查询都会遇到问题，今天了解一下Hive和Hbase的区别和应用场景。一、定义 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能&am…

大数据技术之Hadoop集群配置

作者简介：大家好我是小唐同学(๑>؂<๑），好久不见，为梦想而努力的小唐又回来了，让我们一起加油！！！ 个人主页：小唐同学(๑>؂<๑）的博客主页目前…

分布式对象存储——Apache Hadoop Ozone

前言本文隶属于专栏《大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！ 本专栏目录结构和参考文献请见大数据技术体系 1. 概述 Ozone是Apache Hadoop项目的子项目&#xf…

Hadoop基础介绍

Hadoop基础介绍一、总体介绍二、HDFS架构三、MapReduce结构四、YARN架构一、总体介绍 1、定义： 是一个开源的、可靠的、可扩展的分布式计算框架。 2、用途： （1）数据仓库 （2）PB级别数据的存储与处理。 3…

HDFS学习笔记【Datanode/写数据】

说明谁发起的写数据 DFSClient通过调用Sender触发写操作如何建立连接 NN应该知道所有的DN情况 Sender和Receiver创建TCP连接如何接收请求确认，谁来拆分写请求传送到管道中的每一个节点，最后一个返回确认 DFSClient需要做切分，依次发送数据…

大数据 | 实验一：大数据系统基本实验 | 熟悉常用的HDFS操作

文章目录📚实验目的📚实验平台📚实验内容⭐️HDFSApi⭐️HDFSApi2⭐️HDFSApi3⭐️HDFSApi4⭐️HDFSApi5⭐️HDFSApi6⭐️HDFSApi7⭐️HDFSApi8⭐️HDFSApi9⭐️HDFSApi10📚实验目的 1）理解 HDFS 在 Hadoop 体系结构中…

shell脚本在linux重启之后继续运行

文章目录 shell脚本在linux重启之后继续运行问题一. nohup命令二. Systemd服务和开机自启动centos7开机登陆页面死循环问题shell 脚本中有重启liunx的命令，如何防止陷入重启的死循环中/var/run/reboot-required文件是什么unattended-upgrades软件包是什么&#xff0…

从‘discover.partitions‘=‘true‘分析Hive的TBLPROPERTIES

从’discover.partitions’true’分析Hive的TBLPROPERTIES 前言 Hive3.1.2先建表： show databases ;use db_lzy;show tables ;create external table if not exists test_external_20230502(id int,comment1 string,comment2 string ) stored as parquet ;creat…

【大数据之Hadoop】二十三、Yarn命令行操作及生产环境下的配置

1 Yarn常用命令 Yarn状态查询可以在hadoop103:8088页面查看，也可以通过命令查看。先运行案例再查看运行情况。 （1）yarn application 查看任务 yarn application -list //列出所有application yarn application -list -appStates 状态 …

hadoop3.2.1+hive3.1.2-docker安装

Hadoop 1.拉取镜像 docker pull hadoop_hive:32.运行容器建立hadoop用的内部网络(此步出错，若与其它网段冲突，可省略) #指定固定ip号段 docker network create --driverbridge --subnet172.17.0.1/16 hadoop建立Master容器，映射端口 10…

走近大数据——什么是大数据、计算架构的发展

文章目录一、什么是大数据二、大数据计算架构的发展1.RDBMS阶段2.Hadoop Map-Reduce阶段3.Spark阶段4.Flink阶段参考一、什么是大数据大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。大数据的特点： 海量化：数…

2.Hive创建数据库

1.数据库操作 1.1 创建数据库 create database test comment Just for test location /abcd with dbproperties(aaabbb); comment后面指的是注释；location后面是数据库存放路径；dbproperties代表了数据库的属性 ps.避免要创建的数据库已经存在错误&…

【深入浅出 Yarn 架构与实现】6-3 NodeManager 分布式缓存

不要跳过这部分知识，对了解 NodeManager 本地目录结构，和熟悉 Container 启动流程有帮助。一、分布式缓存介绍主要作用就是将用户应用程序执行时，所需的外部文件资源下载缓存到各个节点。 YARN 分布式缓存工作流程如下: 客户端将应用程序…

Apache Sentry

官方说明 Sentry是一种用于在Hadoop集群中控制和管理访问权限的工具。因此，CDH的Sentry指的是Cloudera Distribution for Hadoop中集成的Sentry组件，用于管理Hadoop集群中的访问控制和权限管理。作用 Sentry是一个用于管理Hadoop集群中的访问权限的…

ResourceManager HA 原理

简介为了解决 Yarn 中 ResourceManager 的单点故障问题，在 Hadoop 2.4 中新增了 ResourceManager HA 的能力， 该文章基于 Hadoop 3.1.1 进行讲解。 1.1. 名词定义全称简称备注ResourceManagerRmZookeeperZK ResourceManager Ha 架构 ResourceMana…

【Storm】【二】Storm和流处理简介

Storm和流处理简介一、Storm1.1 简介1.2 Storm 与 Hadoop对比1.3 Storm 与 Spark Streaming对比1.4 Storm 与 Flink对比二、流处理2.1 静态数据处理2.2 流处理一、Storm 1.1 简介 Storm 是一个开源的分布式实时计算框架，可以以简单、可靠的方式进行大数据流的处理…

自学大数据第三天~终于轮到hadoop了

前面那几天是在找大数据的门,其实也是在搞一些linux的基本命令,现在终于轮到hadoop了 Hadoop hadoop的安装方式单机模式: 就如字面意思,在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统~就如我们一开始入门的时候都是从本地开始的; 伪分布式模式存储采用…

HDFS存储原理

基本原理 Block 块： HDFS的最小储存单位，块大小统一，便于统一管理。但存在Block块丢失的问题，一个文件中的任意一个块丢失都会导致文件不可用。因此提出了HDFS的备份机制。备份： 将一个块复制多份，放在…

Hadoop-hdfs操作

进程启停相关指令文件操作相关指令 HDFS WEB UI端口打开 node1:9870 可以在UI界面浏览文件可以看到，与linux终端显示一致。练习题 1在hdfs中创建文件夹：/itcast/itheima，如存在请删除（跳过回收站） 沿路径创…

HDFS—集群压测

目录测试写性能测试读性能删除测试产生的文件测试写性能 hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB 一共参与测试的文件：10个文件 * 2…

Hadoop完全分布式运行模式配置（开发重点）

目录 Hadoop是一个海量数据存储和计算的框架 Hadoop优点： 3.2 完全分布式运行模式（开发重点） 3.2.1 虚拟机准备 3.2.2 编写集群分发脚本xsync 3.2.3 SSH无密登录配置 3.2.4 集群配置 3.2.5 群起集群 3.2.6 配置历史服务器 3.2.7 配…

(五)HDFS容错机制

设置关键性的参数 replication factor(复制因子),是每个block要复制几份副本到其他的机器上去，如果某台机器挂了,其他机器上有一模一样的block副本。这个replication factor可以整体设置一下,也可以对每个文件设置一下,后续还可以修改过程写文件的时候,假如说默…

Hbase备份与恢复工具Snapshot的基本概念与工作原理

数据库都有相对完善的备份与恢复功能。备份与恢复功能是数据库在数据意外丢失、损坏下的最后一根救命稻草。数据库定期备份、定期演练恢复是当下很多重要业务都在慢慢接受的最佳实践，也是数据库管理者推荐的一种管理规范。HBase数据库最核心的备份与恢复工具——Sna…

(三)HDFS架构原理

目录架构图 Datanode 从节点(slave) 元数据（Metadata） 元数据信息持久化 Block 架构图 Namenode 主节点(master) 管理HDFS文件系统的命名空间,维护元数据信息, 处理客户端读写请求 Datanode 从节点(slave) 存储数据（Block&#xff09…

大数据周会-本周学习内容总结07

目录 01【hadoop】 1.1【编写集群分发脚本xsync】 1.2【集群部署规划】 1.3【Hadoop集群启停脚本】 02【HDFS】 2.1【HDFS的API操作】 03【MapReduce】 3.1【P077- WordCount案例】 3.2【P097-自定义分区案例】历史总结 01【hadoop】 1.1【编写集群分发脚本xsync】…

Hadoop场景案例参数调优

目录 1 需求 2 HDFS参数调优 （1）修改：hadoop-env.sh （2）修改hdfs-site.xml （3）修改core-site.xml （4）分发配置 3 MapReduce参数调优 （1）修…

Hadoop与Linux常用交互命令

交互命令一般，在linux命令前加hadoop fs或者hdfs dfs即可切换为hdfs用户，一般hdfs用户有hdfs文件的权限 [roothadoop01 ~]# su - hdfshadoop fs -mkdir -p 目录：在hdfs上创建目录 [roothadoop01 ~]# hadoop fs -mkdir -p /data/testhad…

【大数据Hadoop】HDFS3.3.1-Namenode-缓存管理

缓存管理前言缓存概念HDFS 集中式缓存有两个主要概念。缓存管理命令HDFS 集中式缓存架构CacheManager 类实现CacheReplicationMonitor前言 Hadoop 2.3.0 版本新增了集中式缓存管理（Centralized Cache Management）功能，允许用户将一些文件和目…

Hadoop_HDFS、Hadoop_MapReduce、Hadoop_Yarn 实践 (一)

Hadoop_HDFS、Hadoop_MapReduce、Hadoop_Yarn 实践 (一) 前要：Hadoop3.3.1完全分布式部署请参考此文章：Hadoop3.3.1完全分布式部署一、Hadoop_HDFS 1、概述、背景、优缺点 1.1、概述 Hadoop Distributed File System，简称 HDFS&…

CDH大数据平台入门篇之搭建与部署

一、CDH介绍 1.CDH 是一个强大的商业版数据中心管理工具提供了各种能够快速稳定运行的数据计算框架，如Spark； 使用Apache Impala做为对HDFS、HBase的高性能SQL查询引擎； 使用Hive数据仓库工具帮助用户分析数据； 提供CM安装HBas…

分布式应用协调服务ZooKeeper

一.ZooKeeper简介 Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目 Zookeeper文件系统通知机制 Zookeeper从设计模式上来看是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受…

详解hdfs读写文件流程

一.hdfs写数据流程 hdfs dfs -put 要上传的文件的路径 hdfs路径 1.客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2.NameNode返回是否可以上传?不能上传的话会抛出异常。3.确定可以上传,客户端请求第一个bloc…

使用MapReduce实现join操作

文章目录一.概述二.需求三.mapreduce实现join四.MapReduce Map端 join实现原理(没有reduce处理)一.概述熟悉SQL的读者都知道,使用SQL语法实现join是很简单的,只需要一条SQL语句即可,但是在大数据场景下使用MapReduce编程模型实现join还是比较繁琐的在实际生产中我们可以借助H…

MapReduce原理及编程

文章目录一.关于MapReduce(一)什么是MapReduce?(二) MapReduce的设计思想(三) MapReduce特点(四)MapReduce实现WordCount(五)MapReduce执行过程(六)Key&Value类型二.MapReduce编程模型(一)InputFormat接口(二)Mapper类(三)Combiner类(四)Partitioner类(五)Reducer类(六)Ou…

Hive语言2(大数据的核心：窗口函数)

1、Common Table Expressions（CTE）> 重点公用表达式(CTE)是一个临时结果集，该结果集是从WITH子句中指定的简单查询派生而来的，该查询紧接在SELECT或INSERT关键字之前。 2.inner join（内连接）、left joi…

FileSystem使用

核心类 org.apache.hadoop.fs.FileSystem 文件系统类抽象类 //静态方法创建对象 public static FileSystem newInstance(URI uri,Configuration conf,String user) /*参数一 URI 分布式文件系统 HDFS的资源地址 NN地址 hdfs://linux01:8020参数二 Configuration 用户自定…

数据治理实践-全面总结：小文件治理

01 背景小文件是如何产生的： 日常任务及动态分区插入数据（使用的Spark2 MapReduce引擎），产生大量的小文件，从而导致Map数量剧增； Reduce数量越多，小文件也越多(Reduce的个数和输出文件是对应…

[Hadoop]Apache Hadoop、HDFS

目录大数据导论与Linux基础 Apache Hadopp概述 Hadoop介绍 Hadoop现状 Hadoop特性优点 Hadopp架构变迁 Apache Hadopp集群搭建 Hadopp集群简介 Hadoop集群模式安装 Hadoop集群启停命令、Web UI HDFS分布式文件系统基础分布式存储系统的核心属性及功能含义 HDFS简…

Hadoop学习全程记录——hive入门

hive是Facebook的产品，很不错。官方文档：http://wiki.apache.org/hadoop/Hive/GettingStarted有很详细说明。基本上根据文档能对hive快速入门。在使用过程中可能会出现以下问题： 当执行下面命令时： Java代码 $ $HIVE_HOME/bin…

hive创建udf函数流程

1.编写udf函数引入pom文件 <dependencies> <dependency>  <groupId>org.apache.com…

源码阅读笔记 InputFormat、FileInputFormat、CombineTextInputFormat

1. InputFormat InputFormat是MapReduce框架提供的用来处理job输入的基类它主要定义了三个功能： 1.验证job输入是否合法 2.对输入文件进行逻辑切片(InputSplit)，然后将每个切片分发给单独的MapTask 3.提供切片读取器(Re…

大数据3 -Hadoop HDFS-分布式文件系统

目录 1.为什么需要分布式存储？ 2. HDFS的基础架构 3. HDFS存储原理 4. NameNode是如何管理Block块的 5. HDFS数据的读写流程 1.为什么需要分布式存储？ •数据量太大，单机存储能力有上限，需要靠数量来解决问题•数量的提升带…

HDSF 简介

目录一、HDFS 的设计特点是二、什么零拷贝 2.1 传统情况： 2.2 零拷贝技术： 三、什么是DMA 四、HDFS 的关键元素五、HDFS 运行原理六、HDFS 数据合并原理七、HDFS 写的原理八、HDFS 读的原理九、分块存储十、安全模式十一、 MapRedu…

大数据框架之Hive：第12章企业级调优

第12章企业级调优 12.1 计算资源配置本教程的计算环境为Hive on MR。计算资源的调整主要包括Yarn和MR。 12.1.1 Yarn资源配置 1）Yarn配置说明需要调整的Yarn参数均与CPU、内存等资源有关，核心配置参数如下 （1）yarn.nodem…

idea Java API 操作 HDFS

文章目录一、 hadoop window配置1.1 hadoop_home环境变量配置1.2 Hadoop里的Java路径配置二、IDE远程管理HDFS1.创建maven，导入pom.xml依赖2.案例测试提示：以下是本篇文章正文内容，下面案例可供参考一、 hadoop window配置 hadoop tar包解压…

Hbase Region分裂要点

背景 hbase作为一个可扩展的分布式kv存储数据库，可以根据数量量进行水平自动扩展是它具备的一个重要的功能，具体就是hbase支持Region的分裂，比如当Region下的HFile文件太大是，分解成两个子Region,每个子Region持有部分父Region的…

使用jdk17 搭建Hadoop3.3.5和Spark3.3.2 on Yarn集群模式

搭建Hadoop3.3.5和Spark3.3.2 on Yarn集群模式，使用jdk17搭建Hadoop3.3.5和Spark3.3.2 on Yarn集群模式1. 创建一台虚拟机2. 安装jdk17（1）下载jdk17（2）安装jdk17（3）配置环境变量3. 虚拟机之间互…

如何在千万级数据中查询 10W 的数据并排序

前言在开发中遇到一个业务诉求，需要在千万量级的底池数据中筛选出不超过 10W 的数据，并根据配置的权重规则进行排序、打散（如同一个类目下的商品数据不能连续出现 3 次）。下面对该业务诉求的实现，设计思路和方案优…

Hadoop技术浅析

一、什么是HadoopHadoop是一个适合大数据存储和计算的分布式框架Hadoop广义狭义之分狭义上Hadoop指Hadoop框架广义上随着大数据技术的发展，Hadoop也发展成了一个生态圈，包含：Sqoop：Sqoop是一款开源的工具，主要用于在Ha…

Spark的基本概念与架构

一、Spark简介 Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交…

Hadoop生态漏洞修复记录

Hadoop常用端口介绍 HDFSNameNode50070 dfs.namenode.http-address http服务的端口50470 dfs.namenode.https-address https服务的端口DataNode50010 dfs.datanode.address datanode服务端口，用于数据传输50075 dfs.datanode.http.address http服务…

Hadoop学习：Yarn

1.YARN介绍一个通用的资源管理系统和调度平台 YARN不分配磁盘，由HDFS分配相当于一个分布式的操作系统平台，为上层MR等计算程序提供运算所需要的资源（内存、CPU等） 2.YARN三大组件不要忘记AppMaster，他是程序内部…

大数据面试题：请描述MapReduce中shuffle阶段的工作流程，如何优化shuffle阶段？

map阶段处理的数据如何传递给reduce阶段，是MapReduce框架中最关键的一个流程，这个流程就叫shuffle。 shuffle: 洗牌、发牌——（核心机制：数据分区，排序，合并）。 shuffle是Mapreduce的核心&…

2.2 搭建Spark开发环境

一、Spark开发环境准备工作由于Spark仅仅是一种计算框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的HDFS、HBase等组件负责数据的存储管理，Spark负责数据计算。安装Spark集群前…

大数据课程-学习二十周总结

4.2.10.hive表中的数据导出将hive表中的数据导出到其他任意目录，例如linux本地磁盘，例如hdfs，例如mysql等等 4.2.10.1.insert导出 1）将查询的结果导出到本地 insert overwrite local directory ‘/export/data/exporthive’ sel…

MapReduce基础

函数式编程概念MapReduce程序是设计用来并行计算大规模海量数据的，这需要把工作流分划到大量的机器上去，如果组件(component)之间可以任意的共享数据，那这个模型就没法扩展到大规模集群上去了（数百或数千个节点）&#…

MapReduce【自定义OutputFormat】

MapReduce默认的输出格式为TextOutputFormat，它的父类是FileOutputFormat，即按行来写，且内容写到一个文本文件中去,但是并不能满足我们实际开发中的所有需求，所以就需要我们自定义OutPutFormat。自定义OutPutFormat 输出数据到…

Hadoop笔记整理

Hadoop 一. 引言 1.1 什么是大数据大数据:(Big Data):数据量级很大的应用处理。TB级 ，日数据增长GB级 K -- M---- G ---- T ----PB ---- EB ---ZB 1024通过对海量数据进行分析，挖掘，进而发现数据内在的规律，从而为企业或者…

黑马在线教育数仓实战7

1. hive的相关的优化 1.1 hive的相关的函数(补充说明) if函数: 作用: 用于进行逻辑判断操作语法: if(条件, true返回信息,false返回信息) 注意: if函数支持嵌套使用 nvl函数: 作用: null值替换函数格式: nvl(T value, T default_value) COALESCE函数作用: 非空查找函数:格式…

Hive企业级调优

Hive企业级调优调优原则已经在MR优化阶段已经有核心描述,优化Hive可以按照MR的优化思路来执行优化的主要考虑方面: 环境方面：服务器的配置、容器的配置、环境搭建具体软件配置参数：代码级别的优化调优的主要原则: 20/80原则非常重要,简单的说80…

scp、rsync与集群分发

1、scp（secure copy）安全拷贝定义 scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2） 基本语法 scp -r $pdir/$fname $user$host:$pdir/$fname 命令递归要拷贝的文件路径/名称 …

hadoop介绍以及未来发展

大数据作为当今世界的重要商业行为，给无数商家和企业带来了无数的发展机遇和机会，这里介绍一下，因为sap也是需要进入大数据时代的，毕竟跟这互联网，sap有发展，如果单纯就是应用在企业中，会错失很…

彷徨 | Hadoop之MapReduce个人浅谈

MapReduce是分布式运算编程框架,Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上为什么要MAPREDUCE （1）海量数据在单机上处理因为硬件资源限制，无法胜任…

Apache Hive安装部署

Apache Hive安装部署 🚃Hive元数据描述数据的数据，主要描述数据属性信息，用来支持如指示存储位置，历史数据，资源查找，文件记录等功能。存储在关系型数据库中。如hive内置Derby，或第三方MySql…

【大数据实训】—Hadoop开发环境搭建（一）

【大数据实训】—Hadoop开发环境搭建（一） 第一关、任务描述本关任务：配置JavaJDK。相关知识配置开发环境是我们学习一门IT技术的第一步，Hadoop是基于Java开发的，所以我们学习Hadoop之前需要在Linux系统中配置Jav…

Hive 库表相关操作

1、Hive内部表和外部表 1.内部表：未被external修饰；外部表：被external修饰。区别： （1）内部表数据由Hive自身管理，外部表数据由HDFS管理； （2）内部表数据存…

sqoop使用

sqoop使用 1. 导入数据2. 从mysql向hive导入数据2.1 导入用户信息表 2.导入订单表2.2 导入订单表2.3 导入商品信息表2.4 导入国家信息表2.5 导入省份信息表2.6 导入城市信息表2.7 创建hive临时表文件在使用sqoop之前，需要提前启动hadoop, yarn和对应的数据库mysql …

Hadoop部署本地模式

本地模式，即运行在单台机器上。没有分布式的思想，使用的是本地文件系统。使用本地模式主要是用于对MapReduce的程序的逻辑进行调试，确保程序的正确性。由于在本地模式下测试和调试MapReduce程序较为方便，因此，这种模…

Mahout详细使用文档和案例

目录 Mahout介绍安装Mahout以下是使用Maven构建Mahout的步骤： 使用Mahout聚类分类推荐 Mahout介绍 Mahout是一个基于Hadoop的机器学习库，它提供了许多常见机器学习算法的实现，包括聚类、分类、推荐等。以下是Mahout的详细使用文档&#xff0…

Spark集群的运行基本流程是怎样的？

Spark集群的运行架构 Spark是基于内存计算的大数据并行计算框架，比MapReduce计算框架具有更高的实时性，同时具有高效容错性和可伸缩性，在学习Spark操作之前，首先介绍Spark运行架构，如图所示。在上图中，Sp…

hiveSql调优

一、hiveSQL执行顺序 from … where … mapjoin … on … select（筛选有用字段） … group by ||… join … on … select（筛选输出字段） … having … distinct … order by … limit … union/union all|| 前是map阶段执行&…

实验三：熟悉常用的HBase操作

实验环境： (1)操作系统：Linux(建议 Ubuntu 16.04 或 Ubuntu 18.04)。 (2)Hadoop 版本：3.1.3。 (3)HBase 版本：2.2.2。 (4)JDK 版本：1.8。 (5)Java IDE: Eclipse。实验内容与完成情况： (1)现有以下关系数据…

关于Hive程序的全排序

使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下，因为不熟悉数据特性，或没有遵循Hive的优化约定，Hive计算任务会变得非常低效，甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解…

【Hadoop】Hadoop概念与实践下载安装MAC（M1芯片）

前置工作安装 HomeBrew 参考官方文档进行安装配置本机 ssh 免密登录 hadoop 运行过程中需要 ssh localhost，需要做一些配置保证可以执行成功允许远程登录偏好设置 -> 共享 -> 勾选「远程登录」配置 SSH 通过 ssh-keygen 生成 ssh keyssh-copy-id …

WIN10：Cognos10.2_x32安装

一、Cognos BI Server 10.2 32Bit 二、Cognos Transformer 10.2 三、Cognos Framework Manager 10.2 四、环境 1、如果使用Cognos自带的Tomcat web容器，将E:\common\Cognos\c10\webcontent下的所有文件拷贝到E:\common\Cognos\c10\webapps\p2pd 下面.(一般我们就使…

Hive ---- 分区表和分桶表

Hive ---- 分区表和分桶表 1. 分区表1. 分区表基本语法2. 二级分区表3. 动态分区 2. 分桶表1. 分桶表基本语法2. 分桶排序表 1. 分区表 Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录，每个目录就称为该表的一个分区。在查询时通过where子句中…

Hadoop入门常见面试题与集群时间同步操作

目录一，常用端口号 Hadoop3.x ： Hadoop2.x： 二，常用配置文件： Hadoop3.x: Hadoop2.x: 集群时间同步： 时间服务器配置（必须root用户）： （1&#xff09…

零基础可以学python么

零基础自然是可以学习python的，Python具有简单、易学、免费、开源、可移植、可扩展、面向对象等优点，斩获无数程序员的喜爱，也有了“人生苦短，我选Python”的名言。近几年Python一路高歌猛进，受欢迎程度有目共睹&…

4.Hadoop三件套（1）

如果说HDFS是存储，则Yarn就是cpu和内存，mapreduce就是程序。 1.HDFS文件块大小 HDFS中的文件在物理.上是分块存储(Block) ，block默认保存3份块的大小可以通过配置参数(dfs blocksize)来规定，默认大小在Hadoop2 .x版本中是128M,老版本中是64M。解释：块的大小：10ms*100*…

Hbase1.1：Hbase官网、Hbase定义、Habse结构、Hbase依赖框架、Hbase整合框架

这里写自定义目录标题Hbase官网Hbase特点：大Hbase定义Habse结构Hbase依赖框架hadoopHbase整合框架PhoenixHiveHbase官网 Hbase官网地址 HBase是Hadoop database，一个分布式、可扩展的大数据存储。当您需要对大数据进行随机、实时读/写访问时&#xf…

Doris数据导入和导出

数据导入 broker load Broker 导入，主要用于从HDFS上把文件导入到Doris中。这是一个异步导入的方式。（任务执行成功并不代表数据全部都导入成功） 前提：启动HDFS。案例演示： --创建表 CREATE TABLE test_db.user_…

CHAPTER 7 HPC集群部署 - hadoop

HPC集群部署 - hadoop1. 介绍2. 优点3. 架构及相关组件3.1 HDFS3.1.1 NameNode3.1.2 DataNode3.1.3 Secondary NameNode3.1.4 Client(客户端)3.2 Mapreduce（分布式计算框架）3.3. HBase（分布式列存储数据库）3.4 Zookeeper&#xff…

黑马在线教育数仓实战3

3.4 访问咨询主题看板_建模操作思考: 在创建表的时候, 需要考虑那些问题呢? 1) 表需要采用什么存储格式 2) 表需要采用什么压缩格式 3) 表需要构建什么类型表 3.4.1 数据存储格式和压缩方案存储格式选择: 情况一: 如果数据不是来源于普通文本文件的数据, 一般存储格式…

大数据开发必备面试题Flume篇合集

大数据开发必备面试题Flume篇合集 1 、详细介绍Flume有哪些组件？2、你是如何实现Flume数据传输的监控的？3、Flume参数怎么调优？4、简述下Flume的事务机制。5、 Flume采集数据会丢失吗?6、简述下Flume使用场景。7、简述下 Flume丢包问题。8、…

CDH大数据平台 27Cloudera Manager Console之superset相关包安装(markdown新版二)

💖个人主页：@与自己作战 💯作者简介：CSDN@博客专家、CSDN@大数据领域优质创作者、CSDN@内容合伙人、阿里云@专家博主 🆘希望大佬们多多支持，携手共进 📝 如果文章对你有帮助的话，欢迎评论💬点赞👍收藏📂加关注 ⛔如需要支持请私信我，💯必支持文章目录一…

干翻Hadoop系列之：Hadoop、Hive、Spark的区别和联系

第一章：Hadoop和Hive以及Spark的关系是什么？ Hadoop和Hive、Spark都是大数据领域的技术栈。一：大数据领域当中以后两个最为核心的问题 1：数据怎么存储 2：海量数据怎么计算单机系统时代。所有数据都在一个计算机…

1.Hive基础

1.简介作用：将结构化数据映射为一张表，并提供类sql功能本质：将HQL转化成MapReduce程序 （1）Hive处理的数据存储在HDFS （2）Hive分析数据底层的实现是MapReduce （3&#x…

Hadoop 开启 histotryserver

Hadoop 开启 histotryserver Hadoop自带了一个历史服务，可以通过历史服务在web端查看已经运行完的Mapreduce作业记录， 默认情况下，Hadoop历史服务是没有启动的，需要自行启动。启动后，在下图中点击history可跳转至历史…

hive性能测试hive-testbench

参考文档： Hive基准测试神器-hive-testbench_shining_yyds的博客-CSDN博客 GitHub - hortonworks/hive-testbench hive tpcds-benchmark 测试_houzhizhen的博客-CSDN博客 1. 构造测试数据 1.1 数据单位为G，最小的数据大小为2，构造数据…

Hive学习---3、DML（Data Manipulation Language）数据操作、查询

1、DML（Data Manipulation Language）数据操作 1.1 Load load语句可将文件导入到Hive表中 1、语法 load data [local] inpath filepath [overwrite] into table tablename [partition(partcol1val1,partcol2val2...)]2、关键字说明 （1&…

Hive on Spark环境搭建

Hive 引擎简介 Hive 引擎包括：默认 MR、tez、spark 最底层的引擎就是MR （Mapreduce）无需配置，Hive运行自带 Hive on Spark：Hive 既作为存储元数据又负责 SQL 的解析优化，语法是 HQL 语法，执行…

hive中如何计算字符串中表达式

比如 select 1(2-3)(-4.1-3.1)-(4-3)-(-3.34.3)-1 col ,1(2-3)(-4.1-3.1)-(4-3)-(-3.34.3)-1 result \ 现在的需求式给你一个字符串如上述col 你要算出result。前提式只有和-的运算，而且只有嵌套一次 -(4-3)没有 -(-4(3-(31)))嵌套多次。第一步我们需要将运…

Hadoop 4：Hive

数据仓库概念数据仓库（英语：Data Warehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（Decision Support&#x…

Spark RDD分区

文章目录一、RRD分区（一）RDD分区概念（二）RDD分区作用二、RDD分区数量（一）RDD分区原则（二）影响分区的因素（三）使用parallelize()方法创建RDD时的分区数量1、…

CDH 之 hive 升级至 hive-3.1.3 完美踩坑过程

一、准备工作 1.1 前言这是博主在升级过程中遇到的问题记录，大家不一定遇到过，如果不是 CDH 平台的话，单是 hive 服务升级应该是不会有这些问题的，且升级前博主也参考过几篇相关 CDH 升级 hive 服务的博文，前面的升级…

结合Sqoop练习一下columns、where和query参数

1、前期的数据准备 1》创建一个学生表 create table student(id char(30),name char(30),age int,phone char(100),address char(100)); 2》插入数据 insert into student values("1001","zhanghuan","21","1111","guiyang&q…

Hive简介和扩展设想

Hive简介和扩展设想 By云深作者：Alen/Adam 2009年6月转载请注明出处 1． Hive是什么 - Hive是Data Warehouse，Hive不是基于传统数据库上的Data Warehouse，但它能处理的数据量往往比传统数据库要大得多，…

程序开发思路分享计算机毕业设计PySpark+Hadoop商品评论情感分析 taobao商品推荐系统 taobao商品数据分析电商大数据电商可视化大数据毕业设计大数据毕设

开发技术 pyspark hadoop mysql 爬虫 echarts大屏说明整体业用户需要注册的时候通过邮箱验证码接收验证码完成注册，然后可以登陆业务流程，做个登录页，新。登录进去以后，有个爬取数据的列表分页，支持多条件查询&…

[大数据 Sqoop,hive,HDFS数据操作]

目录 🥗前言: 🥗实现Sqoop集成Hive,HDFS实现数据导出 🥗依赖: 🥗配置文件: 🥗代码实现: 🥗控制器调用: 🥗Linux指令导入导出: 🥗使用Sqoop将数据导入到Hive表中。例如&#…

hadoop分布式安装

文章目录1. 将安装包hadoop-3.1.3.tar.gz上次至linux中2. 进行解压操作3. 修改目录名称4. 配置环境变量5. 远程传输5.1 scp远程传输6. 免密登录7. 集群规划8. 修改自定义配置文件8.1 hadoop-env.sh8.2 core-site.xml8.3 hdfs-site.xml8.4 mapred-site.xml8.5 yarn-site.xml8.6 …

实验手册 - 第3周Spark RDD

目录标题1. Transformation算子：2. Action算子3. 实验实验1实验2实验3实验4本次实验需要用到的Transformation和Action算子： 1. Transformation算子： (1) map (2) filter (3) flatMap (4) sortBy (5) reduceByKey（针对Pair RDD&a…

hive或者impala如何根据字段找到表

hive或者impala如何根据字段找到表举个例子，我想在知道有一个字段叫做user_ip，但是我不知道这个字段存放在哪个表里面，怎么办呢？ 我希望有一种可以通过字段名称，反向查找表名的功能。这个功能在mysql中已经有了。但…

Hadoop之HBase

文章目录一、HBase简介二、HBase结构1.1HBase逻辑结构1.2HBase物理结构1.3HBase基础架构三、HBase安装配置3.1单机模式3.2集群搭建四、HBase JAVA API一、HBase简介《HBase官方文档》的原文地址是：http://hbase.apache.org/book.html W3Cschool.cn进行整理翻译 ht…

HBase架构篇 - Hadoop家族的天之骄子HBase

HBase的基本组成结构表（table） HBase 的数据存储在表中。表名是一个字符串。表由行和列组成。行（row） HBase 的行由行键（rowkey）和 n 个列（column）组成。行键没有数据类型&…

大数据——HDFS(分布式文件系统）

一，分布式系统概述 Hadoop的两大核心组件 HDFS（Hadoop Distributed Filesystem）：是一个易于扩展的分布式文件系统，运行在成百上千台低成本的机器上。HDFS具有高度容错能力，旨在部署在低成本机器上。HDFS主…

Hadoop概况

目录 1、Hadoop是什么 1.1、狭义上的Hadoop： 1.2、广义上的Hadoop： 1.3、Hadoop核心组件： 2、Hadoop特性优点 3、Hadoop架构变迁 4、Hadoop集群 HDFS集群和YARN集群逻辑上分离，物理上一起 1、Hadoop是什么 1.1、狭义上的Had…

大数据之Spark部署模式

文章目录前言一、Spark的部署模式（一）Client模式1. Standalone集群下的Client模式2. Spark On Yarn集群下的Client模式（二）Cluster模式1. Standalone集群下的Cluster模式2. Spark On Yarn集群下的Cluster模式总结前言 #博学谷IT学…

Hadoop HA-hadoop完全分布式高可用集群配置、高可用集群启动方式、master/slave1/slave2配置

Hadoop HA安装部署本文章使用root用户完成相关配置与启动、这里分为master、slave1、slave2进行配置一、将hadoop解压至需要的目录下二、配置hadoop-env.sh启动文件 export JAVA_HOME/opt/module/jdk1.8.0_212 //设置JDK路径export HDFS_NAMENODE_USERroot export HDFS_DAT…

HBase高可用

一、HBase高可用简介 HBase集群如果只有一个master，一旦master出现故障，将导致整个集群无法使用，所以在实际的生产环境中，需要搭建HBase的高可用，也就是让HMaster高可用，也就是需要再选择一个或多个节点也…

10.Yarn概述

如果说HDFS是存储，则Yarn就是cpu和内存，mapreduce就是程序。 1.基础架构复习： 1.Container就是一个容器，其中封装了需要使用的内存与cpu 2.每当提交一个job,就会产生一个appMaster(总指挥),app Master负责其他container里面的…

HBase（4）：常用shell操作

我们可以以shell的方式来维护和管理HBase。例如：执行建表语句、执行增删改查操作等等。 1 需求有以下订单数据，我们想要将这样的一些数据保存到HBase中。订单ID 订单状态支付金额支付方式ID 用户ID 操作时间商品分类 001 已付款 200.5 1…

dfs.nameservices参数

当在Hadoop集群中配置高可用性（High Availability）时，dfs.nameservices参数在Hadoop分布式文件系统（HDFS）中起着重要的作用。该参数用于指定HDFS集群的名称服务（NameNode），它是一个逻…

【Hive实战】Hive治理方向探讨（请留意见）

Hive治理方向探讨文章目录 Hive治理方向探讨Hive治理项治理临时性质的表控制分区表的分区数量和分区层级限制建表时使用的存储格式表或分区记录的location对应的HDFS路径实际不存在表级路径应是分区路径的前缀内部表使用非内部表路径外部表使用内部表路径表的属性个数异常按时…

Sqoop的简单使用案例之数据导入

Sqoop的简单使用案例之数据导入文章目录 Sqoop的简单使用案例之数据导入写在前面导入数据的演示说明RDBMS到HDFSRDBMS到HiveRDBMS到Hbase 写在前面 Hadoop版本：Hadoop-3.1.3Linux版本：CentOS7.5Sqoop版本：Sqoop-1.4.6MySQL版本：…

HDFS组织架构及相关介绍

HDFS组织架构 HDFS(Hadoop Distributed File System)是Hadoop生态系统中一个高可靠性、高吞吐量、高容错性的分布式文件系统。它最初是Google发明的GFS(Google File System)的实现， 根据Apache Hadoop Project组织架构，HDFS的组织架构如下： …

Hive（12）：View视图

1 View的概念 Hive中的视图（view）是一种虚拟表，只保存定义，不实际存储数据。通常从真实的物理表查询中创建生成视图，也可以从已经存在的视图上创建新视图。创建视图时，将冻结视图的架构，如果删除或更改基础表，则视图将失败，并且视图不能存储数据，操作数据，只能查…

大数据常见面试题之hive

文章目录一.描述一下Hive动态分区和分桶使用场景和使用方法1.分区2.分桶二.Hive是怎么集成HBase三.Hive join查询的时候on和where有什么区别四.Hive里面的left join是怎么执行的？五.Hive内部表,外部表,分区表六.Hive和mysql有什么区别，大数据为什么不用M…

hadoop组件之hive环境搭建

文章目录一.什么是Hive?二.Hive与传统数据库比对三.Hive部署1.下载与安装2.Hive需要提前装好MySQL3.Hive配置文件修改4.启动(需要先启动hdfs)一.什么是Hive? Hive是建立在Hadoop上的工具.能够帮助用户屏蔽掉复杂的MapReduce逻辑,只需要用户使用简单的SQL语句即可完成一定的查…

【Spark SQL】3、大数据数据仓库Hive的学习

大数据数据仓库Hive 产生背景 MapReduce编程的不变性HDFS上的文件缺失schema 用于处理海量结构化的日志数据统计问题构建在Hadoop之上的数据仓库 Hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同) 通常用于进行离线数据处理支持多种不同的压缩格式(GZIP、LZO、S…

Impala SQL常见报错问题排查与解决记录

背景最近在全权负责的一款数据产品，基于Hive-JDBC执行用户提交的Impala SQL，实现数据集，数据监控，数据推送等功能。Hive-JDBC版本2.1.1-cdh6.2.1： <dependency><groupId>org.apache.hive</groupId&g…

flink ui含义图解

笔者最近开始学习flink，但是flink的webui上各种指标错综复杂，在网上也没有找到一个比较详尽的资料，于是个人整理了一下关于flink中taskmanager的webui各个指标的含义，供大家参考。注：括号中仅为个人理解如下图&…

深入理解MapReduce

相关概念 MapReduce是一个基于HDFS的分布式计算框架，是一个可以将分布式计算抽象为Map和Reduce的编程模型，它的核心思想是分治，将大量数据分到不同机器上去分别计算最终汇总从而进行高效的数据处理，但是MapReduce不支持迭代和循环…

Hadoop各配置文件详解

1、Hadoop各目录说明文件夹名称作用bin存放对hadoop相关服务（HDFS,YARN）进行操作的脚本sbin存放启动或停止hadoop相关服务的脚本etchadoop的配置文件目录，存放hadoop的配置文件lib存放hadoop的本地库（对数据进行压缩解压缩功能&…

一起艳学大数据Hadoop（三）——java操作HDFS的增删改查

具体过程描述如下： 1、Client调用DistributedFileSystem对象的create方法，创建一个文件输出流（FSDataOutputStream）对象 2、通过DistributedFileSystem对象与Hadoop集群的NameNode进行一次RPC远程调用，在HDFS的Names…

12.Hadoop练习题

1.网络问题 （1）机器联网出现问题情况：ping一下百度，发现百度ping不通 sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33检查GATEWAY是否正确，修改过来之后保存退出，重启虚拟机 sudo systemctl re…

Windows 安装HBase

一.下载解压下载好HBase与Hadoop后,解压到D盘新建 Environment 目录 (将 hadoop-3.3.5 与 hbase-1.4.5 放到 Environment 目录) 下载地址：https://download.csdn.net/download/qq_37778018/87742319 二.配置hadoop 1. 配置环境变量 HADOOP_HOME=D:\Environment\hadoop…

Hive ---- DML（Data Manipulation Language）数据操作

Hive ---- DML（Data Manipulation Language）数据操作 1. Load2. Insert1. 将查询结果插入表中2. 将给定Values插入表中3. 将查询结果写入目标路径 3. Export&Import 1. Load Load语句可将文件导入到Hive表中。 1. 语法 LOAD DATA [LOCAL] INPATH …

【大数据】Hadoop总结

本文对于Hadoop中的HDFS和MapReduce的相关面试重点进行了总结，下篇将介绍调优、数据倾斜等进阶知识。 Hadoop总结一、概述1. Hadoop特性2. HDFS结构HDFS 架构二、HDFS分布式文件系统1 概述2. HDFS存储数据架构图NameNodeDataNode 3 HDFS优点4 HDFS缺点&#xff08…

【大数据Hadoop】HDFS3.3.1-Datanode-DataStorage的实现原理

DataStorage的实现原理前言Storage类继承关系StorageInfoStorage.StorageStateStorage.StorageDirectory文件夹操作加锁/解锁操作存储状态恢复操作 StorageDataStorage 前言 Datanode 最重要的功能就是管理磁盘上存储的 HDFS 数据块。Datanode 将这个管理功能切分为两个部分&…

Hadoop-----WorldCount代码编写、温度案例

WorldCount代码编写 WordCountMapper package day34.com.doit.demo02;import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;pub…

当我们说大数据Hadoop，究竟在说什么？

提到大数据，大抵逃不过两个问题，一个是海量的数据该如何存储，另外一个就是那么多数据该如何进行查询计算呢。好在这些问题前人都有了解决方案，而Hadoop就是其中的佼佼者，是目前市面上最流行的一个大数据软件&#xf…

hive 清空分区表多姿势对比

目的测试清空hive分区表(分区>1000) 最优方案测试背景表: 分区表二级分区分区个数: 5400数据量: 8000 万HDFS占用: 214.9 GB复制测试的分区表每张表耗时: 18min,其中扫描5400个路径下的文件耗时26s set spark.executor.memory3g;set spark.executor.cores15;set s…

【大数据之Hadoop】二十五、生产调优-HDFS核心参数

1 NameNode内存生产配置 Hadoop3.x系列的NameNode内存是动态分配的，可以用jmap -heap 进程号查看分配的内存。在hadoop102中NameNode和DataNode的内存都是自动分配的，且相等。根据经验： NameNode最小值为1G，每增加1百万个物理…

大数据框架-Hadoop

大数据框架-Hadoop 1.什么是大数据大数据是指由传统数据处理工具难以处理的规模极大、结构复杂或速度极快的数据集合。这些数据集合通常需要使用先进的计算和分析技术才能够处理和分析，因此大数据技术包括了大数据存储、大数据处理和大数据分析等方面的技术和工具…

Hive中常见的join方式

Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联，还支持LEFT SEMI JOIN和CROSS JOIN，但这两种JOIN类型也可以用前面的代替。如何实现join? 1）内关联（JOIN） 只返回能关联上的结果。 SELECT a.i…

一百零八、Kettle采集Kafka数据到HDFS（踩坑，亲测有效）

Kafka到HDFS，除了用Kafka API和flume之外，还可以用kettle，最大优点是不用写代码！ 版本：Kettle版本：8.2、Hadoop版本：3.1.3 前提： 详情请看鄙人的一百零一、Kettle8.2.0连接Hive…

搭建hadoop集群

搭建Hadoop集群 1，准备环节 Hadoop完全分布式集群式（master/slave）主从架构。因为Hadoop是由java编写的，所以需要Java的环境支持，作为开发者我们需要安装jdk。安装jdk的教程http://t.csdn.cn/6qJKg 下载Hadoop的…

Hive概述和安装

hive简介 Hive：由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具，将结构化的数据文件映射为一张表，并提供类SQL(HQL)查询功能。 Hive本质：将HQL转化成MapReduce程序 （1&am…

CDH 之 hive 数据迁移

当你想切换了集群想把hive迁移至新集群，两个集群之间又互不相通，一个最简单快捷的方法，就是批量导出元数据信息，同时把数据文件下载上传至新服务器的数据文件存放目录下批量导出云数据： # database 即是数据库名称 …

【大数据之Hadoop】三十、HDFS故障排除

使用3台服务器，恢复yarn快照。 1 NameNode故障处理出现NameNode进程挂了并且存储的数据也丢失了，怎么恢复NameNode。故障模拟： （1）kill掉NameNode的进程： kill -9 进程ID（2）删…

Hadoop之block切片

切片是一个逻辑概念在不改变现在数据存储的情况下，可以控制参与计算的节点数目通过切片大小可以达到控制计算节点数量的目的有多少个切片就会执行多少个Map任务 hdfs上数据存储的一个单元,同一个文件中块的大小都是相同的因为数据存储到HDFS上不可变&#xff0…

安装和使用分布式HDFS系统在CentOS 8上进行文件上传操作

文章目录实验目的和背景实验目的实验背景实验过程步骤1：安装Java步骤2：下载hadoop-3.3.1.tar.gz步骤3：创建一个普通用户来运行Hadoop Hadoop 概念Hadoop 整体设计HDFSHDFS 的节点命名节点 (NameNode)数据节点 (DataNode)副命名节点 (Second…

MapReduce原理

MapReduce 编程规范 MapReduce 的开发一共有八个步骤, 其中 Map 阶段分为 2 个步骤，Shuffle 阶段 4 个步骤，Reduce 阶段分为 2 个步骤Map 阶段 2 个步骤设置 InputFormat 类, 将数据切分为 Key-Value(K1和V1) 对, 输入到第二步自定义 Map 逻辑, 将第一…

Fix potential FSImage corruption.

HDFS 添加降级所需代码分析背景 Namenode从 hadoop 3.3.4 降级回公司版本会出现 NameNode不能启动，加载image出现遗产， 基础知识位域"或"位字段将一个Interger 按二进制数位不同区域表示不同信息的方法，通常被称为"位域…

Hadoop2.9.2+Spark2.4.8安装

版本如下： Hadoop2.9.2 spark2.4.8 Scala2.11.12 Linux：CentOS7.4 四台机器hostname设置如下： ambari.master.hadoop ambari.node1.hadoop ambari.node2.hadoop ambari.node3.hadoop spark作为主节点，其它三个是计算节点。环境…

大数据 | 实验一：大数据系统基本实验 | 熟悉常用的HBase操作

文章目录 📚HBase安装🐇安装HBase🐇伪分布式模式配置🐇测试运行HBase🐇HBase java API编程环境配置 📚实验目的📚实验平台📚实验内容🐇HBase Shell 编程命令实现以下指定…

HIVE SQL 进行 Join 和 group by的具体原理及分区方式

HIVE SQL 实现Join和group by 具体原理 1、JOIN 在map的输出value中为不同表的数据打上tag标记，在reduce阶段根据tag判断数据来源。MapReduce的过程如下： 2、 GROUP BY HIVE SQL 实现Join和group by 的分区原理 1、JOIN 在join操作中，两个…

4.HDFS概述

如果说HDFS是存储，则Yarn就是cpu和内存，mapreduce就是程序。 1.HDFS文件块大小 HDFS中的文件在物理.上是分块存储(Block) ，block默认保存3份块的大小可以通过配置参数(dfs blocksize)来规定，默认大小在Hadoop2 .x版本中是128M,老版本中是64M。解释：块的大小：10ms*100*…

MapReduce【MapTask和ReduceTask的工作机制】

目录 MapTask工作机制 Read阶段 Map阶段 Collect阶段 Spill阶段步骤1 步骤2 步骤3 Merge阶段 ReduceTask工作机制 Copy阶段 Merge阶段 Sort阶段 Reduce阶段 ReduceTask并行度（ReduceTask个数） 注意事项 MapTask工作机制 Read阶段 MapT…

Hadoop的基础操作

Hadoop的基础操作 HDFS是Hadoop的分布式文件框架，它的实际目标是能够在普通的硬件上运行，并且能够处理大量的数据。HDFS采用主从架构，其中由一个NameNode和多个DataNode NameNode负责管理文件系统的命名空间和客户端的访问DataNode负责存储实…

分布式文件系统HDFS的多问多答

分布式文件系统HDFS 简述HDFS的优缺点简述HDFS的体系结构请论述HDFS中SecondaryNameNode的作用和工作原理请论述HDFS写数据原理简述HDFS的优缺点 HDFS的优良特性： ①兼容廉价的硬件设备。在成百上千台廉价服务器中存储数据，常会出现节点失效的情况&…

数据湖Iceberg-Hive集成Iceberg(3)

文章目录 Hive集成Iceberg环境准备Hive与Iceberg的版本对应关系如下上传jar包，拷贝到Hive的auxlib目录中修改hive-site.xml，添加配置项启动 HMS 服务启动 Hadoop 创建和管理 Catalog默认使用 HiveCatalog指定 Catalog 类型使用 HiveCatalog使用 HadoopCa…

数据湖Iceberg-存储结构(2)

文章目录存储结构数据文件 data files表快照 Snapshot清单列表 Manifest list清单文件 Manifest file 数据湖Iceberg-简介(1) 数据湖Iceberg-存储结构(2) 数据湖Iceberg-Hive集成Iceberg(3) 数据湖Iceberg-SparkSQL集成(4) 数据湖Iceberg-FlinkSQL集成(5) 数据湖Iceberg-Flink…

Hadoop使用教程(1):单节点部署

部署jdk环境 jdk版本：8u311 解压 tar -zxvf /opt/software/jdk-8u311-linux-x64.tar.gz -C /opt/module/ 更改文件名 mv /opt/module/jdk1.8.0_311/ /opt/module/jdk8 添加jdk环境变量 vim /etc/profile 内容添加（文件末尾） #jdk8 export JA…

Hive ---- Hive入门

Hive ---- Hive入门 1. 什么是Hive1. Hive简介2. Hive本质 2. Hive架构原理1. 用户接口：Client2. 元数据：Metastore3. 驱动器：Driver4. Hadoop 1. 什么是Hive 1. Hive简介 Hive是由Facebook开源，基于Hadoop的一个数据仓库工具&a…

Hive介绍

Hive定义 Hive是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射成一张数据表，并可以使用类似SQL的方式来对数据文件进行读写以及管理。这套Hive SQL 简称HQL。Hive的执行引擎可以是MR、Spark、Tez。 Hive的本质是将HQL转换成MapReduce任务&…

大数据面试题汇总

Hadoop基础介绍下Hadoop Hadoop的特点说下Hadoop生态圈组件及其作用 Hadoop主要分哪几个部分?他们有什么作用? Hadoop 1.x，2x，3.x的区别 Hadoop集群工作时启动哪些进程?它们有什么作用? 在集群计算的时候，什么是集群的主要瓶颈 …

Hive ---- 函数

Hive ---- 函数 1. 函数简介2. 单行函数1. 算术运算函数2. 数值函数3. 字符串函数4. 日期函数5. 流程控制函数6. 集合函数7. 案例演示 3. 高级聚合函数案例演示 4. 炸裂函数1. 概述2. 案例演示 5. 窗口函数1. 概述2. 常用窗口函数3. 案例演示 6. 自定义函数7. 自定义UDF函数 1.…

原生apache hadoop3.3.1集群安装配置Kerberos

安装kerberos可以看一下我另外一篇。下面直接开始配置hadoop CDH配置Kerberos和Sentry详解_cdh kerberos配置_Mumunu-的博客-CSDN博客部署好了kerberos之后，首先添加用户和生成认证文件在KDC中添加需要认证的用户具体用户看情况而定(hadoop集群主要由hdfs管理&a…

Kylin从入门到精通以及案例实操系列

1、Kylin 基础知识 1.1、了解 Kylin 的基本概念、原理和架构 1.1.1、Kylin 定义 Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc开发并贡献…

Hadoop的基本概念和架构

Hadoop的基本概念和架构学习路线 hadoop的基本概念和架构hadoop的安装和配置hadoop的HDFS文件系统hadoop的MapReduce计算框架hadoop的YARN资源管理器hadoop的高级特效，如HBase，Hive，Pig等hadoop的优化和调优hadoop的应用场景，如…

Kerberos中常用命令和kinit -kt命令说明

命令 kinit -kt /export/kerberos/1/a.keytab a/aA.COMkinit -kt 说明该命令是Kerberos身份验证协议中的一部分，用于获取Kerberos票据。Kerberos是一种网络身份验证协议，用于在计算机网络上安全地验证用户身份。命令中的“-kt”选项指定了用于身份…

03.hadoop上课笔记之hdfs环境的搭建和使用

1.启动网络在windows任务管理器启动服务vm Dhcp #由动态ip变为静态 #启动网卡ifup ens33#修改网卡配置文件vi /etc/sysconfig/network-scripts/ifcfg-ens33BOOTSTRAPstaticIPADDR192.168.202.101NETMASK255.255.255.0GATEWAY192.168.202.2DNS1192.168.202.2#重启网络 servic…

校招面试重点汇总之Hadoop中的HDFS（不多但都是高频面试题）

一、介绍下什么是 HDFS（Hadoop Distributed File System）？它的特点是什么？ Hadoop Distributed File System（HDFS）是Apache Hadoop生态系统的一个核心组件，是一个可扩展的分布式文件系统&#…

PySpark基础入门（6）：Spark Shuffle

PySpark基础入门（6）：Spark Shuffle - 掘金 (juejin.cn) 目录 shuffle的执行 ShuffleManager Hash Shuffle Sort Shuffle Manage Spark在DAG调度阶段会将一个Job划分为多个Stage，上游Stage做map工作，下游Stage做r…

hive安装和部署

1. Hive地址 1．Hive官网地址 Apache Hive 2．文档查看地址 GettingStarted - Apache Hive - Apache Software Foundation 3．下载地址 Index of /dist/hive 4．github地址 GitHub - apache/hive: Apache Hive 2. 前提准备 1.服务…

【hive】hive order、sort、distribute、cluster by区别与联系

1、order by hive中的order by 会对查询结果集执行一个全局排序，这也就是说所有的数据都通过一个reduce进行处理的过程，对于大数据集，这个过程将消耗很大的时间来执行。 2、sort by hive的sort by 也就是执行一个局部排序过程。这可以…

Hadoop基础学习---3、HDFS概述、HDFS的Shell操作、HDFS的API操作

1、HDFS概述 1.1 HDFS产出背景及定义 1、HDFS产生背景随着数据量越来越大，在一个操作系统存不住所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件&#xff0c…

Hadoop集群实现时间同步

一.为什么要对集群实现时间同步因为我们在集群使用hive，mysql，hdfs之间等使用sqoop传输数据的时候，如果集群之间没有同步时间的话，那么就会报错，无法实现数据的传输。不仅如此，在集群的使用当中&#xff…

大数据（三）大数据技术栈发展史

-系列目录- 大数据(一)背景和概念大数据(二)大数据架构发展史大数据(三)大数据技术栈发展史前两章，我们分析了大数据相关的概念和发展史，本节我们就讲一讲具体的大数据领域的常见技术栈发展史。对主流技术栈有一个初步的认知。一、总览大数据技术栈…

Spark大数据处理讲课笔记-- 理解RDD依赖

零、本讲学习目标理解RDD的窄依赖理解RDD的宽依赖了解两种依赖的区别一、RDD依赖在Spark中，对RDD的每一次转化操作都会生成一个新的RDD，由于RDD的懒加载特性，新的RDD会依赖原有RDD，因此RDD之间存在类似流水线的前后依赖关系…

Hadoop Streaming使用简介

一、Hadoop Streaming 它是hadoop的一个工具，用来创建和运行一类特殊的map/reduce作业。所谓的特殊的map/reduce作业可以是可执行文件或脚本本件（python、PHP、c等）。Streaming使用“标准输入”和“标准输出”与我们编写的Map和Reduce进行数据…

大数据开发之Hive案例篇5- count(distinct) 优化一例

文章目录一. 问题描述二. 解决方案2.1 调整reduce个数2.2 SQL改写一. 问题描述需求: 卡在了reduce，只有一个reduce MR job卡在了最后一个reduce，任务迟迟未运行成功二. 解决方案 2.1 调整reduce个数一般一个reduce处理的数据是1G&#xff0c…

Hadoop大数据存算分离需要什么样的存储？

据IDC预测，到2021年，至少50%的全球GDP将由数字化驱动。面对海量数据，企业亟需通过更加现代化、敏捷、高性能的IT基础设施来推进业务持续发展。当今世界，只有很少的数据得到了分析，还有巨大的待开发潜能，在…

一起艳学大数据Hadoop（一）——安装hadoop

前言：接下来带大家学习大数据的生态圈，以及数据挖掘。学习Hadoop,Hive,HBase,Pig,Spark,Oozie等大数据技术，带你装逼带你飞。首先安装一下hadoop 下载hadoop wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hado…

万法归宗之Hadoop编程无界限

记录下，散仙今天的工作以及遇到的问题和解决方案，俗话说，好记性不如烂笔头，写出来文章，供大家参考，学习和点评，进步，才是王道 ，废话不多说，下面切入主题&…

Hadoop中单词统计案例

需要的软件和工程代码下载地址： Hadoop中单词统计案例（访问密码：7567）: https://url56.ctfile.com/d/34653256-48746892-4c8f2e?p7567 https://url56.ctfile.com/d/34653256-48746892-4c8f2e?p7567 一、搭建本地环境 1、…

Hive中高频常用的函数和语法梳理及业务场景示例

Hive中高频常用的函数和语法梳理及业务场景示例聚合函数 collect_list - 收集列值到一个数组 collect_list函数用于将指定列的值收集到一个数组中，并返回该数组作为结果。它通常在GROUP BY子句中使用，以将相同键的值收集到一个数组中进行聚合操作以…

Ubuntu配置伪分布式Hadoop实战

Ubuntu配置Hadoop方法及问题解决伪分布式配置方法主要借鉴了给力星提供的详细教程，网址是powerxing 大家可以仔细阅读，有钱的话，也可以打赏，个人感觉这是网上最好的教程，真的不错。同时，大家可以参考一…

Linux虚拟机安装hive-0.13.1-cdh5.3.6

下载 cdh5.3.6 密码:bqgj 【cdh】链接: https://pan.baidu.com/s/1ASwsAS2eRrV7WpymuQS3-w 密码: bqgj 官方下载地址配置在虚拟机的 /opt 下创建 cdh5.3.6 文件夹，并将hive-0.13.1-cdh5.3.6上传到 /opt/cdh5.3.6 下，然后进入 /hive-0.13.1-cdh5.…

Linux虚拟机安装hadoop-2.5.0-cdh5.3.6

下载 cdh5.3.6 密码:bqgj 【cdh】链接: https://pan.baidu.com/s/1ASwsAS2eRrV7WpymuQS3-w 密码: bqgj 官方下载地址配置在虚拟机的 /opt 下创建 cdh5.3.6 文件夹，并将hadoop-2.5.0-cdh5.3.6上传到 /opt/cdh5.3.6 下，然后进入 /hadoop-2.5.0-cdh…

Linux中安装java8步骤 Sucha

Linux中安装java8步骤 Sucha 1、前往官网下载压缩包 64位系统要下载64位的包，不然会报错 2、在opt下新建一个目录命名java cd /opt mkdir java #然后将下载好的tar包文件不管用什么方式，弄到这个文件夹来 3、然后用tar命令解压 tar -zxvf jdk-linux-i586…

图解Hbase的单机伪分布式部署

[b][colorgreen][sizex-large]HBase 全称Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。本篇散仙要介绍下怎么部署安装Hbase的伪分布式模式，在安装…

如何使用hadoop对海量数据进行统计并排序

[b][colorgreen][sizex-large]不得不说，Hadoop确实是处理海量离线数据的利器，当然，凡是一个东西有优点必定也有缺点，hadoop的缺点也很多，比如对流式计算，实时计算，DAG具有依赖关系的计算&#x…

HBase集群搭建

hbase 1.解压HBase安装包先下载HBase压缩包，并解压安装文件，示例代码如下： tar -zxvf hbase-2.0.1-bin.tar.gz2. 修改配置文件编辑 conf目录下的 hbase-env.sh文件，示例代码如下： cd conf vi hbase-env.sh添加…

全方位揭秘！大数据从0到1的完美落地之MapReduce实战案例(1)

案例一: MR实战之小文件合并(自定义inputFormat) 项目准备需求无论hdfs还是MapReduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案测试数据分析小文件的优化无…

大数据处理技术：从Hadoop到Spark的演进和比较

在过去的十年中，大数据技术的发展突飞猛进，各种开源大数据处理框架层出不穷，其中Hadoop和Spark是最受欢迎的两个框架。Hadoop是最早的开源大数据处理框架之一，而Spark则是在Hadoop之后出现的，它在内存计算和数据处理方…

Hadoop MapReduce入门实验：WordCount

环境：ubuntu 18.04， Hadoop 3.3.5 参考资料：Hadoop官网：MapReduce Tutorial 前置工作运行Hadoop。参考：单节点模式，集群模式单节点模式（for first-time users） 在YARN上以pseu…

Sqoop ---- 简介、原理、安装

Sqoop ---- 简介、原理、安装 1. Sqoop 简介2. Sqoop 原理3. Sqoop 安装1. 下载并解压2. 修改配置文件3. 拷贝JDBC驱动4. 验证Sqoop5. 测试Sqoop是否能够成功连接数据库 1. Sqoop 简介 Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgre…

hadoop组件之hbase环境搭建

文章目录一.安装HBase之前,需要具备如下三个前置条件二.安装HBase与配置环境变量三.HBase配置(主要掌握完全分布式)1.单机模式2.伪分布模式3.完全分布模式(!!!重要)一.安装HBase之前,需要具备如下三个前置条件 1.HBASE的运行需要JDK jdk安装 2.HBase的底层存储依赖于HDFS,需要…

zookeeper的配置和zookeeper集群的时间同步设置

文章目录一.ZooKeeper下载安装二.ZooKeeper配置三.配置集群的时间同步四.启动和关闭ZooKeeper并验证一.ZooKeeper下载安装 1.下载:链接: https://pan.baidu.com/s/12v1T3iVxBdkKP2PclVAHpQ 提取码: u5ed2.拖入opt目录解压安装:tar -zxvf zookeeper-3.4.6.tar.gz3.删除安装包: …

测试环境hadoop启动

启动hadoop start-dfs.sh start-yarn.sh mr-jobhistory-daemon.sh start historyserver mr-jobhistory-daemon.sh stop historyserver start-all.sh stop-all.sh kill -9 15246 杀死RunJar 启动spark /bigdata/server/spark/sbin/start-all.sh /bigdata/server/spark/sbin/s…

YARN的Node Label机制

Node Label的介绍官网对NodeLabel的介绍如下: Node label is a way to group nodes with similar characteristics and applications can specify where to run. 节点标签是一种对具有相似特征的节点进行分组的方法，应用程序可以指定在哪里运行。那么标签到底是做…

Hive学习---4、函数

1、函数 1.1 函数简介 Hive会将常用的逻辑封装成函数给用户进行使用，类似java中的函数。好处：避免用户反复写逻辑，可以直接拿来使用重点：用户需要知道函数叫什么，能做什么 Hive提供了大量的内置函数，按…

Sqoop ---- Sqoop的简单使用案例

Sqoop ---- Sqoop的简单使用案例 1. 导入数据1. RDBMS到HDFS2. RDBMS到Hive3. RDBMS到Hbase 2. 导出数据1. HIVE/HDFS到RDBMS 3. 脚本打包 1. 导入数据在Sqoop中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群（…

大数据 hadoop 经典面试题 | 一

1 . 下面哪个程序负责 HDFS 数据存储？（C） A.NameNode B.JobTracker C.DataNode D.SecondaryNameNode E.tasktracker 2 . HDFS 中的 block 默认保存几份？（A） A.3 份 B.2 份 C.1 份 D.不确定 3 . …

玩转大数据系列之如何给Apache Pig自定义存储形式（四）

Pig里面内置大量的工具函数，也开放了大量的接口，来给我们开发者使用，通过UDF，我们可以非常方便的完成某些Pig不直接支持或没有的的功能，比如散仙前面几篇文章写的将pig分析完的结果，存储到各种各样的介质里…

Linux下编译Hadoop的Eclipse插件

[b][colorgreen][sizex-large]虽然使用Java编写MapReduce作业有点繁琐，但是对于刚入门hadoop的新手来说，有利于理解hadoop的一些底层实现，这无疑也是一种巨大的收获。目前大部分的MapReduce作业都是使用Hive，Pig完成的&#xff0c…

Hadoop日志系统知识

[b][colorgreen][sizex-large]hadoop日志系统中的日志收集模块，在如今比较流行的以及开源具有代表性的有facebook的scribe，apache的chukwa，linkedin的kafka，以及非常优秀的cloudrea的flume，在1.x的hadoop生态系统中&am…

炸裂，Cocos元宇宙生态基建项目！这个Demo从角色捏脸乳摇到场景氛围特效网络帧同步一应俱全........

深圳小爱灵动基于 Cocos Creator 推出元宇宙项目「灵动元境」刷爆了很多人的朋友圈，该项目发力品牌元宇宙生态基础设施建设。孙晨阳在深圳沙龙上，孙晨阳分享了如何使用 Cocos Creator 快速搭建一个多人游戏并进行调优，从材质优化、角色优化、…

大数据框架Kafka史上最详细原理总结-学完肯定是觉得干活满满

如果你恰好在学大数据，想要通过本篇文章就学好大数据，我建议你可以把页面关闭掉，大数据是入门学容易，达到高薪是绝对需要系统学习的，当然如果你想着通过大数据提高你的收入，可以详细阅读我推荐的文章推荐…

Apache Pig学习笔记之内置函数（三）

[img]http://dl2.iteye.com/upload/attachment/0105/3491/7c7b3bef-0dda-3ac6-8cdb-1ecc1dd9c194.jpg[/img]1 简介 Pig附带了一些的内置函数，这些函数包括（转换函数，加载和存储函数，数学函数，字符串函数，以…

基于Hadoop的大数据平台实施——整体架构设计

大数据的热度在持续的升温，继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织，至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据&…

大数据查询工具HBase读写设计与实践

背景介绍本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询。原实现基于 Oracle 提供存储查询服务，随着数据量的不断增加，在写入和读取过程中面临性能问题，且历史数据仅供业…

请小心Hadoop2.5.0和Java Web项目集成bug

[b][colorgreen][sizelarge]今天，散仙在Myeclipse构建的Java的Web项目里使用hadoop2.5的jar包，去连接Linux系统上的HDFS，做一个数据展示的工程，发生了一个莫名其妙的异常，信息如下：[/size][/color][/b]Exce…

全面解析大数据批处理框架Spring Batch

是时候和我们一起来了解下批处理的世界哪些优秀的框架和设计了，今天我将以Spring Batch为例，和大家一起探秘批处理的世界。初识批处理典型场景探秘领域模型及关键架构实现作业健壮性与扩展性批处理框架的不足与增强批处理典型业务场景对账是典型的批…

Eclipse4.2向hadoop2.2提交MR作业异常

[b][colorgreen][sizelarge]之前散仙也用过eclipse直接向hadoop提交MR作业，也提交成功过，这次换了集群环境，提交作业时发现几个异常，特此整理一下，以防后面再出现类似问题。主要的问题的有2个: 第一个问题，…

如何将Lucene索引写入Hadoop2.x？

[b][colorred][sizex-large]转载请务必注明，原创地址，谢谢配合! [url]http://qindongliang1922.iteye.com/blog/2090121[/url] [/size][/color][/b] [b][colorolive][sizelarge]散仙，在上篇文章，已经写了如何将Lucene索引写入Had…

源码编译 DolphinScheduler 1.3.9 海豚调度，修改Hadoop、Hive组件版本兼容

大前提： maven3 jdk8 环境 maven 私服换成国内镜像，推荐阿里云 maven 镜像 maven-3.6.3\conf\settings.xml <mirrors><mirror><id>aliyunmaven</id><mirrorOf>*</mirrorOf><name>阿里云公共仓库</name&g…

大数据零基础学习hadoop入门教程

1、Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构，用户可以在不了解分布式底层细节情况下，开发分布式程序，充分利用集群的威力来进行高速运算与存储，具有可靠、高效、可伸缩的特点 Hadoop的核心是YARN,…

大数据学习入门必学的32个算法

奥地利符号计算研究所(Research Institute for Symbolic Computation，简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章，提到他做了一个调查，参与者大多数是计算机科学家，他请这些科学家投票选出最重要的算法&…

机器学习、数据科学、人工智能、深度学习、统计学等的区别

1. 数据科学家的各种类型想要开始并且了解一些以前的观点，不妨参考2014年发布的文章“ 9 types of data scientists”或者同年另一篇文章比较数据科学和“16 analytic disciplines”。更近一点的(2016八月) Ajit Jaokar 讨论了Analytics data scientist(Type A)和…

大数据应用技术测试习题

1. Impala是哪种处理的查询分析？ A. 实时 B. 内存计算 C. 海量处理 D. 批处理答案：A 解析：Impala是由Cloudera开发的一个开源并行处理查询工具，它能够在Apache Hadoop上进行实时查询分析。使用Impala，用户可以执行低…

大数据架构Hadoop、Spark和Storm 三者技术对比

从人工统计分析到电脑大型机再到今天的分布式计算平台，数据处理速度飞速提高的背后则是整体架构的不断演进。今天大数据架构最火热的莫过于Hadoop，Spark和Storm这三种，而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头，也让…

Hadoop, 深入分析大数据集成与安全问题

信息爆炸般闯入了我们的生活，就像一个巨大的玩具盒，里面应有尽有。网络早期只有几百页，手工就能索引查询；到现在页面飙升至数百万级别，每天还有数千的新增页面，想要找到某样东西的时候，如何搜寻…

hadoop面试题（一）

1 hdfs写流程 1、根namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在 2、namenode返回是否可以上传 3、client请求第一个 block该传输到哪些datanode服务器上 4、namenode返回3个datanode服务器ABC 5、client请求3台dn中的…

数据科学家告诉你5个学习大数据的正确姿势！

对于数据科学来说，现在是发展的黄金时期。这是个新领域，但增长迅速，同时数据科学家的缺口也很大，据说他们的平均年薪可以达到10万美元。哪里有高薪，哪里就吸引人们，但是数据科学技能的差距意味着许多人需要…

Hive（16）：Partition（分区）DDL操作

1 Add partition 分区值仅在为字符串时才应加引号。位置必须是数据文件所在的目录。 ADD PARTITION会更改表元数据，但不会加载数据。如果分区位置中不存在数据，查询将不会返回任何结果。 --1、增加分区 ALTER TABLE table_name ADD PARTITION (dt=20170101) location /use…

hive udf 判断四边形是否为矩形

hive udf中经常要做判断四边形是否为矩形，所以写了这个udf如下： public class RectangularIsNot extends UDF {private static final int LNG_LAT_LENGTH = 2;private static final String SEPARATOR_POINT = "|";private

怎样进行大数据的入门级学习？

数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法都可以来对付数据从狭义上来看，我认为数据科学就是解决三个问题&am…

如何将Lucene索引写入Hadoop？

[b][colorred][sizex-large]转载请务必注明，原创地址，谢谢配合! [url]http://qindongliang1922.iteye.com/blog/2088076[/url] [/size][/color][/b] [b][colorgreen][sizemedium]Hadoop是Lucene的子项目，现在发展如火如荼，如何利…

相比Hadoop,如何看待Spark技术?

Hadoop包括Yarn和HDFS以及MapReduce，说Spark代替Hadoop应该说是代替MpReduce。之前看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅大数据集，也没有稳定性。但是最近的风评已经变化&…

Hadoop的8088页面失效问题

[sizemedium] 前两天重启了测试的hadoop集群，今天访问集群的8088任务监控页面，发现不能用了，总是报500错误，空指针异常，但是以前却是好好的 [/size]2016-03-31 10:59:55,418 ERROR org.mortbay.log: /clusterjava.lang…

Hadoop2.2异常No FileSystem for scheme: hdfs

[colorgreen][sizelarge]把eclipse中的hadoop项目，换了一个工作空间，再次启动任务时，发现报如下异常：[/size][/color]java.io.IOException: No FileSystem for scheme: hdfs at org.apache.hadoop.fs.FileSystem.getFileSy…

hive实战使用文档（一）之hive on hbase知多少

hive对库表的常用命令查看数据库 ： show database;切换数据库: use database_name;查看所有的表： show tables;查询表结构: desc table_name;创建数据库: create database database_name;删除数据库 drop database if exists database_name; dro…

如何在Centos6.5下部署hadoop2.2单机伪分布式

[colorgreen][sizelarge]hadoop2.x的稳定版本，已经发布多时了，散仙一直都用的hadoop1.x的版本，最近有项目用到hadoop2.x，所以就开始折腾hadoop2.x了，在hadoop2.x的版本里，目前最新版本已经到hadoop2.4了&am…

Hadoop的SemiJoin

[b][colorgreen][sizelarge]散仙，在前两篇博客里，写了关于Hadoop的Map侧join 和Reduce的join，今天我们就来在看另外一种比较中立的Join。SemiJoin，一般称为半链接，其原理是在Map侧过滤掉了一些不需要join的数据&#x…

如何使用Hadoop的DistributedCache

[b][colorgreen][sizelarge]DistributedCache是Hadoop的一个分布式文件缓存类，使用它有时候能完成一些比较方便的事，DistributedCache第一个比较方便的作用就是来完成分布式文件共享这件事，第二个比较有用的场景，就是在执行一些jo…

Hadoop：单节点集群设置

单节点集群（local/standalone mode），即安装在单节点(一台主机)的本地模式，也叫独立模式。所有程序都在单个JVM上执行。使用本地文件系统，而不是分布式文件系统。无需运行任何守护进程，hadoop不会启动NameNo…

如何使用Spark大规模并行构建索引

使用Spark构建索引非常简单，因为spark提供了更高级的抽象rdd分布式弹性数据集，相比以前的使用Hadoop的MapReduce来构建大规模索引，Spark具有更灵活的api操作，性能更高，语法更简洁等一系列优点。先看下，整…

Bug死磕之hue集成的oozie+pig出现资源任务死锁问题

[sizemedium] 这两天，打算给现有的Apache Hadoop2.7.1的集群装个hue，方便业务人员使用hue的可视化界面，来做一些数据分析任务，这过程遇到不少问题，不过大部分最终都一一击破，收获经验若干，折腾的…

尚硅谷大数据hadoop教程_yarn

p125 课程介绍 p126 yarn基础架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。 p127 工作机制 （1）MR程序提交到客户端所在的节点。 （2）YarnRunner向ResourceManager申请一个Applicatio…

快手 Flink 的稳定性和功能性扩展

摘要：本文整理自快手技术专家刘建刚，在 Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为四个部分： 1. 快手 Flink 平台 2. 稳定性保障和智能运维 3. 复杂场景下的功能扩展 4. 批处理的定制优化 Tips：点击「阅读原文…

大数据存储与处理技术探索：Hadoop HDFS与Amazon S3的无尽可能性【上进小菜猪大数据】

上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。大数据时代带来了数据规模的爆炸性增长，对于高效存储和处理海量数据的需求也日益迫切。本文将探索两种重要的大数据存储与处理技术：Hadoop HDFS和Amazon S3…

Hadoop 怎么委任和解除节点？

前言本文隶属于专栏《大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！ 本专栏目录结构和参考文献请见大数据技术体系正文 Hadoop 集群的管理员经常需要向集群中添加节点…

快速开机启动haoop

启动hadoop start-dfs.sh start-yarn.sh mr-jobhistory-daemon.sh start historyserver mr-jobhistory-daemon.sh stop historyserver start-all.sh stop-all.sh kill -9 15246 杀死RunJar 启动spark /bigdata/server/spark/sbin/start-all.sh /bigdata/server/spark/sbin/s…

电影票房之数据分析(Hive)--第5关

电影票房之数据分析（Hive） 第5关：统计2020年元旦节与国庆节放假后7天的观影人数本关任务基于EduCoder平台提供的初始数据集，统计 2020 年元旦节与国庆节放假后 7 天的观影人数。编程要求本实验环境已开启Hadoop服务在 …

spark的使用

国内源下载 https://mirrors.cloud.tencent.com/apache/spark/ 环境配置(三台机器都要配置) 修改/etc/profile export JAVA_HOME/export/server/jdk export HADOOP_HOME/export/server/hadoopexport SPARK_HOME/export/server/spark export PYSPARK_PYTHON/pythonenv/pyspark…

【大数据之Hive】九、Hive之DDL（Data Definition Language）数据定义语言

1 数据库 [ ] 里的都是可选的操作。 1.1 创建数据库语法： create database [if not exists] database_name [comment database_comment(注释)] [location hdfs_path] [with dbproperties (property_name-propertyproperty_value,...)]; 如： creat…

DataX下载安装使用

文章目录 01.Clickhouse到HBase(Phoenix)数据导入 DataX介绍下载执行同步的组件配置数据同步查看官方读写配置样例创建Hbase和Phoenix表创建ClickHouse表写入ClickHouse测试数据编写ClickHouse2Hbase配置文件执行同步命令拓展ClickHouse同步到MySQL配置文件 01.Clickhouse到HB…

【大数据之Hive】十、Hive之DML（Data Manipulation Language）数据操作语言

1 Load 将文件导入Hive表中。语法： hive>load data [local] inpath filepath [overwrite] into table tablename [partition (partcol1val1, ...)];关键字说明： （1）local：表示从本地加载数据到Hive表&#xff1b…

[Hadoop安装配置 ]

目录前言: 执行步骤: 1 创建好目录文件,上传Hadoop版本压缩包,一般都是tar.gz 结尾包 1.1这里压缩包可以直接拖拽到指定虚拟机目录下, 例如xshell连接指定虚拟机, 然后可以拖拽,如果拖拽不了,那就需要设置一下配置, 或者使用 xftp工具连接xshell 然后上传文件 2 解压…

大数据开发之Hive案例篇12：HDFS rebalance 一例

文章目录一. 问题描述二. 解决方案2.1 增加节点2.2 rebalance2.3 rebalance引发的问题一. 问题描述公司的离线数仓是CDH集群，19个节点，HDFS存储空间大约400TB左右，使用量在200TB左右。由于历史遗留的问题，数据仓库需要重构&a…

Apache Pig中如何使用Replace函数

[sizemedium] 今天分享一个小案例，介绍下需求，判断某个网站的前缀，并给其打上特定的标签值：一个java代码例子如下： [/size]public String getTag(){ //url文本 String url"http://www.baidu.com.c…

Apache Pig的UDF返回值问题

[sizemedium] 今天写了关于Pig的EvalFunc UDF函数，结果一执行，发现返回值，总是bag类型，我就纳闷了，我明明指定了返回是String类型，怎么会变成Bag类型呢？经查找，发现拷贝的问题&#…

Hadoop集群操作

Hadoop集群操作一、启动集群 1.如果集群是第一次启动，需要在 hadoop102 节点格式化 NameNode 注意：格式化NameNode，会产生新的集群 id，导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。如果集群…

如何使用Hadoop读写数据库

[b][colorgreen][sizelarge]在我们的一些应用程序中，常常避免不了要与数据库进行交互，而在我们的hadoop中，有时候也需要和数据库进行交互，比如说，数据分析的结果存入数据库，或者是，读取数据库的…

Hive的入门安装

[b][colorgreen][sizelarge]hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现…

Hadoop2.6.0-cdh5.4.1源码编译安装

[b][colorgreen][sizelarge]版本使用范围，大致与Apache Hadoop编译步骤一致大同小异，因为CDH的Hadoop的本来就是从社区版迁过来的，所以，这篇文章同样适合所有的以Apache Hadoop为原型的其他商业版本的hadoop编译，例如…

基于MapReduce的WordCount

MapReduce是一种编程模型，将任务分为两个阶段：Map和Reduce，用户只需编写map()和reduce()两个函数就可以完成简单的分布式程序的设计。 MapReduce能够解决的问题有一个共同特点：任务可以被分解成多个子问题，且这些子问题…

Hive面试题系列第六题-互为好友问题

视频讲解地址： https://www.bilibili.com/video/BV1at4y1J7Bq/?spm_id_from333.788&vd_sourceaa4fb0436f6d978af872cafb81a01178 Hive面试题系列第六题-互为好友问题题目：根据用户好友列表user_table,求互为共同好友的人有多少对。表结构: cre…

Hive面试题系列第四题-Pv累加趋势图问题

视频讲解地址：https://www.bilibili.com/video/BV1L14y1b7Ur/?spm_id_from333.788&vd_sourceaa4fb0436f6d978af872cafb81a01178 Hive面试题系列第四题-pv累加趋势图问题题目：求每个用户截止到每月月底（累计到该月）的总访问…

Apache Druid 0.13 升级至 0.18.1 过程分享，最新版本升级实战

简述 0.18.1 作为一次重大升级，包含了sql 的join查询，解决了很多问题。本周一不小心就把apahce druid 在 0.13 升级至 0.18.1 .升级过程中有些小陷阱做了一个chat 分享下升级过程。本 Chat 主要是 0.13 升级至 0.18.1 过程分享。通过本 Chat 可以了…

比较Hive，Spark，Impala和Presto (转载)简单了解它们都是干什么的而已（转载）

原文地址：如何比较Hive，Spark，Impala和Presto？ - 知乎原文的翻译多少有点瑕疵 Spark，Hive，Impala和Presto是基于SQL的引擎，Impala由Cloudera开发和交付。在选择这些数据库来管理数据库时&…

Hive内部表和外部表（一）

文章目录Hive内部表和外部表1. 内部表加载数据删除表测试web界面查看，源数据已经被删除2. 外部表加载数据删除表测试web查看，源数据仍然存在Hive内部表和外部表删除内部表的时候，表中的数据（HDFS上的文件）会被同表的…

搭建单机kylin

需要准备的软件序号软件名称版本号如何搭建1hadoophadoop-3.2.1见下文2hbasebase-2.2.5 3hiveapache-hive-3.1.2-bin链接4sparkspark-3.0.0-preview2-bin-hadoop3.2 5kylinapache-kylin-2.6.6-bin-hadoop3 上面的组合我部署成功了。单机安装hadoop 假设安装目录为&#xff1a…

spark中遇到的问题_ScienceCluster遇到Spark

spark中遇到的问题入门 (Getting Started) When did all the ‘big data’ hoopla start? By the very first definition, in a 1997 paper by scientists at NASA, a data set that is too big to fit on a local disk has officially graduated to big-data-dom. 所有的“大…

Apache Hive2.1.1安装部署

转载请注明出处：http://blog.csdn.net/u012842205/article/details/71713842 一、Apache Hive简介 Apache Hive是基于Hadoop的一个数据仓库工具，用于使用SQL语法查询、读取、写入和管理大数据量的分布式数据结构。可以将结构化的数据文件映射为一张数据…

简单Spark作业编写与提交执行

转载请注明出处： http://blog.csdn.net/u012842205/article/details/53160171 声明： 关于以上环境的搭建，配置，本文不作叙述。直接进入正题。本文实例是编写一个简单的spark作业，用于统计输入文件的长度总和。并使用…

Hadoop 2.7分布式部署

转载请注明出处： http://blog.csdn.net/u012842205/article/details/52503514 Hadoop是一个开源的计算框架，致力于在廉价计算机集群上大规模数据集的分布式存储和计算。简介可通过此文章了解：Hadoop概述当然，最好的学习方式&am…

Sqoop1.99.7安装、配置和使用（一）

转载请注明出处：http://blog.csdn.net/u012842205/article/details/52344196 最近被Sqoop2彻底搞蒙了，各种各样的奇怪问题，层出不穷，而且网上资料都没有针对这些问题的，官方文档也有各种各样的不完整描述。一些注意事项…

HBase使用总结

HBase需要$JAVA_HOME配置，若在0.98.5以前，这个配置必须写在hbase-env.sh中，之后的版本会自动识别系统配置的环境变量。开启：bin/start-hbase.sh客户端连接：bin/hbase shell创建表：create table_name, Colu…

零代码搭建工业互联网平台，凭什么还能比传统方案快10倍？｜ InfoQ公开课

目前的 Hadoop 方案，是一些大型的互联网企业最先使用的。在处理大数据时，将多个开源软件，如现在比较流行的 Kafka，然后把实时数据引入到 Redis，把历史数据存到 Hadoop，中间可能结合 Spark 和 Flink 的计算&…

centos7 | tar解压的时候出现错误 gzip: stdin: not in gzip format

Linux中解压hadoop的压缩包报错： gzip: stdin: not in gzip formattar: Child returned status 1tar: Error is not recoverable: exiting now 原因是这个文件不是gzip格式所以解压命令，不用加z。（不是所有的解压包都得用 -zxvf&#xff09…

HadoopRPC调用案例

目录 1.需求： 2.基本思路 2.1 首先需用定义一个协议，它描述了服务对外提供了哪些接口或者功能--MyProtocol.java 2.2 Server端需要实现协议接口，并返回版本号，实现返回学院名称的函数--MyImp.java 2.3 构建Server，…

CDH 之 Hive 中文乱码平定通用法则

一、乱象 1.1 中文注释乱码 hive> DESCRIBE test; OK # col_name data_type comment id string ??ID ?? pcs string ????? …

基于Hadoop的网上购物行为分析设计与实现

有需要本项目的可以私信博主，提供部署和讲解服务！！！！！ 本研究基于淘宝用户行为的开源数据展开大数据分析研究，通过Hadoop大数据分析平台对阿里天池公开的开源数据集进行多维度的用户行为分析&a…

7.Hive性能优化及Hive3新特性

1.Hive表设计优化分区表优化查询速度分桶表优化join速度索引优化（在Hive3后移除，了解即可） 2.Hive表数据优化 2.1 文件格式概述 Hive数据存储的本质市HDFS，所有数据读写都基于HDFS的文件来实现为了提高对HDFS文件读写的性能…

vmware虚拟机转hyper虚拟机

主要是转硬盘格式,使用StarWind V2V Image Converter，选择vmware中的硬盘，转为hyper格式。因为原有虚拟机中存在hadoop,spark,hive,mysql,tomcat,hbase,docker,所以改动各种配置： 1.修改硬盘中ip, /etc/network/interfaces中的ip等信息。s…

hive-视图与物化视图

一、视图 1、一句话解释一张虚表，不存数据，对外暴露真实表的一部分数据，增强数据保密性，查询的时候，底层会转换成对真实表的查询，走MapReduce。 2、参考资料 hive的视图_hive 视图_kcy000的博客-CSDN博…

hive中的datagrip和beeline客户端的权限问题

hive中的datagrip和beeline客户端的权限问题使用ranger和kerberos配置了hadoop和hive，今天想用来测试其权限测试xwq用户： 1.首先添加xwq用户权限，命令如下： useradd xwq -G hadoop echo xwq | passwd --stdin xwq echo xwq …

VMware15安装虚拟机centos7

一.创建一个新的虚拟机 1.点击创建虚拟机 2.点击自定义（高级） 3.查看硬件兼容性和图上是否一致，就选择这个 4.点击安装程序光盘映像文件，点击浏览找到自己存放镜像文件的位置选上。也可以选择下面的稍后安装。 5.给你的虚拟机…

MapReduce：Mapper阶段的输出之MapOutputBuffer、环形缓冲区工作原理

MapOutputBuffer 在上一篇博客中说过，Mapper的输出中有两个重要部分：一是collector，负责收集Mapper输出并将其交付给Reducer；二是partitioner，决定了应该将具体的输出交付给哪一个Reducer。 Mapper的输出是通过其Rec…

Hadoop：集群启动守护线程流程有关指令、脚本分析

目录 sbin/start-all.sh libexec/hadoop-config.sh sbin/start-dfs.sh sbin/hadoop-daemons.sh sbin/slaves.sh sbin/hadoop-daemon.sh bin/hdfs 启动脚本的执行流程图总结 sbin/start-all.sh #这个脚本已经被弃用，请使用start-dfs.sh和start-yarn.sh替代…

java 栈的使用

Stack的基本使用初始化 Stack stacknew Stack 判断是否为空 stack.empty() 取栈顶值（不出栈） stack.peek() 进栈 stack.push(Object); 出栈 stack.pop();实例： public class Test01 {public static void main(String[] args) {Stack stackne…

idea中maven的使用问题(配置,命令,idea中重新下载包)

idea中自带的maven的路径：D:Program FilesJetBrainsIntelliJ IDEA 2019.2.2pluginsmavenlibmaven3 1.配置环境变量变量名：MAVEN_HOME 变量值：D:Program FilesJetBrainsIntelliJ IDEA 2019.2.2pluginsmavenlibmaven3 变量名：Pat…

万字长文解读最新最全的大数据技术体系图谱！

正文开始大数据技术发展20年，已经形成覆盖面非常庞大的技术体系，最近信通院发布了《大数据白皮书2020》（关注本公众号后，后台回复“big2020”获得PDF），提供了一张非常全面的大数据技术体系图谱，…

十分钟带你走进Hive世界(每走一步都是为了离你更近些)

该文章已更新到语雀中，后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料该文基于Hive专题-从SQL聊Hive底层执行原理进一步的深入学习Hive,相信大多数童鞋对于Hive底层的执行流程只是局限于理论层面。那么本篇将带大家花半个小时左右的时间在自己…

3.4 精彩亮点抢先看！

今天（12月18日）下午，在明媚的冬日暖阳中，本年度最后一场「Cocos 开发者沙龙」终于来到了引擎研发大本营——厦门，C 姐也被现场小伙伴的热情温暖到了，此次沙龙吸引超过了250人到场，可谓座无虚席。…

hadoop单机版配置

一、hadoop启动模式： Hadoop集群有三种启动模式： 单机模式：默认情况下运行为一个单独机器上的独立Java进程，主要用于调试环境伪分布模式：在单个机器上模拟成分布式多节点环境，每一个Hadoop守护进程都作为…

大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

个人观点：大数据我们都知道hadoop，但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理，hadoop还是比较适合的，但是对于实时性比较强的，数据量比较大的，我们可以采用Storm，那么Storm和什…

Hive的几个重要表

1.metastore数据库的DBS表包含各表存储信息等 2.metastore数据库的TBLS表包含各表是否是外部表等 3.metastore数据库的TABLE_PARAMS表查看numFiles、numRows （1）如果是刚建表，numFiles、numRows都为0； （2&…

Hive 安装部署MySQL 安装Hive 元数据配置到 MySQL

目录 1.安装 Hive 2.启动并使用 Hive 3.MySQL 安装 4.Hive 元数据配置到 MySQL 1.安装 Hive 1）把 apache-hive-3.1.2-bin.tar.gz 上传到 linux 的/opt/software 目录下2）解压 apache-hive-3.1.2-bin.tar.gz 到/opt/module/目录下面[atguiguhadoop102…

Hadoop数据压缩

目录 1.压缩的好处和坏处及原则 2.MR支持的压缩编码 3.压缩位置选择 4.压缩参数配置 5.压缩实操案例 （1）Map输出端采用压缩 （2）Reduce输出端采用压缩 1.压缩的好处和坏处及原则压缩的优点：以减少磁盘IO、减少…

Hadoop_MapReduce_Combiner合并

目录 1.自定义Combiner实现步骤 2.Combiner合并案例实操 1）需求 2）需求分析 3）案例实操-方案一 4）案例实操-方案二 1.自定义Combiner实现步骤 （a）自定义一个Combiner继承Reducer，重写Re…

Ubuntu安装Hadoop过程

安装Ubuntu 正常安装，网络采用net链接方式修改计算机名称为master sudo vim /etc/hostname ##改成maser reboot##重启 hostname##重新查看计算机名发现修改成功然后ping命令看看是否能上网然后执行ifconfig查看当前的虚拟机IP并修改 sudo vim /etc/hosts ##添加…

Flink的安装和部署--伪分布模式

Flink的安装和部署主要分为伪分布模式和集群模式：伪分布:如果Flink对应的Java进程都运行在一个物理机器上,称为伪分布模式，如果Flink对应的 Java进程运行在多台物理机器上,称为集群模式. 伪分布模式就是在一台服务器上面模拟集群环境，但仅仅是机器数量少,其通信机制与运行…

MapReduce之WordCount、FlowCount代码汇总

运行环境：Hadoop1.1.2 WordCount代码： 运行结果： 运行环境：Hadoop1.1.2 FlowCount代码汇总运行结果： 运行环境：Hadoop1.1.2 FlowCount2代码汇总运行结果： 运行环境：Hadoop1…

ZooKeeper实现hadoop集群高可用

目录1. zookeeper搭建：2. 集群搭建2.1. 集群规划如下：2.2. node1免密配置2.3. 更新修改hadoop，yarn 配置文件2.4. scp 复制到其他节点2.5. 删除之前集群的tmp文件2.6. 启动zookeeper2.7. 启动 journalnode2.8. 格式化集群2.9. 同步第二个name…

大数据处理之道（MATLAB 篇）

一：起因（1）最近一直在处理大数据，从MB ----> GB的变化，是一次质的飞跃，相应的工具也在变从widows到linux，从单机单核到 hadoop多节点的计算（2）问题来了，面对海量的数据，如何从中挖掘实用的信息或者发现潜在的现象，可视化工具可能是必不可少的；（3）可…

hadoop分布式缓存的使用

介绍 DistributedCache是hadoop框架提供的一种机制,可以将job指定的文件,在job执行前,先行分发到task执行的机器上,并有相关机制对cache文件进行管理。缓存内容是在文件中的，各个节点可以根据hdfs中访问路径来读取缓存。使用步骤 1.添加分布式缓存的时候&#…

Hadoop（一）：初始Hadoop

Linux安装hadoop： 参考：【Linux】安装hadoop详细步骤_Code.Knight的博客-CSDN博客_linux安装hadoop 这里要注意的是，修改主机名要慎重，可以不修改。解决报错启动 hdfs 会报错：temporary failure in name resoluti…

Hadoop之Hive基本操作

Hadoop之Hive基本操作Hive数据库操作创建数据库查看数据库查看数据库详细信息切换数据库删除数据库修改数据库属性Hive数据类型基础数据类型复制数据类型Hive数据表操作数据库编码问题语法格式创建数据表查看数据表查询表类型查询表结构插入数据查询数据修改数据表删除数据表内…

Hadoop运行mapreduce卡住或者一直停在map 0% reduce 0%的解决方案

首先先要说明我的系统的一个配置主机名主机IPV4地址配置hadoop001192.168.120.100RecourceManager、NodeManager、DateNode、NameNodehadoop002192.168.120.101NodeManager、DateNode、SecondaryNameNodehadoop003192.168.120.102NodeManager、DateNode 在运行示例的时候&…

Linux下Hadoop环境配置及测试用例

配置Hadoop环境下载安装下载oracle jdk：jdk下载得到：jdk-14.0.2_linux-x64_bin.tar.gz 下载Hadoop：Hadoop下载得到：hadoop-3.3.0.tar.gz 将二者移动到/usr/local文件夹，分别解压： $ sudo tar xzf …

Hadoop2.8.5 分布式文件系统HDFS

Hadoop的两大系统之一“HDFS”。所谓分布,是说整个文件系统的内容并非集中存储在一台或几台“文件服务器上”,而是分散在集群的不同节点上。理想的情景是集群内的每一台机器都承担着一些内容的存储。HDFS 是 Hadoop 集群的文件系统,这是一种分布( distributed )、容错( faultto…

Hadoop2.8.5 MapReduce计算框架

Hadoop 中 YARN 子系统的使命是为用户提供大数据的计算框架。早期的Hadoop ,甚至早期的 YARN 都只提供一种计算框架,那就是 MapReduce。 Hadoop 后来有了一些新的发展,除 MapReduce 外又提供了称为 Chain 和 Stream 的计算框架,一来使用户不必非得用 Java 编程;二来更允许用户利…

Hadoop2.8.5 YARN状态机

YARN主节点RM受理用户提交的作业之后，创建AM并分配资源，然后密切注视着作业的进展。YARN的代码广泛使用着状态机（StateMachine），来调度处理走走停停粗粒度的作业流程。在此“有限状态机”模型中，一个宏观的…

Windows下配置Hadoop及Spark环境

前言教程所用各版本说明 Spark已经在22年6月更新到了Spark3.3，支持了JDK17，所以为了更好的体验将此文的部分版本进行了升级 https://spark.apache.org/releases/spark-release-3-3-0.html 一 JDK环境配置由于项目用的JDK17，所以单独给Ha…

为何曙光能走在大数据落地的最前沿？

“如果用过去传统的处理方式，很难去处理如今规模如此庞大和复杂的数据集，基于数据的业务创新也无从入手。”江苏省公路网管理与应急指挥中心工程师陈超如是说。陈超所言正在当前用户数字化转型中的一个缩影。在各行各业加速数字化转型的进程中&#xf…

HiveSQL常用技巧

1. 去重技巧—用group by替换distinct 取出user_trade中的全部支付用户 ## 原有写法 SELECT distinct user_name FROM user_trade WHERE dt>0;## 优化写法 SELECT user_name FROM user_trade WHERE dt>0 GROUP BY user_name;在2019年购买又退款的用户 ## 原有写法 SEL…

HiveSQL基础之常用函数

1. 如何把时间戳转换成日期语法 from_unixtime(bigint unixtime, string format)format 1. yyyy-MM-dd hh:mm:ss2. yyyy-MM-dd hh3. yyyy-MM-dd hh:mm4. yyyyMMdd举例 SELECT from_unixtime(paytime,yyyy-MM-dd hh:mm:ss) FROM user_trade WHERE dt2019-04-09;拓展&#…

基于hadoop的社交网络的分析

昨天终于hadoop的项目验收完成了，终于可以松一口气了，总体还是比较满意的。首先说一下项目流程，用mapreduce对数据进行预处理，然后用mahout中的聚类算法（kmeans）对数据进行处理，最后用peopler…

Hive 3.1.2安装教程（亲测有效）

Hive 3.1.2安装教程安装所需的环境 1.ubuntu 18.04 2.hadoop 3.2.1 3.jdk 1.8 4.mysql 5.7 一、Hive的安装 1.hive下载地址：传送门 2.解压 cd ~/下载 sudo tar -zxvf ./apache-hive-1.2.1-bin.tar.gz -C /usr/local cd /usr/local/ sudo mv ./apache-hive-1.2.1-…

那些年，启动hive踩过的坑

相信你打开这篇博客的时候，你应该也是遇到了启动hive失败的坑。在安装hive的时候，我们可能遇到了不少的坑，特别是在安装完成，启动hive的时候，他就是启动不成功，报错。经过几天的实战总结了一些经验。问…

在ubuntu18.04上安装MongoDB 4.2

1.首先打开终端，导入公共key到包管理器。 wget -qO - https://www.mongodb.org/static/pgp/server-4.2.asc |sudo apt-key add -2.创建MongoDB的文件列表。 echo "deb [ archamd64 ] https://repo.mongodb.org/apt/ubuntu bionic/mongodb-org/4.2 multiverse…

Ubuntu 14.04下NFS安装配置

1、安装nfs-server # apt-get install nfs-kernel-server2、建立nfs专用文件夹 # mkdir /data/disk13、配置nfs # vi /etc/exports /data/disk1/ *(async,insecure,no_root_squash,no_subtree_check,rw)/data/disk1：与nfs服务客户端共享的目录，这个路径必…

Buildout食谱提示：hexagonit.recipe.download

How to handle difficult old-style add-ons. 如何处理困难的旧式附件。 Sometimes an “old-style” add-on is distributed as foo.tar.gz and extracts to foo/, but the package is called bar. This can be a problem when using the plone.recipe.productdistros recipe…

hive调优最全总结

目录第八章数据调优及其原理11/15 8.1 小问题问题 8.1.1 小文件的危害 8.1.2 小文件的产生原理 8.1.3 小文件的治理方案 8.2 数据倾斜问题 8.3 减少数据量 8.4 参数优化 8.5 企业级调优第八章数据调优及其原理11/15 8.1 小问题问题小文件过多会占用大量内存&…

Hive底层原理

目录第六章HIve SQL底层执行原理和源代码解析 6.1 HIve底层执行架构 6.2 HIve底层执行原理 6.3 HIve编译成MapReduce过程 6.4 HIve编译成MapReduce原理 6.4.1 Join的实现原理 6.4.2 Group by的实现原理 6.4.3 distinct的实现原理第六章HIve SQL底层执行原理和源代码解…

大数据--hadoop生态--hdfs最全总结

目录第二章：HDFS 2.1 hdfs主要组件及其功能 2.1.1 Hdfs的组成 2.1.2 SecondaryNameNode 2.2 hdfs数据存储原理 2.2.1 冗余数据保存 2.2.2 数据存取策略 2.2.3 HDFS块的大小 2.2.4 数据错误与恢复 2.3 hdfs读写数据过程 2.3.1 读数据过程 2.3.2 写数据过…

Hadoop的安全问题

认证 kerberos：Kerberos 是一个网络身份验证协议，用户只需输入身份验证信息，验证通过获取票据即可访问多个接入 Kerberos 的服务，机器的单点登录也可以基于此协议完成。用户执行任务前，先通过KDC认证自己&#xff0…

NoClassDefFoundError - hadoop/crypto/key/KeyProviderTokenIssuer hadoop/fs/BatchListingOperations

一.引言使用 spark.hadoopFile 读取 RCFile 时，报错 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/crypto/key/KeyProviderTokenIssuer 与 Exception in thread "main" java.lang.NoClassDefFoundError: o…

Hadoop hdfs随机获取文件内容

引言: 需要从 HDFS 随机获取一个目录下的内容：目录下共3000个part，随机挑选文件 part 并从每个 part 中随机获取一些数据作为原始数据。 path 为文件夹地址， total 为随机获取的数据量实现1(简单粗暴): hadoop fs -text $path/* | shuf -…

JVM基础 -＞什么是STW？

什么是STW？ STW: Stop-The-World: 是在垃圾回收算法执过程当中，将JVM内存冻结丶应用程序停顿的?种状态。在STW 状态下，JAVA的所有线程都是停?执?的 -> GC线程除外一旦Stop-the-world发生，除了GC所需的线程外，其…

Hadoop教程_Hive环境搭建(伪分布式/MySQL/Ubuntu)

1.安装MySQL 在Ubuntu下安装MySQL十分简单，只需要运行几行命令即可。 sudo apt-get install mysql-server #需要输入root用户的密码 sudo apt-get isntall mysql-client sudo apt-get install libmysqlclient-dev sudo netstat -tap | grep mysql #查看MySQL进程是…

hadoop_day02

hadoop介绍 1.hadoop的概念:hadoop是apache下的一个开源软件框架,hadoop允许使用简单的编程模型来完成大量计算机集群下的大量数据的分布式处理狭义上:hadoop单指apache下的产品 * HDFS(hadoop分布式文件系统): 解决海量数据存储问题 * YARN(任务调度和资源管理框架): 解决海…

Haddop+spark大数据分析（二）之Hadoop 集群的搭建

文章目录前言一、集群环境的下载及其配置 1.下载hadoop 2.配置 hadoop 环境变量配置hadoop 核心环境配置 core-site.xml 配置 hdfs-site.xml 配置 mapred-site.xml 配置 yarn-site.xml 配置 workers 禁用防火墙二、克隆虚拟机及其相应设置 1. 克隆虚拟机 2.…

(全网首篇)数仓专题-及时性保障方案

在数仓的建设之路中，其中必不可少的一个依赖组件就是调度系统。目前市面上也有很多优秀产品，如以DAG为核心的工作流系统：Azkaban、Oozie、Airflow、DolphinScheduler；以Quartz为代表的定时系统包括Elastic-Job、Xxl-Job、Saturn、…

面试官问：UDF是在Map端执行还是Reduce端执行?

感谢兄弟们的关注与支持，如果觉得有帮助的话，还请来个点赞、收藏、转发三操作该文章已更新到语雀中，后台回复“语雀”可获取进击吧大数据整个职业生涯持续更新的所有资料感谢首先感谢linxiang同学提供的文章素材，linxiang在…

[转]Apache Mahout 0.1 发布：机器学习算法

转自：http://www.phpdiy.com/index.php/viewnews-34990 Apache Lucene 开发团队很高兴的宣布Apache Mahout 0.1 发布。Apache Mahout是Apache Lucene一个子项目，目标是提供可扩展的机器学习算法实现，也采用 Apache license许可。第一个公开发…

sqoop实践

1.sqoop简介 Sqoop 是一款开源的工具，主要用于在 Hadoop(Hive)与传统的数据库(mysql、 postgresql…)间进行数据的传递，可以将一个关系型数据库（例如 ： MySQL ,Oracle ,Postgres 等）中的数据导进到 Hadoop 的 HDFS 中…

集群搭建--搭建hadoop2.7.7集群(三台)

集群规划下载相应资源包下载hadoop的路径 https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz 下载zookeeper的路径 https://www.apache.org/dist/zookeeper/zookeeper-3.4.14/ 下载jdk8的路径 https://www.oracle.com/technetwor…

在hadoop上搭建hive环境

目录一、下载安装包并解压二、配置环境变量三、安装Mysql四、配置hive-site.xml五、配置hive-env.sh六、初始化数据库并启动hive七、启动和停止脚本七、问题记录一、下载安装包并解压在官网下载最新版的hive包，apache-hive-3.1.3-bin.tar.gz,并进行解压 tar -zvx…

Hive动态分区

作为partition字段的参数是select最后一个字段 hive (default)> insert into table dept_partition_dy partition(loc) > select deptno, dname, loc from dept; 在hive3里也可以省略partition字段，严格模式下省略partition字段可以直接使用 hive (default…

让分区表和数据产生关联的三种方式

如果是自己创建目录，不以正常方式加载数据，则分区表和数据不关联 [atguiguHadoop102 data]$ hadoop fs -mkdir /user/hive/warehouse/dept_par/day2020-10-29 让分区表和数据产生关联的三种方式 ： （1）方式一&#x…

Hadoop_MapReduce_Partition分区案例实操

目录 1.需求 2.需求分析 3.代码 （1）在之前的序列化案例实操的基础上，增加一个分区类 （2） 在driver类中增加自定义数据分区设置和ReduceTask设置 1.需求将统计结果按照手机归属地不同省份输出到不同文件中&#x…

Hadoop_MapReduce_Partition分区

shuffle是通过分区partitioner 分配给Reduce，一个partition对应一个Reduce，Partitioner是shuffle的一部分。 1.默认Partition分区默认分区是根据key的hashCode对ReduceTasks个数取模得到的，用户没法控制哪个key存储到哪个分区。 2.自定义Pa…

Hadoop序列化案例实操

目录 1.需求 2.需求分析 3.自定义对象和三个类的程序 （1）编写流量统计的Bean对象 （2）编写Mapper类 （3）编写Reducer类 （4）编写Driver驱动类 3.结果 1.需求统计每一个手机号耗…

Hadoop_MapReduce_WordCount案例

目录 1、需求 （1）输入数据 （2）期望输出数据 2、实现（本地测试） （1）环境准备 1）创建maven工程，MapReduceDemo（maven官网下载maven&#xff0c…

Hadoop_MapReduce_WordCount案例错误：Shuffle$ShuffleError: error in shuffle in localfetcher#1

参考map100% reduce0%&error in shuffle in localfetcher#1_闲人编程的博客-CSDN博客错误原因是电脑用户名有个空格，采用更改电脑用户名的方法有效解决 ，或者在代码里设置（没尝试）

Hadoop_API获取文件详细信息判断是文件还是文件夹

1.获取文件详细信息 /*** 获取文件详细信息*/Testpublic void fileDetail() throws IOException {//参数解读：参数1：路径；参数2：是否递归RemoteIterator<LocatedFileStatus> listFiles fs.listFiles(new Path("/"…

电商数仓简介

数仓是为决策用的，它的架构逻辑十分严密。数仓分区ods层dwd与dim层事务型事实表周期型事实表累计型快照事实表dws层dwt层ads层用户行为路径分析漏斗模型留存用户ods层数仓是分层的。 ods层是直接从hdfs拿数据，不做任何修改，只是添加了时间…

hdfs上传文件

hdfs写数据流程将文件添加到目录树将数据写入队列机架感知DN写数据、客户端收到应答将文件添加到目录树假设我们有一段创建文件并写入数据的代码： FileSystem fileSystem;Beforepublic void init() throws Exception{String user "ocean";Configuratio…

使用 AWS CLI 来快速使用Amazon 提供的 S3、EMR、ES 等服务

安装 AWS CLI 工具安装条件：Python 2 version 2.7 or Python 3 version 3.4 安装 AWS CLI 工具的命令 pip3 install -U --user awscli aws_role_credentials oktaauth # -U （update）表示更新所有的包到最新 # --user 表示安装到用户目录下…

MapReduce之Map阶段

MapReduce阶段分为map，shuffle，reduce。 map进行数据的映射，就是数据结构的转换，shuffle是一种内存缓冲，同时对map后的数据分区、排序。reduce则是最后的聚合。此文探讨map阶段的主要工作。 map的工作代码介绍split…

Hadoop ubuntu16.04LTS伪分布式环境搭建流程

Hadoop ubuntu16.04LTS伪分布式环境搭建流程 1 三台服务器配置说明在阿里云平台购买三台服务器，本部分只使用其中的node001作为伪分布式环境搭建案例。配置信息：ubuntu16.04LTS 4core 8mem 节点名称公网IP私网IP节点1node00147.93.223.3172.18.62.211节…

namenode的fsimage与edits文件

namenode的fsimage与edits文件引入合并查看引入 hadoop集群中，namenode管理了元数据。那么，元数据存储在哪里呢？ 如果是磁盘中，必然效率过低，如果是内存中，又会不安全。所以元数据存储在内存中&#xf…

Hadoop架构再探讨——MapReduce的设计改进（新一代资源管理调度框架YARN）

文章目录MapReduce 1.0的缺陷YARN设计思路YARN体系结构YARN部署YARN工作流程YARN与MapReduce1.0框架的对比YARN发展目标MapReduce 1.0的缺陷 ▍MapReduce 1.0体系结构（复习） JobTracker —— 监控TaskTracker的健康情况跟踪任务的执行进度、资源使用等…

[Hive基本概念之--hive分区]

目录前言: 添加MyBatis和Hive依赖配置MyBatis和Hive连接信息在Spring Boot应用中定义MyBatis Mapper，例如： 定义实体类 MyBatis Mapper接口 Batis Mapper接口，insert方法对应Mapper中的insert方法，selectByPartition方法对…

hadoop基础

FileSystem使用核心类 org.apache.hadoop.fs.FileSystem 文件系统类抽象类 //静态方法创建对象 public static FileSystem newInstance(URI uri,Configuration conf,String user) /*参数一 URI 分布式文件系统 HDFS的资源地址 NN地址 hdfs://linux01:8020参数二 Configu…

矿井水除氟——高矿化度矿井水氟化物深度降解的技术方案

高矿化度矿井水是指含有高浓度溶解性矿物质的废水，通常指的是含有高浓度钠、钙、镁、铁、铝、钾等离子的废水。这些离子通常来自于废水所处的环境、工业或生产过程中使用的原材料和化学品。高矿化度的废水通常具有高盐度、高电导率、高硬度等特征，对环境…

Zookeeper快速入门（Zookeeper概述、安装、集群安装、选举机制、命令行操作、节点类型、监听器原理）

1、Zookeeper入门 1.1 概述 Zookeeper是一个开源的分布式的，为分布式框架提供协调服务的Apache项目。 1、Zookeeper工作机制 Zookeeper从设置模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责储存和管理大家都关心的数…

Hadoop --- HDFS介绍

HDFS 全称是Hadoop Distributed File System hadoop分布式（cluser）文件存储系统。适合一次写入，多次读出的场景。 HDFS不需要单独安装，安装Hadoop的时候带了HDFS系统。 Hadoop安装可以参考： 有基础的，已…

一个例子带你了解MapReduce

写在前面：博主是一只经过实战开发历练后投身培训事业的“小山猪”，昵称取自动画片《狮子王》中的“彭彭”，总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域，如今终有小成…

一起艳学大数据Hadoop（二）——eclipse配置hadoop

前言：为什么好久没写博客呢？就是弄hadoop弄到心碎。因此大概每周发布一篇大数据博客。上周我试了Eclipse4.5.1配置hadoop1.2.1失败，配置hadoop2.5.1失败，windows7安装hadoop2.6.0失败。种种原因，心累，但不放…

大数据框架Hadoop生态系统各组件与Yarn的兼容性如何？

作为Hadoop 2.0中出现的资源管理系统，Yarn总体上仍然是master/slave结构，在整个资源管理框架中，resourcemanager为master，nodemanager是slave。作为Hadoop生态系统的一部分，Yarn要想获得市场认可，必须学会与…

【Flume】高级组件之Sink Processors及项目实践（Sink负载均衡和故障转移）

文章目录 1. 组件简介2. 项目实践2.1 负载均衡2.1.1 需求2.1.2 配置2.1.3 运行 2.2 故障转移2.2.1 需求2.2.2 配置2.2.3 运行 1. 组件简介 Sink Processors类型包括这三种：Default Sink Processor、Load balancing Sink Processor和Failover Sink Processor。 Defa…

顶尖工程师处理大数据所需的技能

数据分析师的工作包括收集、清理、可视化信息块，并将原始数据转换或建模为营销人员、开发人员、会计师使用。数据分析师的工作流程是由组织的需求定义的，但最终的可交付成果总是相同的：结构良好且易于检索的数据。作为一名数据分析师&#x…

hadoop报错：HADOOP_HOME and hadoop.home.dir are unset. 解决方法

目录报错信息解决方法1.下载apache-hadoop-3.1.0-winutils-master2.解压到宿主机3.添加环境变量4.重启IDEA或eclipse报错信息 java.lang.RuntimeException: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. java…

大数据开发|Hadoop分布式集群环境构建

一直想编写一系列有关大数据开发、数据挖掘、云计算等相关课程的学习资料，为零基础又想从事大数据行业的小伙伴提供一些参考。今天第一篇《Hadoop分布式集群环境构建（1）》终于和大家见面了。一集群主机规划二软件安装包准备会将软件…

本科生自学Java大数据成功入职外企：大数据值得转吗？门槛高吗？

我今年大四，大二的时候先后在厦门的两家小公司实习 Java，大三的时候在 Apche Kylin 的贡献团队 Kyligence 实习，现在在一家西班牙集团就职大数据开发。由于一路都是自己摸爬滚打过来的，而我又是一个喜欢总结且善于总结&#xff…

Nutch相关框架安装使用最佳指南

一、nutch1.2二、nutch1.5.1三、nutch2.0四、配置SSH五、安装Hadoop Cluster（伪分布式运行模式）并运行Nutch六、安装Hadoop Cluster（分布式运行模式）并运行Nutch七、配置Ganglia监控Hadoop集群和HBase集群八、Hadoop配置Snappy压缩…

Greenplum——新一代 PB 级分布式 HTAP 数据库（内含PPT、视频）

获得技术资料内容，请访问Greenplum中文社区网站 2019年Pivotal中国研发中心副总兼Greenplum中文社区发起人姚延栋受阿里云开发者社区邀请于钉钉进行技术直播演讲《基于PostgreSQL的PB级开源企业级分布式HTAP数据库》。本文由演讲内容整理而成。今天和大家分享的标题…

闲鱼异地多活架构设计与实现

背景首页和搜索一直以来都是闲鱼导购的主阵地，为了保证高可用业务上做了很多保护方案。但是随着原有地域的IDC日渐趋于饱和，一些更深层次的问题开始暴露出来：a）架构不具备扩展性。当服务量增大，单个IDC由于服务器部署、…

大数据开发初学者需要掌握的是什么？

想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高。。。。。。。如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么我就想问一下&a…

PHP与大数据开发实践

大数据是使用工具和技术处理大量和复杂数据集合的术语。能够处理大量数据的技术称为MapReduce。何时使用MapReduce MapReduce特别适合涉及大量数据的问题。它通过将工作分成更小的块，然后可以被多个系统处理。由于MapReduce将一个问题分片并行工作，与传…

初识Hadoop入门介绍

初识hadoop入门介绍 Hadoop一直是我想学习的技术，正巧最近项目组要做电子商城，我就开始研究Hadoop，虽然最后鉴定Hadoop不适用我们的项目，但是我会继续研究下去，技多不压身。《Hadoop基础教程》是我读的第一本Hadoop书…

Phoenix踩坑记录（包括phoenix连接HBase一直卡住）

1.第一个坑 Exception in thread “main” java.lang.NoSuchMethodError: com.ctc.wstx.stax.WstxInputFactory.createSR(Lcom/ctc/wstx/api/ReaderConfig;Lcom/ctc/wstx/io/SystemId;Lcom/ctc/wstx/io/InputBootstrapper;ZZ)Lorg/codehaus/stax2/XMLStreamReader2; 踩坑过程…

【Hadoop】 | 搭建HA之报错锦集

知识目录一、写在前面✨二、Hadoop的active结点无法主备切换🔥三、Hadoop Web端无法上传文件🍉四、hdfs创建文件夹报错🍭五、IDEA操作Hdfs无法初始化集群🔥六、Java无法连接Hdfs🍭七、找不到Hadoop家目录&#x1f525…

大数据未来有哪些趋势，人工智能，区块链？

柯斯塔指出，他认为大数据未来应用有七大趋势。第一个趋势是物联网，现今有84亿件物品互相连结，远大于全球人口数;不只是桌电、笔电或手机等3C产品相互链接，还有物流公司用智慧扫描仪做智慧物流，这是可以改变消费者与企…

大数据框架Flink， Spark， Hadoop， Samza ，Storm选择和对比

美国PC,Magazine总编辑柯斯塔今天表示，他认为大数据的发展趋势以数字汇流对未来最具冲击，结合物联网、区块链、人工智能、语音识别等技术，这些科技相辅相成。美国PC,Magazine总编辑柯斯塔今天表示，他认为大数据的发展趋势以数字汇…

搭建Hadoop大数据处理-环境

VMware的安装，装好一个虚拟机后利用复制虚拟机的方式创建后面几个虚拟机，省时省力，需要注意的是需要修改每个虚拟机的IP与主机名。所有虚拟机采用NAT模式上网，而且要保证与物理主机的IP互相能访问。需要注意的几个问题。nat如…

AR、VR、云计算、大数据、区块链、AI编程技术选择和区分

AR、VR、云计算、大数据、区块链、AI……开发者很容易会有新技术焦虑，不追怕失去提升收入的机会，追又怕投入了时间和精力没结果。我们就来和大家一起分享一下： 到底该怎样做，才能从容面对技术热点? 分享的内容，包括四…

[Hadoop] 期末答辩问题准备

0.相关概念 1.什么是NameNode？ NameNode是整个文件系统的管理节点，它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表。并接收用户的操作请求。 2.SecondaryNameNode的主要作用？ SecondaryNameN…

关于大数据方面的6个预测

1. 人工智能(AI)重新流行在上世纪60年代，Ray Solomonoff奠定了人工智能的数学理论基础，介绍了归纳推理和预测的通用贝叶斯方法。1980年，美国人工智能协会第一次全国会议(AAAI)于斯坦福举行，标志了理论在软件开发中的应用。AI现在…

Hive窗口函数详细介绍

文章目录 Hive窗口函数概述样本数据表结构表数据窗口函数窗口聚合函数count()SQL演示 sum()SQL演示 avg()SQL演示 min()SQL演示 max()SQL演示窗口分析函数first_value() 取开窗第一个值应用场景SQL演示 last_value()取开窗最后一个值应用场景SQL演示 lag(col, n, default_val…

大数据开发技术与实践期末复习（HITWH）

目录分布式文件处理系统HDFS 分布式文件系统 HDFS简介块（block） 主要组件的功能 **名称节点 FsImage文件名称节点的启动名称节点运行期间EditLog不断变大的问题 SecondaryNameNode的工作情况数据节点 HDFS体系结构 HDFS体系结构的局限…

解决spark程序 Permission denied: user=＜username＞, access=WRITE...等常见hive权限报错

Permission Denied Permission Denied: 这是最常见的错误消息之一，表示当前用户没有足够的权限执行写入操作。报错信息可能类似于： org.apache.hadoop.security.AccessControlException: Permission denied: user<username>, accessWRITE, inode&…

Spark Local环境搭建及测试

🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 篇一：Linux系统下配置java环境篇二：hadoop伪分布式搭建（超详细） 篇三：hadoop完全分布式集群搭建（超详细&#xf…

Hadoop --- HDFS配置与操作

hadoop的配置文件存放目录在 {HADOOP_HOME}/etc/hadoop 下， 与 hdfs相关的配置： core-site.xml、hdfs-site.xml core-site.xml： core-site 配置详解新增属性信息： fs.defaultFS fs.defaultFS表示指定集群的文件系统类型是分布…

Hadoop入门篇02---HDFS学习与简单使用

Hadoop入门篇02---HDFS学习与简单使用存储系统概念认识硬盘,RAID小结存储架构DAS，NAS，SAN对比文件系统大数据存储大数据存储面临的问题如何解决小结 HDFSHDFS的起源和发展HDFS的设计目标HDFS的应用场景HDFS的特性命令行实践常用命令 Java客户端API使…

Hadoop_Yarn实践 (三) =＞ (Yarn的基础架构、原理、容量/公平调度器、Tool接口、Yarn常用命令、核心参数)

目录 Hadoop_HDFS、Hadoop_MapReduce、Hadoop_Yarn 实践 (三)一、Hadoop_HDFS二、Hadoop_MapReduce三、Hadoop_Yarn1、Yarn资源调度1.1、基础架构1.2、Yarn的工作调度机制（Job提交过程）1.3、Yarn 调度器和调度算法1.3.1、先进先出调度器（FIFO…

大数据7大最奇特的应用

在客户体验与库存管理流程方面，大数据通常会发挥重要作用。近来，我盘点了7个最有趣、最独特的大数据应用，以及它们可能对我们的生活产生的影响。 1.大数据广告牌户外营销公司Route正使用大数据在广告牌、长椅以及公交车两侧的广告空间上设…

Hadoop HDFS的API操作

客户端环境准备 hadoop的 Windows依赖文件夹，拷贝hadoop-3.1.0到非中文路径（比如d:\）。配置HADOOP_HOME环境变量配置Path环境变量。不能放在包含有空格的目录下，cmd 输入hadoop显示此时不应有 \hadoop-3.0.0\bin\。我放在…

大数据常见面试题之hdfs

文章目录一hdfs.写数据流程二.hdfs读数据流程三.简单说说HDFS中NameNode,DataNode的作用？四.SecondaryNameNode的作用？或者是NameNode的启动过程？五.集群安全模式？什么情况下会进入到安全模式？安全模式的解决办法&…

【Spark SQL】1、初探大数据及Hadoop的学习

初探大数据 centos 6.4CDH5.7.0系列http://archive.cloudera.com/cdh5/cdh/5/ 生产或测试环境选择对应CDH版本时，一定要采用尾号一样的版本 OOPTB apache-maven-3.3.9-bin.tar.gzJdk-7u51-linux-x64.tar.gzZeppelin-0.7.1-bin.tgzHive-1.1.0-cdh5.7.0.tar.gzhado…

Hadoop上的python框架实现map-reduce

map-reduce框架里面由一个mapper和reducer组成以键值对的方式处理数据以对文本中的单词计数为例 mapper所做的事情就是简单的拆分每一行的单词，并且以单词 1 这样的格式输出到stdout 然后经过一个shuffle 和 sort，使mapper的输出根据键值排序&#xff…

Ubuntu配置Hadoop——（七）安装配置Spark

本系列最后一篇 spark是可以发布到hadoop上运行的数据分析工具。 spark是去官网上下载，地址：http://spark.apache.org/downloads.html 然后解压缩 $ tar -xvf spark-1.5.2-bin-hadoop2.4.tgz $ sudo mv spark-1.5.2-bin-hadoop2.4 /srv/spark-1.5.2 $ l…

基于Hadoop搭建HA集群网盘系统

Hadoop云盘项目总结 0. 项目介绍介绍视频： 基于Hadoop搭建HA高可用网盘系统视频地址： B站搭建过程： 我的搭建过程小组成员的搭建过程项目地址待完善后会发出来技术栈:HDFS、Sqoop、Flume、Ganglia、Azkaban、Zookeeper、Redis、Nginx、D…

parquet 文件结构

Apache Parquet是Apache Hadoop生态系统的一种免费的开源面向列的数据存储格式。它类似于Hadoop中可用的其他列存储文件格式，如RCFile格式和ORC格式。本文将简单介绍一下Parquet文件的结构。 Parquet文件格式包含两部分： data metadata 数据首先写入文…

离线计算与实时计算的比较、Presto与Kylin区别、实时需求种类

离线计算：就是在计算开始前已知所有输入数据，输入数据不会产生变化，一般计算量级较大，计算时间也较长。例如今天早上一点，把昨天累积的日志，计算出所需结果。最经典的就是 Hadoop 的 MapReduce 方式&#x…

普通实时计算与实时数仓比较

离线数仓中为什么要分层？ 普通实时计算与实时数仓比较普通的实时计算优先考虑时效性，所以从数据源采集经过实时计算直接得到结果。如此做时效性更好，但是弊端是由于计算过程中的中间结果没有沉淀下来，所以当面对大量实时需求…

大数据开发：关于Zookeeper的几个核心知识点

为什么会有ZooKeeper 我们知道要写一个分布式应用是非常困难的，主要原因就是局部故障。一个消息通过网络在两个节点之间传递时，网络如果发生故障，发送方并不知道接收方是否接收到了这个消息。有可能是收到消息以后发生了网络故障&#xff0…

实时数仓分层之DWM存在的意义

采集层，就是ODS（原始数据）层DWD层，离线数仓中在这一层当中分为了两块内容，一个是DWD，还有一个叫DIM，主要是针对于这个业务数据而言的，那如果说行为数据很简单，就都是DWD&…

Flink入门（四）——编程模型

flink是一款开源的大数据流式处理框架，他可以同时批处理和流处理，具有容错性、高吞吐、低延迟等优势，本文简述flink的编程模型。数据集类型： 无穷数据集：无穷的持续集成的数据集合有界数据集：有限不会改…

hadoop-3.2.2镜像下载链接

原码下载链接压缩包下载链接

程序员架构修炼：架构设计，高可用设计

高可用设计高可用性（High Availability）通常用来描述一个系统经过专门的设计，减少了停工时间，并保证了其服务的高度可用性，简而言之，就是不间断地对外提供服务。高可用性的度量与考核对高可用性度量的…

大数据时代个人学习篇

众志成城抗击疫情，不要出门，在家学习，共度难关。牛津大学职业研究分析报告可以看到，大数据智能时代首先取代的是比较有规则的职业，如重复性、机械性的会被淘汰，终身学习、人文沟通、信息化与数字化、智能…

学完大数据开发一般可以胜任哪些工作？

“ 这个时代是大数据时代，也是大数据人才稀缺的时代。由于中国人才缺口比较大，大数据也迅速成为行业和市场的热点，更多的企业无论是对人才的招聘还是在培训都成了刚需，这也促使大数据人才的薪资在同岗位中是最高的，掌…

Hadoop的详细配置（持续更新）v2.0

文章目录大数据（持续更新）v2.09. HDFS9.0我的理解9.1 HDFS架构1. NameNode概述2. DataNode概述3. Secondary NameNode概述9.2 配置HDFS1. 配置hadoop-env.sh2. 配置core-site.xml3. 配置hdfs-site.xml4. 完成配置，NameNode格式化5. 启动NameN…

【Flink实战系列】Could not initialize class org.apache.hadoop.security.UserGroupInformation

java.lang.NoClassDefFoundError: Could not initialize class 背景说明在 Flink 读取 hive 数据写到 kafka 的任务中，提交任务在客户端报错： java.lang.NoClassDefFoundError: Could not initialize class org.apache.hadoop.security.UserGroupInformationat org.apach…

Hadoop HDFS和KFS (CloudStore)的比较

HDFS和KFS 比较 By云深作者：Terry/Lanlan/Adam 2009年1月转载请注明出处 1、HDFS 和 KFS 简介两者都是GFS的开源实现，而HDFS 是Hadoop 的子项目，用Java实现，为Hadoop上层应用提供高吞吐量的可扩展的大文件存储服务。 Kosmo…

Spark案例练习-打包提交

关注公众号：分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码（不定期更新） 云盘目录说明： tools目录是安装包 res 目录是每一个课件对应的代码和资源等 doc 目录是一些第三方的文档工具承接上一篇文档《S…

HadoopV1 vs HadaoopV2 (Yarn) hadoop新旧框架对比

Hadoop 新 MapReduce 框架 Yarn 详解唐清原, 咨询顾问简介： 本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架（Yarn) 原理，优势，运作机制和配置方法等；着重介绍新的 yarn 框架相对于原框架的差异及改进&…

【Hadoop综合实践】手机卖场大数据综合项目分析

🚀 本文章实现了基于MapReduce的手机浏览日志分析 🚀 文章简介：主要包含了数据生成部分，数据处理部分，数据存储部分与数据可视化部分 🚀 【本文仅供参考】其中需求实现的方式有多种，提供的代码并…

Hadoop常用命令（持续更新）

FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。如果未加指定，就会使用配置中指定的默认scheme。 du 使用方法：hadoop fs -du URI 显示目录中所有文件的大小，或者当只指定一个文件时，显示此文件的大小。 …

本机无法访问虚拟机hdfs文件系统

解决 1.首先查看虚拟机hadoop是否已经启动服务 2.查看虚拟机防火墙是否开启 systemctl status iptables出现： Unit iptables.service could not be found.因为CentOS7没有iptables.service，安装一下即可： yum install iptables-service…

字节跳动10万节点HDFS集群多机房架构演进之路

背景现状HDFS 全称是 Hadoop Distributed File System，其本身是 Apache Hadoop 项目的一个模块，作为大数据存储的基石提供高吞吐的海量数据存储能力。自从 2006 年 4 月份发布以来，HDFS 目前依然有着非常广泛的应用，以字节跳动为例…

Apache Tez0.7编译笔记

[img]http://dl2.iteye.com/upload/attachment/0114/5711/86f2acad-6ad7-3822-b59f-8c24335265f7.png[/img] [sizemedium] 目前最新的Tez版本是0.8，但还不是稳定版，所以大家还是先下载0.7用吧下载地址： wget http://archive.apache.org/dist…

大数据高频面试题

Hadoop基础介绍下Hadoop Hadoop的特点说下Hadoop生态圈组件及其作用 Hadoop主要分哪几个部分?他们有什么作用? Hadoop 1.x，2x，3.x的区别 Hadoop集群工作时启动哪些进程?它们有什么作用? 在集群计算的时候，什么是集群的主要瓶颈 …

沙龙回顾｜ClickHouse 在实时场景的应用和优化

此次分享分为三部分内容，第一部分通过讲解推荐和广告业务的两个典型案例，穿插介绍字节内部相应的改进。第二部分会介绍典型案例中未覆盖到的改进和经验。第三部分会提出目前的不足和未来的改进计划。（文末附 ClickHouse 沙龙第四场&#xff1…

CentOS7安装Hadoop3完全分布式

前提条件拥有CentOS7服务器版环境集群规划项目服务器node2 服务器node3 服务器node4 HDFS NameNode、DataNode DataNode DataNode、SecondaryNameNode Yarn NodeManager Resourcemanager、NodeManager NodeManager 虚拟机准备通网络能ping通外网，例如：…

Hadoop相关面试题总结

Hadoop常用端口号： dfs.namenode.http-address:50070 dfs.datanode.http-address:50075 SecondaryNameNode辅助名称节点端口号：50090 dfs.datanode.address:50010 fs.defaultFS:8020或9000 yarn.resourcemanager.webapp.address:8088 历史服务器w…

电商数据分析——基于hive数仓，实现大数据分析

1. 需求以电商数据为基础，结合hive数仓，实现大数据分析。数据源可通过日志取得，数据清洗转换导入数据仓库，通过数仓中数据分析得到数据总结，用于企业决策。本项目基于以下表类进行电商数仓分析，分用户信…

hadoop需要哪些技术支持

hadoop是一个开源软件框架，可安装在一个商用机器集群中，使机器可彼此通信并协同工作，以高度分布式的方式共同存储和处理大量数据。最初，Hadoop 包含以下两个主要组件：Hadoop Distributed File System (HDFS) 和一个分布…

Hadoop多Job并行处理

有关Hadoop多Job任务并行处理，经过测试，配置如下： 首先做如下配置： 1、修改mapred-site.xml添加调度器配置： <property> <name>mapred.jobtracker.taskScheduler</name> <value>org.ap…

Spark基础之：常用算子逐一详解

Spark常用算子逐一详解一、什么是Spark rdd算子？二、算子的分类Transformation算子Action算子三、常用的Transformation算子及使用方法1.map算子2.flatMap算子3.mapValues算子4.filter算子5.foreach算子6.groupBy算子6.groupByKey算子7.sortBy算子8.glom算子9.parti…

Hive基础之：hive数据倾斜原因及解决方案

hive数据倾斜产生的原因数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类一、Hive倾斜之group by聚合倾斜原因： 分组的维度过少，每个维度的值过多，导致处理某值的reduce耗时很久； 对一些类型统计的时候某种类型的数据量特…

零基础部署Hadoop完全分布式安装

Hadoop完全式分布安装前提条件配置网络关闭防火墙及Selinux配置hosts文件克隆创建用户配置用户配置用户权限安装DJK配置jdk环境变量验证JDKSSH免密登录安装hadoop配置Hadoop环境变量验证安装配置配置Hadoop复制验证安装配置格式化NameNode：查看Java进程启动YARN并查…

Impala的原理和介绍

目录第一章Impala的基本概念 1.2 Impala的优缺点 1.2.1 优点 1.2.2 缺点 1.3 Impala的架构

大数据框架和数仓高频面试题总结

目录 Hadoop Hive Hbase Spark 协作组件数仓 Hadoop 1、简答说一下hadoop的map-reduce编程模型 MapReduce计算模型主要由三个阶段构成：Map、shuffle、Reduce。 Map是映射，负责数据的过滤分法，将原始数据转化为键值对；Reduce是合并，将具有相同key值的value进行处…

HDFS(hadoop distributed File System)详解

HDFS(hadoop distributed File System)分布式文件系统特点：高容错性（多个文本副本存储），价格低，高吞吐量。常见的系统 gfs，HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS。 Hdfs总体上采用了m…

Apache Ranger控制功能

Apache Ranger控制功能# Apache Ranger 是一个在hadoop平台上使用的组件，可以全面监控和管理数据的安全。有关Ranger的安装见我另一篇博客ranger的安装及问题解决。 Apache Ranger目前支持的组件如下 Ranger-usersync用于同步linux的用户和用户组，在ran…

【大数据之Hive】十一、Hive-HQL查询之基本查询

基础语法 select [all | distinct] select_expr,select_expr, ...from table)name --从什么表查[where where_condition] --过滤[group by col_list] --分组查询[having col_list] --分组后过滤[order by col_list] --排序[cluster by col_list | …

Hbase问题十道

什么是HBase？它的主要特点是什么？ 参考答案：HBase是一个分布式、面向列的NoSQL数据库，建立在Hadoop文件系统（HDFS）之上。它具有高可扩展性、高性能、高可靠性和松散一致性的特点。 HBase的数据模型是什么样…

【大数据】大数据相关概念

文章目录大数据：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度四大特征。Hadoop：是一个能够对大量数据进行分布式处理的软件框…

新手快速搭建springboot项目

一、创建项目 1.1、创建项目 1.2、配置编码 1.3、取消无用提示 1.4、取消无用参数提示二、添加POM父依赖  <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-p…

HBase入门(一)

第1章 HBase简介 1.1 HBase定义 HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。 1.2 HBase数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（…

sqoop导出实战

Sqoop导出实战普通导出在Sqoop中,使用export进行导出,指的是从HDFS中导出数据到MySql中： 构建MySql的表： CREATE TABLE u2 (id int(11) DEFAULT NULL,age int(11) DEFAULT 0 ) ENGINEInnoDB DEFAULT CHARSETutf8; 复制代码 HDFS导出到MySql 第一…

史上最全Hadoop面试题：尼恩大数据面试宝典专题1

说在前面： 《尼恩大数据面试宝典》是《尼恩Java面试宝典》姊妹篇。这里特别说明一下：《尼恩Java面试宝典》41个专题 PDF （请在文末获取）自发布以来， 已经收集了好几千题， 足足4000多页&#xff0c…

2.2 HDFS shell操作

2.2 HDFS shell操作调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式 ls 使用方法：hadoop fs -ls 如果是文件，则按照如下格式返回文件信息： 文件名 <副本数> 文件大小修改日期修改时间权限用户ID 组ID 如果是目录&#xff…

【Hadoop实战】Windows环境下编译Hadoop2（2.10.2-R0）

Windows环境下编译Hadoop2（2.10.2-R0）IDE 前提根据Hadoop源码包解压之后编译帮助文件BUILDING.txt中关于windows的要求来准备环境 ----------------------------------------------------------------------------------Building on Windows--------…

使用DataX，从Greenplum将数据传输到Hive分区表中

我司使用Greenplum作为计算库，实时计算统计数据，但是数据量大了之后影响计算速度。所以将每天的数据通过Datax传输到Hive的按日分区的分区表中，用于备份，其他数据放在Greenplum中作为实时数据计算。 Greenplum内核还是PostgreSQL&…

大数据常见面试题之MapReduce

文章目录一.MapReduce的执行流程二.MapReduce写过吗？有哪些关键类？mapper的方法有哪些？setup方法是干嘛的？它是每读一行数据就调用一次这个方法吗？1.关键类2.mapper的方法有setup，map，cleanup&a…

HBase常见运维工具整理

HBase自带许多运维工具，为用户提供管理、分析、修复和调试功能，这些工具一部分的入口是hbase shell 客户端，另一部分是在hbase的Jar包中。大多数可通过执行以下形式的命令实现： hbase [<options>] <command> [<a…

怎样系统规划大数据学习之路？

大数据的领域非常广泛，往往使想要开始学习大数据及相关技术的人望而生畏。大数据技术的种类众多，这同样使得初学者难以选择从何处下手。这正是我想要撰写本文的原因。本文将为你开始学习大数据的征程以及在大数据产业领域找到工作指明道路，…

hadoop2.x常用端口及定义方法

Hadoop集群的各部分一般都会使用到多个端口，有些是daemon之间进行交互之用，有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多，完全记不住哪个端口对应哪个应用，特收集记录如此，以便查询。这里包含我们使用…

成为卓越数据科学家必备的 13 项技能

一周前，我在 LinkedIn 上问了一个问题：优秀的数据科学家与卓越的数据科学家之间的区别是什么? 令人惊讶的是，我得到了来自各行各业的许多顶尖数据科学家的积极反馈。我发现这非常实用和有趣。为了进一步了解二者间的区别，我一直…

17 个方面，综合对比 Kafka、RabbitMQ、RocketMQ、ActiveMQ

本文将从，Kafka、RabbitMQ、ZeroMQ、RocketMQ、ActiveMQ 17 个方面综合对比作为消息队列使用时的差异。一、资料文档 Kafka：中。有kafka作者自己写的书，网上资料也有一些。rabbitmq：多。有一些不错的书，网上资料多。…

大数据全系技术概览

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托迈尔-舍恩伯格及肯尼斯…

大数据经典实验案例-WordCount原理详解和代码书写

大数据经典实验案例-WordCount原理详解和代码书写本次实验基于hadoop框架和linux环境，所以，请保证您的电脑拥有hadoop环境（hdfs和mapreduce） 实验目的：掌握hadoop的一些基本命令操作和使用JavaAPI进行实验开发。实验…

【每天五分钟大数据-第一期】伪分布式+Hadoopstreaming

说在前面之前一段时间想着把 LeetCode 每个专题完结之后，就开始着手大数据和算法的内容。想来想去，还是应该穿插着一起做起来。毕竟，如果只写一类的话，如果遇到其他方面，一定会遗漏一些重要的点。 LeetCode 专题…

最系统的大数据技术盘点，学会一半就是数据大牛

说起大数据，很多人都能聊上一会，但要是问大数据核心技术有哪些，估计很多人就说不上一二来了。从机器学习到数据可视化，大数据发展至今已经拥有了一套相当成熟的技术树，不同的技术层面有着不同的技术架构，…

大数据平台开发架构讲解

大数据背景对于业务数据数据量的暴增，用户智能化需求提升。在这个DT的时代，大数据的开发也就应运而生了，大数据开发必须解决两个问题，大数据量如何统一存储，大数据量如何统一计算。针对这些问题产生了很多大数据方面…

Hadoop HBase数据库是什么？

HBase 是基于 Apache Hadoop 的面向列的 NoSQL 数据库，是 Google 的 BigTable 的开源实现。HBase 是一个针对半结构化数据的开源的、多版本的、可伸缩的、高可靠的、高性能的、分布式的和面向列的动态模式数据库。 HBase 和传统关系数据库不同，它采用了 …

Hive详解（一）

文章目录Apache Hive（一）第一章简单了解Hive1.1 什么是Hive？1.2 Hive的功能1.3 Hive官网第二章开始使用Hive2.1 安装和配置2.2 运行Hive2.2.1 配置Hadoop路径2.2.2 创建元数据仓库目录2.2.3 运行Hive CLI2.2.4 运行HiveServer2和Beeline2.3…

大数据开发写sql写烦了，要不要转？

如果说大数据是每天写sql还不太精准（精准的是用各种方式写SQL）当你不创造东西时，你只会根据自己的感觉而不是能力去看待问题。会不会转别的，看个人兴趣，大数据方向还有那么多。瞅瞅方向：如数据分析师、大数…

面向未来的大数据核心技术都有什么？

1、数据采集数据采集的任务就是把数据从各种数据源中采集和存储到数据存储上，期间有可能会做一些简单的清洗。数据源的种类比较多： 网站日志：作为互联网行业，网站日志占的份额最大，网站日志存储在多台网站日志服务器…

Hadoop——HDFS简介

HDFS（Hadoop Distributed File System），它是Hadoop核心的一部分，是Hadoop默认使用的一套分布式文件系统。这里之所以说默认，是因为Hadoop项目其实有一层比较通用的文件系统抽象层，这使得它可以使用多种文件…

大数据技术学习笔记（一）——初识大数据

1 大数据的概念大数据：指无法在一定的时间范围内用常规的软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决海量数据的存储和海量数据的分析计…

HDFS读取与写入步骤详解

HDFS读取与写入步骤详解 1、Hadoop写流程 Hadoop写流程主要实现将文件上传到HDFS中，其指令格式如下所示： #hadoop上传文件语法 hdfs dfs -put localpath hdfspath 其上传步骤可以分为以下八个步骤： 客户端通过Distributed FileSystem模块…

hadoop一键启动脚本

大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等（持续更新）

常见端口汇总： Hadoop： 50070：HDFS WEB UI端口 8020 ： 高可用的HDFS RPC端口 9000 ： 非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ：…

Flink Transformation中map、filter、flatMap算子详细介绍

本文将对Flink Transformation中各算子进行详细介绍，并使用大量例子展示具体使用方法。Transformation各算子可以对Flink数据流进行处理和转化，是Flink流处理非常核心的API。如之前文章所述，多个Transformation算子共同组成一个数据流图。 […

实验六 MapReduce数据清洗-气象数据清洗

实验六 MapReduce数据清洗-气象数据清洗第1关：数据清洗任务描述编程要求测试说明代码实现命令行代码文件step1/com/Weather.javastep1/com/WeatherMap.javastep1/com/WeatherReduce.javastep1/com/Auto.javastep1/com/WeatherTest.java第1关：数据清洗任…

头歌Educoder云计算与大数据——实验二 Hadoop单机部署

头歌Educoder云计算与大数据——实验二 Hadoop单机部署答案在下面的链接里 https://blog.csdn.net/qq_20185737/article/details/114677155

HDFS详细介绍

HDFS：（Hadoop Distributed File System）分布式文件系统，提供高吞吐量的应用程序数据访问，对外部客户机而言，HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是 HD…

hadoop心跳机制解析

心跳的机制大概是这样的： 1) master启动的时候，会开一个ipc server在那里。 2) slave启动时，会连接master，并每隔3秒钟主动向master发送一个“心跳”，将自己的状态信息告诉master，然后master也是通过这个心…

学习hadoop大数据基础框架需要什么基础

什么是大数据？进入本世纪以来，尤其是2010年之后，随着互联网特别是移动互联网的发展，数据的增长呈爆炸趋势，已经很难估计全世界的电子设备中存储的数据到底有多少，描述数据系统的数据量的计量单位从MB&#…

Apache: 提示configure: error: APR not found（转）

Apache: 提示configure: error: APR not found(转) 原文地址：http://davis.zhang2004.blog.163.com/blog/static/2276015220128131455729/ #./configure --prefix……检查编辑环境时出现： checking for APR... no configure: error: APR not found . Ple…

hadoop实例(java模板)：数字逆序输出 (自定义mapper，reducer，自定义key2类型，重写compareTo函数,HDFS操作)

主要是整理了mapreduce常用的操作模板主函数（请忽略主类的名字。。忘记改了）： package hadoop.wordCount;import java.io.IOException;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache…

报错：IOException parsing XML document from class path resource [applicationContext.xml]； nested except

1.出现IOException parsing XML document from class path resource [applicationContext.xml]; nested exception is java.io.FileNotFoundException: class path resource [applicationContext.xml] cannot be opened because it does not exist 上面这张图是我的目录&#…

创建HDFS，导入HADOOP jar包

创建HDFS，导入HADOOP 所有jar包 1、打开eclipse 点击 2、新建java project： 选择自己安装的jdk版本（老版本容易出bug） 3、在hadoop工程下新建文件夹lib（用于存放jar包） 4、导入jar包第一个jar包 cp …

MySQL用得好好的，为什么要转ES?

来源：京东技术（ID: jingdongjishu）京东到家订单中心系统业务中，无论是外部商家的订单生产，或是内部上下游系统的依赖，订单查询的调用量都非常大，造成了订单数据读多写少的情况。我们把订单数据存…

Java 外卖点餐系统

点击上方果汁简历 ，选择“置顶公众号”优质文章，第一时间送达来源：blog.csdn.net/weixin_44219955傻瓜式外卖点餐系统（无数据库）tips：菜品类(菜品id，菜品名，菜品类型，上…

年薪 20 万了，终于可以抬头做人了

众所周知，大数据技术正被广泛应用于电商、交通、工业、医疗等行业，大数据工程师已成为互联网行业炙手可热的岗位。另一方面，像月薪 20k 以上的大数据工程师，技能要求就很高，除了要熟练各种大数据框架，还要会…

Hadoop：DataNode启动失败：Initialization failed for Block pool

一、问题发现在启动Hadoop集群后，发现原本应该是启动三台机子的数据节点，结果只有一台node2成功启动，另外两台（node1、node3）并没有启动，如下两图所示： 问题描述： 确认配置信…

windows子系统(wsl) Ubuntu16.04 下安装hadoop

使用命令查看系统版本 sudo lsb_release -a 1.准备工作 1.1 创建hadoop用户 01:先打开终端（CtrlAltT） 键入指令： sudo useradd -m hadoop -s /bin/bash 02:设置用户hadoop的登录密码 sudo passwd hadoop 提示会要求输入两次密码&#x…

从Hadoop到Spark、Flink，大数据处理框架十年激荡发展史

当前这个数据时代，各领域各业务场景时时刻刻都有大量的数据产生，如何理解大数据，对这些数据进行有效的处理成为很多企业和研究机构所面临的问题。本文将从大数据的基础特性开始，进而解释分而治之的处理思想，最后介绍一…

基于ZooKeeper搭建Hadoop高可用集群

本文为其中的一篇Hadoop主题系列的一节文章，刊载以飨读者，建议复制指南地址至浏览器收藏标签，实时更新，也以便长时间查阅，或者给个Star，毕竟是免费的。一、高可用简介 Hadoop 高可用 (High Availability) …

解密大数据领域岗位职业发展路径

我们迎来了一个新的时代，这就是大数据的时代。 —经济学家詹姆斯莫里斯行业背景国家信息中心《2017中国大数据产业发展报告》对我国大数据产业发展的人才、政策、投融资、创新创业、产业发展、区域潜力、机构和人物影响力等多个维度进行了全面分析。结果显示&am…

玩转大数据开发工具--上下全篇

为了降低大数据应用开发的门槛，简化开发过程，星环随Transwarp Data Hub 5.0开发出了大数据开发套件Transwarp Studio。Studio由一套PaaS产品构成，提供从提取、存储、计算、展示的全链路大数据开发服务，全面覆盖大数据开发流水线上…

CentOS6.9最小化版本配置163yum源并安装图形化环境

目录Centos6.9最小化配置163的yum仓库安装图形化环境Centos6.9最小化配置163的yum仓库切换到/etc/yum.repos.d/仓库目录下，查看文件可看到系统自带的.repo文件，全部删除，新建一个163yum源的163.repo文件（名字自由设定&#xff0…

okd 单机集群_引导okd 4 5单节点集群

okd 单机集群Updated: 7/29/2020更新时间：2020年7月29日 After listening to some feedback in the chat on a recent Twitch stream and the okd-wg mailing list I decided to create a guide for installing an OKD 4.5 SNC (single node cluster). This guide …

Hive安装教程(避坑)

下载&解压第一步，Hive官网下载apache-hive-3.1.2-bin.tar.gz，其中3.1.2是我下载的版本，你要根据自己的hadoop版本进行适配然后，进行解压。配置进入conf目录，将hive-default.xml.template进行拷贝&#xff…

hadoop部署技巧_我从部署中学到的十大技巧

hadoop部署技巧Whether you are working on a personal project, collaborating with a couple people on an idea, or shipping production level code, deployment carries a inherit level of stress, anxiety, tricks, traps, bugs, errors, issues, landmines and nightma…

Hbase入门——安装与配置

本文讲述如何安装，部署，启停HBase集群，如何通过命令行对Hbase进行基本操作。并介绍Hbase的配置文件。在安装前需要将所有先决条件安装完成。一、先决条件 1、JDK 和Hadoop一样，Hbase需要JDK1.6或者更高的版本，所…

大数据平台架构设计探究

近年来，随着IT技术与大数据、机器学习、算法方向的不断发展，越来越多的企业都意识到了数据存在的价值，将数据作为自身宝贵的资产进行管理，利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或…

hadoop框架结构的说明介绍

近年，随着互联网的发展特别是移动互联网的发展，数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个（2000年数据，）数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大…

Hadoop集群部署

首先在Master节点解压文件，进入Hadoop的目录，我这里下载的是hadoop-2.7.7。解压后的文件目录是 /home/yellow/hadoop-2.7.7。 master节点的主机名为master。 1. 配置core-site.xml（设置NameNode的位置） <configuration>…

MapReduce实现与自定义词典文件基于hanLP的中文分词详解

前言： 文本分类任务的第1步，就是对语料进行分词。在单机模式下，可以选择python jieba分词，使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词，则hanLP更加胜任。一、使用介绍 hanLP是一个用jav…

伪分布环境下CentOS 7+Hadoop2.6.0+Eclipse开发环境搭建

** 第一步：下载安装Eclipse ** 在Eclipse官网下载linux版本的eclipse。 eclipse官网下载地址：https://www.eclipse.org/downloads/eclipse-packages/?osTypelinux&releaseundefined 将下载的eclipse解压放到linux系统中，点击eclipse…

【Hive-Partition】Hive添加分区及修改分区location

【Hive-Partition】Hive添加分区及修改分区location 1）整表修复数据2）单独分区修复当我们在 Hive 中创建外表时，需要映射 HDFS 路径，数据落入到 HDFS 上时，我们在 Hive 中查询时会发现 HDFS中有数据，Hive …

win7服务器单机安装hadoop

在开始配置前，我们先了解Hadoop的三种运行模式。 Hadoop的三种运行模式独立（或本地）模式：无需运行任何守护进程，所有程序都在同一个JVM上执行。在独立模式下测试和调试MapReduce程序很方便，因此该模式在…

【hadoop——Hive的安装和配置】保姆式教学

目录一.Hive的安装和配置 1.Hive并不是hadoop自带的组件，因此我们需要去下载hive，此次课我们使用hive 1.2.1版本，下载地址为： 2.下载完成之后，安装包默认保存在下载文件夹中，解压安装包apache-hive-1.2.…

hadoop学习笔记（七）MapReduce原理与详细的执行阶段

分布式并行编程传统的分布式并行编程是共享存储，容错性低，硬件出错，整个集群瘫痪，价格贵等等MapReduce使用PC就可以成为集群，硬件价格低，将作业分散计算，再求和，而且hadoop整个集群…

flume的配置与安装

一.flume的配置与案例1 下载flume包 http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz1.将压缩包放在ubunta下 cd ~ tar -zxvf apache-flume-1.8.0-bin.tar.gz -C ~ln -s apache-flume-1.8.0-bin/ flumevi ~/.bashrc source ~/.bashrc…

hadoop 2.7.3 源码分析（三）：hadoop远程调试

摘要调试是学习代码流程，查找BUG，修复错误的重要方法，本文内容主要是讲述在前两篇内容的基础上如何配置Idea和hadoop以使其可以使用远程调试（打断点、逐行运行等）功能 Idea 设置首先需要将hadoop源码的maven工程导…

hadoop 2.7.3 源码分析（二）：超简单源码修改测试

前言在上一节中我们搭建起了测试环境，这一节我们根据前边序言中的内容，修改一下nameNode的启动代码看是否生效。修改代码在工程 hadoop-hdfs-project中的hadoop-hdfs中找到源文件NameNode.java（在包org.apache.hadoop.hdfs.server.name…

hadoop 2.7.3 源码分析（一）：环境搭建

序回头想想自己学习大数据相关的技术已经有很长的时间了，在这段时间里主要学习了hadoop、zookeeper、hbase、kafka、flume、spark、storm等等，有一些在工作当中使用到了(比如zookeeper、hadoop）就比较熟悉但大部分都是浅尝辄止没有做深入的…

数据倾斜

数据倾斜就是在计算数据的时候，数据的分散度不够，导致大量的数据集中到了集群中的一台或者几台机器上计算，而集群中的其他节点空闲。这些倾斜了的数据的’计算速度远远低于’平均计算速度，导致整个计算过程过慢。产生原理&…

批量配置计算机集群SSH免登录

本文所有代码可在https://github.com/alphg/zookeeper-hadoop-hbase-setup-tools查看今天准备在自已电脑上使用5台虚拟机搭建一个zookeeperhadoophbase的一个完全分布模式的实验环境。每台机器都安装ubuntu server 12.04版本的linux系统，并正确安装ssh。给5台机…

循环结构(for循环、while循环、do-while循环、死循环、嵌套循环、跳转关键字)

for循环 while循环 do-while循环三种循环的区别： 死循环嵌套循环跳转关键字：break、continue 本文通过B站“黑马程序员”所发布的JAVA视频学习记录的笔记，不作为任何商业行为，仅作为知识分享。

浅析hadoop写入数据api

对于一般文件，都有满足随机读写的api。而hadoop中的读api很简单用FSDataInputStream类就可以满足一般要求，而hadoop中的写操作却是和普通java操作不一样。 hadoop对于写操作提供了一个类：FSDataOutputStream，这个类重载了很多wri…

4.Spark基础—核心组件、核心概念、提交流程、部署执行模式（本篇全是概念）

本文目录如下：第7章 Spark核心组件7.1 运行架构7.2 核心组件7.2.1 Driver7.2.2 Executor7.2.3 Master & Worker7.2.4 ApplicationMaster7.3 核心概念7.3.1 Executor 与 Core7.3.2 有向无环图7.4 提交流程7.4.1 Yarn Client 模式7.4.2 Yarn Cluster 模式(重要)第…

11月产品升级盘点

11月，百度智能云在产品和技术层面不断突破，产品在迭代中稳步前进，应用场景不断深化，从人工智能到大数据到基础云，获得了越来越多客户的认可。接下来，带你一起解锁百度智能云11月新能力。1人工智能持续迭代…

TSDB的数据如何利用Hadoop/spark集群做数据分析？

物联网场景已经成为各行业巨头和各互联网公司的兵家必争之地，百度云天工TSDB对物联网场景下时序数据表现除了优秀的存储和查询能力，已经成为物联网应用的标配，支撑着智能制造、工业能源、智能车联网、智能家居、智慧城市等多个行业应用。TSDB…

程序猿专享| 如何运用百度MapReduce分析网站日志

每天访问网站的用户都在关注什么？在网站上有哪些用户行为在不断发生？如何根据用户行为来提升网站的商业价值？网站日志包含用户日常的访问信息，通过日志分析可以了解网站的访问量、网页访问次数、网页访问人数、频繁访问时段等等&a…

百度第三个超级核心及华南IDC集群正式启用

9月10日，百度高级副总裁王劲出席广东电信、广东移动的数据中心启用仪式，以及与广东联通的合作备忘录签约仪式，标志着百度第三个超级核心及华南IDC广州南沙云谷数据中心集群正式启用。（王劲、刘超一行出席与三大运营商合作仪式&…

不当IT民工让你拿高薪的10个技能

在竞争激烈的互联网，不是你埋头敲代码就能敲出一片辉煌来的，你应该把你最宝贵的10年用在最有效的地方，助你加入高薪行列，最近BI访问了 Indeed.com，其总结出哪些IT职业一年至少能赚10万美金，而且这只是薪金&…

25家硅谷VC追捧的明日之星盘点（上）

谁最了解创业公司？当然是VC，他们眼中的牛逼创业公司都有那些？都想把钱投给谁？下面就是对25家受VC追捧的明日之星盘点，为什么VC都青睐它们？它们身上都有什么闪光点？有什么好的创意值得山寨&#…

VC掷金1亿美元投资大数据创业公司

去年11月，硅谷著名风投机构Accel Partners宣布成立一个金额高达1亿美元的专项基金用于投资大数据创业公司。上个月，美国备份软件厂商Code 42就获得了由Accel领投的5250万美元投资，其中，Accel部分的投资来自大数据专项基金。 Accel…

利用Docker快速部署hadoop、hive和spark

文章目录一、配置文件yml1.docker-compose.yml二、执行脚本1.启动脚本run.sh2.关闭脚本stop.sh一、配置文件yml 1.docker-compose.yml version: 3.4 services:namenode:image: test/hadoop-namenode:1.1.0-hadoop2.8-java8container_name: namenodevolumes:- ./data/namenod…

hive优化大全（hive的优化这一篇就够了）

文章目录写在前面一、概述1.1 数据倾斜1.2 MapReduce二、产生原因三、解决方案和避免方案3.1 Hive语句初始化配置3.1.1 join过程的配置3.1.2 map join过程的设置3.1.3 combiner过程3.1.4 group by 过程3.1.5 map 或者reduce 过程3.1.6 mapper 设置3.1.7 reducer设置3.1.8 存储与…

大数据组件之Hive（Hive学习一篇就够了）

文章目录一、Hive安装1、解压环境2、环境变量配置3、配置文件信息1.打开编辑文件2.输入以下内容4、拷贝mysql驱动5、更新guava包和hadoop一致6、mysql授权7、初始化8、hive启动模式9、Hadoop的core-site.xml配置二、Hive1、Hive的文件结构2、MySQL上Hive的元数据3、hadoop文件授…

数据迁移工具之Flume

文章目录一、Flume1、Flume的架构1.Agent2.Source3. Sink4.Channel5. Event2、flume内部数据传输的封装形式3、 Transaction：事务控制机制4、拦截器二、Flume安装1、启动命令三、Flume的端口数据监听1、切换目录并创建配置文件2、配置信息3、打开Flume监听窗口4、使…

win10编译Hadoop3.0.2源码遇到的坑

目录背景 1、Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:3.0.2:protoc (compile-protoc) on project hadoop-common: org.apache.maven.plugin.MojoExecutionException: protoc --version did not return a version 2、 Failed to execute goal org.c…

数据迁移工具之DataX

文章目录一、DataX1、DataX框架2、DataX运行原理二、安装DataX1、DataX的下载安装地址2、编译三、配置模板1、从Stream流到控制台2、从MYSQL到HDFS3、从HDFS到MySQL一、DataX DataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、…

Hive动态分区导入ClickHouse时出现错误

项目场景： 最近在将hive导入clickhouse，全量导入没有问题，增量导入时出现问题，这里记录下来 hive源表： DROP TABLE IF EXISTS dwd_test; CREATE EXTERNAL TABLE dwd_test (id string COMMENT ID,name stri…

Hadoop单点安装FAQ

安装源：yum install epel-release -y Q1: Starting namenodes on [localhost] ERROR: Attempting to launch hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting launch. 解决1： 是因为缺少用户定义造成的&…

利用shell实现hadoop3.1.3单机集群的搭建

文章目录利用shell实现hadoop单机集群的搭建1、材料准备2、自动化安装脚本利用shell实现hadoop单机集群的搭建 1、材料准备一个联网的liunx虚拟机yum环境配置完毕（关于yum环境搭建，请查看本人文章利用自动化脚本实现Linux的yum仓库本地镜像和远程华为…

hadoop的HDFS的shell命令大全（一篇文章就够了）

文章目录HDFS的shell命令1、安全模式1.查看安全模式状态2.手工开启安全模式状态3.手工关闭安全模式状态2、文件操作指令1.查看文件目录2.查看文件夹情况3.文件操作4.上传文件5、获取文件6.查看文件内容7.创建目录8.修改副本数量9.创建空白文件（不推荐使用&#xff0…

Hadoop服务开启与关闭及其源码介绍

文章目录Hadoop的服务开启与关闭1、开启关闭所有服务（不推荐）1.命令使用2.start-all.sh脚本3.stop-all.sh2、开启Hadoop所有服务★★★1.命令使用2.start-dfs.sh3.start-yarn.sh3、关闭Hadoop所有服务★★★1. 命令使用2.stop-dfs.sh3.stop-yarn.sh4、利…

Hadoop三剑客

文章目录Hadoop三剑客1、HDFS:Hadoop的文件操作系统1.NameNode2.DataNode3.Secondary NameNode2、MapReduce：Hadoop支持的计算框架1.Map2.Reduce3、Yarn：资源调度框架1.ResourceManager(RM)2.NodeManager（NM）3.ApplicationMaster&…

Hadoop2.6.0伪分布式xml配置文件

一、hadoop伪分布式的三个配置文件 1.core-site.xml文件配置 2.hdfs-site.xml文件配置在/usr/local/hadoop目录下创建tmp文件夹，再在tmp目录下创建dfs、dfs/name和dfs/data三个文件夹。 3.mapred-site.xml文件配置在/usr/local/hadoop/tmp目录下创建ma…

hadoop与eclipse

个人笔记：（需要懂点java和用过点eclipse的） 配置完hadoop分布式环境，就要做eclipse开发了 1.配置eclipse的map/reduce比较简单 2.先现在插件，放到eclipse中 3.配置hadoop目录 4.在配置Location 碰到的错误：…

【大数据之Hive】十九、Hive之文件格式和压缩

1 Hadoop压缩概述 Hive中的压缩算法与Hadoop中的压缩算法保持一致，可以把Hive当作Hadoop的一个客户端。【大数据之Hadoop】十八、MapReduce之压缩 2 Hive文件格式 Hive表中常用的数据存储格式：text file（行式存储）、orc&#x…

Hadoop的简单知识总结

Hadoop概述 1.Hadoop是什么？解决什么问题？ Hadoop是由Apache基金会所开发的分布式基础框架。主要解决：海量数据的存储和海量数据的分析计算问题 2.三大并行版本 3.Hadoop的优势 （1）高可靠性：Hadoop底层…

Hadoop+zookeeper集群部署

Hadoopzookeeper集群部署 (本文是工作过程中，一位同事整理编写的，非常全面详细，在此对其表示由衷的感谢，同时也分享给大家，希望对有此需求的朋友能给予帮助) 一、集群服务器情况 IP 主机名进程 192.168.0.202 h…

Hadoop实现词频统计（按照词频降序排列以及相同词频的单词按照字母序排列）

Hadoop实现词频统计（按照词频降序排列以及相同词频的单词按照字母序排列） 分为两步词频统计和排序。第一个map reduce与过滤停用词的代码相同；第二个map reduce中的map将键值对内容交换，map到reduce的shufle中会自动进行key值升序…

百度向业界分享海量数据处理技术

导语：我们身处海量数据时代。2011年，全球产生的数据量达到1.8ZB（1ZB10亿TB，1TB1000GB）。未来十年，全球大数据还将增加50倍。面对数据的暴增，如何有效的存储、管理、访问这些数据？互联…

Hive group by 数据倾斜问题处理

一、背景发现一个10.19号的任务下午还没跑完，正常情况下，一般一个小时就已经跑完，而今天已经超过3小时了，因此去观察实际的任务，发现9个map 其中8个已经完成，就一个还在run，说明有明显的数据倾…

Hive SQL 优化

1.案例一原sql： select count(case when a.id in (select id from b) then 1 esle 0) from a;结果总共数据：727 耗时: 2020-12-28 17:38:31 INFO Cost time is: 568.197s 改造后： select count(case when b.id is not null then 1 els…

解决：MacOS下配置Hadoop及Hive单机遇到的问题(们)

MacOS Sierra 10.12.1 Hadoop 2.7.3 Hive 1.2.1 前言本来安逸搞个local 的spark算了，但是过几天我还要搞个网易云音乐的大新闻，没有hive不得劲，遂装，期间遇到的问题，一一记录安装基础安装，先照这个来吧…

Hive日历表

drop table jmkx_data.dim_pub_datetime; CREATE TABLE `jmkx_data.dim_pub_datetime`(`year` string COMMENT 年, `quarter` string COMMENT 季度, `month` string COMMENT 月份, `week` string COMMENT 自然周, `weekno` string COMMENT 星期一至星期日,`day` string COMMENT…

Impala内存优化/溢出管理

一. 引言 Hadoop生态中的NoSQL数据分析三剑客Hive、HBase、Impala分别在海量批处理分析、大数据列式存储、实时交互式分析各有所长。尤其是Impala，自从加入Hadoop大家庭以来，凭借其各个特点鲜明的优点博取了广大大数据分析人员的欢心。 Impala通过主节点…

Hive参数调整详细

--压缩配置： -- map/reduce 输出压缩（一般采用序列化文件存储） set hive.exec.compress.output=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; set mapred.output.compression.type=BLOCK;--任务中间压缩 set hive.exec.compress.i…

雷锋微学堂：云计算平台最需要的10种工作技能

阿里云、盛大云、新浪云、华为云、百度云、随着国内云服务行业的发展，不断完善的产业链对技术的要求越来越高。尤其表现在用户对云服务的需求越来越严格。至于哪些技术会成为云计算的关键，常用的云开发框架及工具又会有哪些？让我们来先数数十…

hive的数据倾斜解决（Map端、reduce 端、join中）

hive的数据倾斜解决（Map端、reduce 端、join中） lianchaozhao 2020-11-02 15:24:08 667 收藏 4 分类专栏： 工作实践 hive 大数据文章标签： hive 大数据版权 hive 的数据倾斜一般我们可以分为 Map倾斜、reduce 倾斜和join 倾…

Hive的ReduceJoin/MapJoin/SMBJoin

Hive中就是把Map，Reduce的Join拿过来，通过SQL来表示。参考链接：LanguageManual Joins - Apache Hive - Apache Software Foundation 1.Reduce /Common/Shuffle Join Reduce Join在Hive中也叫Common Join或Shuffle Join 它会进行把相同key的value合在一起，正好符合我…

hive表拉链

一般维度变更用拉链，度量值变更可以用快照 --获取0-99 WITH a AS (SELECT explode(split(0,1,2,3,4,5,6,7,8,9,,))) select cast(a1.col + 10*a2.col as int) from a a1 JOIN a a2 ON 1=1 拉链表，做出一段日历表，每天拿去inner join不等关联拉链表获取出当天切片。这样就能…

Hive表的删改都只能在事务表才可行

orc事务分桶表 CREATE TABLE table_name (id int,name string ) CLUSTERED BY (id) INTO 2 BUCKETS STORED AS ORC TBLPROPERTIES ("transactional""true","compactor.mapreduce.map.memory.mb""2048", …

Hadoop 3.x（HDFS）----【HDFS 概述】

Hadoop 3.x（HDFS）----【HDFS 概述】1. HDFS产生背景及定义1. HDFS产生背景2. HDFS定义2. HDFS优缺点1. HDFS优点2. HDFS缺点3. HDFS组成架构4. HDFS文件块大小1. HDFS产生背景及定义 1. HDFS产生背景随着数据量越来越大，在一个操作系统存不…

hadoop第一篇，在Ubuntu14.04安装hadoop2.7.3伪分布式配置

hadoop菜鸟，第一次接触hadoop，于是安装过程遭遇了各种坑，以此记录。说明：以下链接均为引用，感谢各位大神把这些坑都填好了造福后来人。 1、首先需要Linux系统，所以安装VMware，创建Ubuntu虚拟…

关于在你的虚拟机上搭建hadoop集群的详细教程

安装jdk 首先，需要安装jdk环境，因为hadoop是由Java编写。 rpm -ivh jdk-8u91-linux-x64.rpm默认安装到这个位置：/usr/java/jdk1.8.0_91 安装hadoop 将你的hadoop进行解压 tar –xvf hadoop-2.7.3.tar.gz接着，要告诉hadoop ja…

java ipc 实例

java ipc实例，仿照hadoop ipc写的实例 1.用接口规定ipc协议的方法 2.client端用动态代理作调用远程ipc接口方法 3.server端用反射，执行ipc接口方法，并返回给client端接口方法返回值 hadoop ipc的另一个特点是server端用三个角色，L…

hadoop secondnamenode配置

一、secondnamenode是做什么的 The Secondary Namenode is a helper to the primary Namenode.The Secondary is responsible for supporting periodic checkpointsof the HDFS metadata. The current design allows only one SecondaryNamenode per HDFs cluster.The Secondar…

hadoop 报错 org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException

报错： org.apache.hadoop.hdfs.DFSClient:Failed to close file org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException) 解决方法： 修改linux打开文件最大限制 echo "fs.file-max 65535" &g…

hadoop自定义inputformat源码

hadoop的inputformat包括他的子类reader是maptask读取数据的重要步骤一、获得splits-mapper数 1. jobclinet的submitJobInternal，生成split，获取mapper数量 public RunningJob submitJobInternal {return ugi.doAs(new PrivilegedExceptionAction<Ru…

hadoop 自定义inputformat和outputformat

hadoop的inputformat和outputformat 最好的例子vertica ：虽然是在pig中实现的udf，但是就是hadoop的inputformat和outputformat，在hive里也可以照用，贴个下载的地址：http://blackproof.iteye.com/blog/1791995 再贴一个…

hadoop pig vertica

hadoop pig vertica是hadoop pig udf loader and storer的DB版，在github上开源，感谢感谢本文就不贴代码了，附件里有源码，想了解的可以下载先贴一张vertica的目录其中verticaLoader，verticaStorer是vertica给出的接口…

Hadoop 配置yarn常见错误

1.报错时环境及配置 hadoop环境为一主三从，在namenode上启用yarn，配置yarn-site.xml，三个从节点yarn-site.xml配置文件为空。 yarn-site.xml的内容如下 <configuration><property><name>yarn.nodemanager.aux-services&…

我就要在容器里写文件！？

在生产环境上遇到过一个讨厌的事情，有业务应用在容器中写入大量日志，导致磁盘空间爆满，引发了大面积驱逐。这种情况还有个比较烦心的事情就是无从监控，因此也不能用告警解决。docker ps --size 可以凑合试一下。虽说提倡使用标准输…

Hadoop2.5.0在CentOS7下的安装部署

背景记录下Hadoop2.5.0在CentOS7下安装部署的过程步骤 1、新建cdh文件夹，把hadoop的压缩包解压到cdh文件夹里面 #mkdir cdh #tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz -C cdh 2、切换到hadoop解压目录下的etc/hadoop目录，修改hadoop-env.sh、mapr…

hadoop3.1.3 + hive3.1.2 + mysql5.7.24 + zeppelin0.8.0环境搭建

hadoop3.1.3 hive3.1.2 mysql5.7.24 zeppelin0.8.0环境搭建PRE：Hadoop部署Hive部署zeppelin部署和配置hive interpreterhive创建表导入数据PRE： 首先要有JDK环境，java1.8，配置环境变量。linux系统一般有自带openjdk&#xff0…

Hive加密，PostgreSQL解密还原

当前公司数据平台使用的处理架构，由Hive进行大数据处理，然后将应用数据同步到PostgreSQL中做各类外围应用。由于部分数据涉及敏感信息，必须在Hive进行加密，然后在PG使用时再进行单个数据解密，并监控应用的数据调用事情…

Eclipse搭建Hadoop环境及实战资源分享

首先搭建eclipse的haoop2.7.1开发环境，使用的资源链接如下： windows安装hadoop2.7.1环境 eclipse下搭建hadoop开发环境这样我们就可以在eclipse进行hadoop开发了目录一、MapReduce 模型简介 1．Map 和 Reduce 函数 2．MapR…

HDFS Namenode是如何工作的？

来自：http://www.csdn.net/article/2012-07-03/2807066 HDFS（Hadoop Distributed Filesystem）客户端通过被称之为Namenode单服务器节点执行文件系统原数据操作，同时DataNode会与其他DataNode进行通信并复制数据块以实现冗余&#…

VMware虚拟机搭建HADOOP环境（下篇）

目录引言 1.搭建前准备 1.1所需软件 1.2HADOOP配置参数定义 1.3 主要工作 2.配置node01的系统环境 2.1设置node01的IP信息 2.2配置DNS 2.3 配置域名反向解析 2.3禁用操作系统安全配置 3.安装所需软件并配置 3.1配置VMware NAT模式 3.2 在node01中安装可视化传输工…

Ceph万字总结|如何改善存储性能以及提升存储稳定性

「Ceph – 简介」Ceph是一个即让人印象深刻又让人畏惧的开源存储产品。通过本文，用户能确定Ceph是否满足自身的应用需求。在本文中，我们将深入研究Ceph的起源，研究其功能和基础技术，并讨论一些通用的部署方案和优化与性能增强方案…

2020年了，SparkStreaming 与 Kafka 还是性格不合。。

SparkStreaming 是大数据架构必掌握的技能之一。它作为核心Spark API扩展，可以实时地处理来自于 Kafka、Flume 等多种源的数据，对不同数据进行统一处理，在日常社交、电商购物、出行、教育、金融等方面将这一优势发挥到极致。随着产品上云趋势…

Hadoop架构与机制

Hadoop Hadoop 2.0提供分布式存储（HDFS）和分布式操作系统（Yarn）两大功能软件包 Hadoop 1.0项目模块 Hadoop Common：支持其他模块的公用组件Hadoop Distributed File System（HDFS）&#xff1a…

spark-sql读写Hive遇到关于hive异常：Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaSt

我的机器是从主节点克隆的 ,需要把hive初始化一下在Linux任意工作目录下, schematool -dbType mysql -initSchema 初始化的时候遇到错误Error: Duplicate key name ‘PCS_STATS_IDX’ (state42000,code1061) 只需要把mysql中的hive库删除掉重新初始化hive就好了

AI 闯入法律界，第一步是当律师的得力助手

By 超神经内容提要：长久以来，律师这一职业给大众的印象都是精英、雄辩、高薪，而这份工作背后的艰辛却很少被看到。除了出庭之外，律师们要花费大量时间与经历进行法律资料研究、合同文件审查等。为此，科技公司纷纷推出 …

大数据技术实验一-在ubuntu18.04中安装伪分布式Hadoop并使用自带wordcount案例

必要时转载请标明出处本文是在ubuntu上安装Hadoop的操作，关于如何在centOS上安装Hadoop可参考 https://blog.csdn.net/hgxiaojiujiu/article/details/120382331 实验一熟悉常用的Linux操作和Hadoop操作一、实验目的 （1）掌握Linu虚拟机的…

Hadoop HDFS 高阶优化方案

目录一、短路本地读取：Short Circuit Local Reads 1.1 背景 1.2 老版本的设计实现 1.3 安全性改进版设计实现 1.4 短路本地读取配置 1.4.1 libhadoop.so 1.4.2 hdfs-site.xml 1.4.3 查看 Datanode 日志二、HDFS Block 负载平衡器：Balan…

Hadoop依赖环境配置与安装部署

目录什么是Hadoop？一、Hadoop依赖环境配置1.1 设置静态IP地址1.2 重启网络1.3 再克隆两台服务器1.4 修改主机名1.5 安装JDK1.6 配置环境变量1.7 关闭防火墙1.8 服务器之间互传资料1.9 做一个host印射1.10 免密传输二、Hadoop安装部署2.1 解压hadoop的tar包2.2 切换…

04-搭建Hadoop集群推荐使用普通用户

在搭建Hadoop集群时，建议使用普通用户管理。使用root用户管理可能会带来一些安全风险，因为root用户具有最高的权限，如果被黑客攻击或者误操作，可能会导致整个系统崩溃或者数据丢失。使用普通用户管理Hadoop集群可以有效地…

Python 使用Hadoop 3 之HDFS 总结

Hadoop 概述 Hadoop 是一个由Apache 软件基金会开发的分布式基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。 Hadoop 实现一个分布式文件系统（Hadoop Distributed File Sy…

oracle12C的概念及安装和卸

一. 数据库的引入以前将数据用变量、数组、对象存在内存，而内存只能短暂存储数据。如果我们想长久存数据用文件将数据存在磁盘上，不方便存取和管理数据，因此可以使用数据库来存数据。二. 数据库基础概念 2.1 数据库(database,简称DB) 以…

02.用户信息UserDetails相关入门

1. 前言前一篇介绍了 Spring Security 入门的基础准备。从这篇开始我们来一步步窥探它是如何工作的。我们又该如何驾驭它。本篇将通过 Spring Boot 2.x 来讲解 Spring Security 中的用户主体UserDetails。以及从中找点乐子。 2. Spring Boot 集成 Spring Security 这个简直…

【hadoop】windows上hadoop环境的搭建步骤

文章目录前言基础环境下载hadoop安装包下载hadoop在windows中的依赖配置环境变量 Hadoop hdfs搭建创建hadfs数据目录修改JAVA依赖修改配置文件初始化hdfs namenode启动hdfs 前言在大数据开发领域中，不得不说说传统经典的hadoop基础计算框架。一般我们都会将hadoo…

Java基础十一（面向对象OOP）

创建一个学生类编写一个名为 Student 的类， 包含以下属性和方法： 属性：姓名（name）、年龄（age）、学号（studentId）、成绩（score）方法&#xff1a…

突破运营商 QoS 封锁，WireGuard 真有“一套”！

❝原文链接🔗：https://icloudnative.io/posts/wireguard-over-tcp-using-phantun/或者点击左下角的阅读原文直接查看原文👇👉WireGuard 作为一个更先进、更现代的 VPN 协议，比起传统的 IPSec、OpenVPN 等实现&#x…

超大规模分布式存储系统 BigTale 介绍

作为 Google 三剑客（MapReduce、BigTable 和 GFS）之一，BigTable 来自 2006 年 Google 在 OSDI[1] 发表的同名论文 https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/bigtable-osdi06.pdf。Bigtable 是一个用于…

Hive-启动与操作（2）

🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 个人主页：beixi 本文章收录于专栏（点击传送）：【大数据学习】 💓💓持续更新中，感谢各位前辈朋友们支持…

hive--给表名和字段加注释

1.建表添加注释 CREATE EXTERNAL TABLE test(loc_province string comment 省份,loc_city string comment 城市,loc_district string comment 区,loc_street string comment 街道,)COMMENT 每日数据处理后的表 PARTITIONED BY (par_dt string) ROW FORMAT SERDEorg.apache.had…

【hive】简单介绍hive的几种join

文章目录前言1. Common Join2. Map Join介绍：使用方法：限制： 3. Bucket Map Join介绍：好处：使用条件：使用方法： 4. Sort Merge Bucket Map Join介绍：如何使用： 5. Skew …

Python 3 使用Hive 总结

启动HiveServer2 服务 HiveServer2 是一种可选的 Hive 内置服务，可以允许远程客户端使用不同编程语言向 Hive 提交请求并返回结果。 Thrift服务配置假设我们已经成功安装了 Hive，如果没有安装，请参考：Hive 一文读懂。在启动 H…

Hive的静态分区与动态分区

在 Hive 中，分区是一种组织数据的方式，允许你将表数据划分成更小的子集，以便更有效地管理和查询大型数据集。分区可以分为静态分区和动态分区，它们有不同的特点和用途。 1. 静态分区（Static Partitioning）：静态分区是在创建表时显式定义的分区方式。在静态分区中，你…

记一次 Kubernetes 中严重的安全问题

此事件发生在 2021-03 月份.近期遇到了一次我们自建 Kubernetes 集群中某台机器被入侵挖矿, 后续也找到了原因, 所幸只是用来挖矿…网络安全是个严肃的问题, 它总是在不经意间出现, 等你反应过来却已经迟了. 希望各位读者看完后也有所启发, 去检查及加固自己的集群.入侵现象检查…

正中优配：巨头深夜发声：向全社会开放！历史新高，万亿AI龙头火了！

当地时间8月30日周三，美股三大股指团体收涨，接连第四日收高。美股8月买卖进入尾声，出资者重视通胀与工作方面的一些重要经济数据。万亿AI巨子英伟达收涨0.98%，股价再创前史新高。据百度官方微信大众号8月31日0时音讯&#xff0c…

Hadoop YARN的调度器

YARN（Yet Another Resource Negotiator）是Hadoop生态系统中的资源管理和作业调度框架，负责集群资源的分配、作业的调度和任务的执行，使得在大规模集群上可以高效地运行各种计算框架，如MapReduce、Apache Spark等。YARN的调度器负责将集群资源分配给不同的应用程序，以确保…

大数据技术之Hive：先导篇（一）

目录一、什么是Hive 二、思考如何设计出Hive功能 2.1 提问 2.2 案例分析 2.3 小结三、掌握Hive的基础架构 3.1 Hive组件 - 元数据存储 3.2 Hive组件 - Driver驱动程序 3.3 Hive组件 - 用户接口一、什么是Hive 什么是分布式SQL计算我们知道，在进行数据统…

hiveserver2经常挂断的原因

hiveserver2经常挂断的原因 HiveServer2 经常挂断可能有多种原因，以下是一些可能导致挂断的常见原因： 资源不足：HiveServer2 需要足够的内存和 CPU 资源来处理查询请求。如果资源不足，可能会导致 HiveServer2 挂断。请确保在配置…

HDFS存储魔法解析：在二次元世界中跃动的数据冒险

【大数据】Hive 表中插入多条数据

Hive 表中插入多条数据在 Hive 中，我们可以使用 INSERT INTO 语句向表中插入数据。当我们需要插入多条数据时，有多种方式可以实现。本文将介绍如何在 Hive 表中插入多条数据，并提供相应的代码示例。 1.使用单个 INSERT INTO 语句插入多条数…

【程序员必知必会3】ClickHouse和Hive究竟哪些区别

ClickHouse和Hive究竟哪些区别 ClickHouse和Hive都是用于大数据处理和分析的分布式存储和计算系统，但它们之间存在一些区别： 架构：ClickHouse采用列式存储和向量化执行引擎，可以实现亚秒级别的数据查询。而Hive采用基于Hadoop的数…

Hadoop、Spark与Flink的基础架构及其关系和优异

Hadoop、Spark与Flink的基础架构及其关系和优异前言Hadoop基础架构优点不足 Spark基础架构优点不足 Flink基础架构优点不足结语：大数据框架的选择前言 Hadoop、Spark和Flink是目前重要的三大分布式计算系统。它们都可以用于大数据处理，但在处理方式和…

nutch与hadoop

Nutch是最早用MapReduce的项目 （Hadoop其实原来是Nutch的一部分），Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表（Inject），生成抓…

【大数据】Hive 中的批量数据导入

Hive 中的批量数据导入在博客【大数据】Hive 表中插入多条数据中，我简单介绍了几种向 Hive 表中插入数据的方法。然而更多的时候，我们并不是一条数据一条数据的插入，而是以批量导入的方式。在本文中，我将较为全面地介绍几种向 H…

centos7安装hadoop 单机版

1.解压 （1）将hadoop压缩包复制到/opt/software路径下 （2）解压hadoop到/opt/module目录下 [rootkb135 software]# tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/ （3）修改hadoop属主和属组 [rootkb135 m…

hive 动态分区-动态分区数量太多也会导致效率下降只设置非严格模式也能执行动态分区

hive 动态分区-动态分区数量太多也会导致效率下降&只设置非严格模式也能执行动态分区结论在非严格模式下不开启动态分区的功能的参数（配置如下），同样也能进行动态分区数据写入，目测原因是不严格检查SQL中是否指定分区或者…

配置开启Hive远程连接

配置开启Hive远程连接 Hive远程连接默认方式远程连接Hive自定义身份验证类远程连接Hive权限问题额外说明 Hive远程连接要配置Hive远程连接，首先确保HiveServer2已启动并监听指定的端口 hive/bin/hiveserver2检查 HiveServer2是否正在运行 # lsof -i:10000 COMMA…

关于hive sql进行调优的理解

这是一个面试经常面的问题，很不幸，在没有准备的时候，我面到了这个题目，反思了下，将这部分的内容进行总结，给大家一点分享。 hive其实是基于hadoop的数据库管理工具，底层是基于MapReduce实现的&a…

5 群起集群

1.在启动集群之前，先配置workers,有几个节点就配置几个 [atguiguhadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers在该文件中增加如下内容： hadoop102 hadoop103 hadoop104 注意：该文件中添加的内容结尾不允许有空格&a…

【大数据技术】实验2：熟悉常用的HDFS操作和基于MapReduce的词频统计

文章目录一、实验环境二、实验内容利用Hadoop提供的Shell命令完成以下任务利用HDFS的Java API编程实现以下任务功能编写MapReduce程序实现以下任务功能出现的问题一、实验环境操作系统：Linux（建议Ubuntu16.04或Ubuntu18.04）；Had…

4 hadoop集群配置案例

3）配置集群 （1）核心配置文件，core-site.xml cd $HADOOP_HOME/etc/hadoopvim core-site.xml文件内容如下： <?xml version"1.0" encoding"UTF-8"?> <?xml-stylesheet type"text…

Hive生成日期维度表

1、时间维表（完整版） 1）、建表 -- 时间维表完整版 create table if not exists dim.dim_date (date_id string comment 日期(yyyymmdd) ,datestr string comment 日期(yyyy-mm-dd) …

大数据项目实战（安装Hive）

一，搭建大数据集群环境 1.3 安装Hive 1.3.1 Hive的安装 1.安装MySQL服务 1）检查是否安装MySQL，如安装将其卸载。卸载命令 rpm -qa | grep mysql 2）搜索MySQL文件夹，如存在则删除 find / -name mysql rm -rf /etc/s…

hive lateral view 实践记录（Array和Map数据类型）

目录一、Array 1.建表并插入数据 2.lateral view explode 二、Map 1、建表并插入数据 2、lateral view explode() 3、查询数据一、Array 1.建表并插入数据正确插入数据： create table tmp.test_lateral_view_movie_230829(movie string,category array&…

一百六十九、Hadoop——Hadoop退出NameNode安全模式与查看磁盘空间详情（踩坑，附截图）

一、目的在海豚跑定时跑kettle的从Kafka到HDFS的任务时，由于Linux服务器的某个文件磁盘空间满了，导致Hadoop的NodeName进入安全模式，此时光执行hdfs dfsadmin -safemode leave命令语句没有效果（虽然显示Safe mode is OFF&#x…

hadoop1.2.1伪分布式搭建

0.使用host-only方式将Windows上的虚拟网卡改成跟Linux上的网卡在同一网段注意：一定要将widonws上的WMnet1的IP设置和你的虚拟机在同一网段，但是IP不能相同 1.Linux环境配置（windows下面的防火墙也要关闭） 1.1修改主…

Hive UDF自定义函数上线速记

0. 编写hive udf函数jar包略 1. 永久函数上线 1.1 提交jar包至hdfs 使用命令or浏览器上传jar到hdfs,命令的话格式如下 hdfs dfs -put [Linux目录] [hdfs目录] 示例: hdfs dfs -put /home/mo/abc.jar /tmp1.2 将 JAR 文件添加到 Hive 中注意hdfs路径前面要加上hdfs://na…

hive亿级数据导入ClickHouse并增量更新

项目场景： hive亿级数据导入ClickHouse，并每日导入 （技术工具看上文） hive中表结构： 数据量7.6亿 DROP TABLE IF EXISTS dwd_ipqc_online; CREATE EXTERNAL TABLE dwd_ipqc_online (MACH_ID string COMMENT 機…

HDFS 架构剖析

目录一、HDFS 架构整体概述二、HDFS 集群角色介绍 2.1 整体概述 2.2 主角色：namenode 2.3 从角色：datanode 2.4 主角色辅助角色： secondarynamenode 三、HDFS 重要特性 3.1 主从架构 3.2 分块存储机制 3.3 副本机制 3.4 …

Chapter6 数据仓库Hive

6.1数据仓库概念 6.1.1什么是数据仓库数据仓库：数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。数据仓库的目的：支持企业内部的商业分析和决策，让企业可以基于数据仓库的分析结果…

Chapter5 MapReduce

5.1概述 5.1.1分布式并行编程 MapReduce是一种分布式并行编程框架。在计算机发展史上的"摩尔定律"：CPU的性能每隔18个月就可以翻一番。然而，从2005年起，摩尔定律逐渐失效，因为CPU制作工艺存在上限、性能不可能无限提…

Hadoop 基本架构

什么是Hadoop？ Hadoop是Apache的一款开源框架，使用java语言编写，可以通过编写简单的程序来实现大规模数据集合的分布式计算。工作在Hadoop框架上的应用可以工作在分布式存储和计算机集群计算的环境上面。Hadoop具有高扩展性，其集…

Hbase过滤器详解与代码实现~

一、过滤器（Filter） 基础API中的查询操作在面对大量数据的时候是非常苍白的，这里Hbase提供了高级的查询方法：Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤，基于Hbase本身提供的三维有序&#xff…

Hive_Hive统计指令analyze table和 describe table

之前在公司内部经常会看到表的元信息的一些统计信息，当时非常好奇是如何做实现的。现在发现这些信息主要是基于 analyze table 去做统计的，分享给大家实现的效果某一个表中每个列的空值数量，重复值数量等，平均长度具体的指令…

【Hive-SQL】Hive Select 选择语句排除一列或多列

查看除了sample_date以外的所有字段信息 set hive.support.quoted.identifiersnone; select (sample_date)?. from test.table where sample_date20230713;查看除了sample_date 和 msgtype以外的所有字段信息 set hive.support.quoted.identifiersnone; select (sample_dat…

Hadoop的第二个核心组件：MapReduce框架第一节

Hadoop的第二个核心组件：MapReduce框架第一节一、基本概念二、MapReduce的分布式计算核心思想三、MapReduce程序在运行过程中三个核心进程四、如何编写MapReduce计算程序：（编程步骤）1、编写MapTask的计算逻辑2、编写ReduceTask的…

【hadoop运维】running beyond physical memory limits：正确配置yarn中的mapreduce内存

文章目录一. 问题描述二. 问题分析与解决1. container内存监控1.1. 虚拟内存判断1.2. 物理内存判断 2. 正确配置mapReduce内存2.1. 配置map和reduce进程的物理内存：2.2. Map 和Reduce 进程的JVM 堆大小 3. 小结一. 问题描述在hadoop3.0.3集群上执行hive3.1.2的任…

大数据技术之Hadoop：HDFS存储原理篇（五）

目录一、原理介绍 1.1 Block块 1.2 副本机制二、fsck命令 2.1 设置默认副本数量 2.2 临时设置文件副本大小 2.3 fsck命令检查文件的副本数 2.4 block块大小的配置三、NameNode元数据 3.1 NameNode作用 3.2 edits文件 3.3 FSImage文件 3.4 元素据合并控制参数 …

Apache Hive之数据查询

hive的语言元素

参考文档地址 http://www.hplsql.org/doc 数据类型可以在HPL/SQL程序中使用以下数据类型： 数据类型描述BIGINT / INT864位整数BINARY_DOUBLE双精度浮点数BINARY_FLOAT单精度浮点数BINARY_INTEGER32位整数BIT0、1或NULLBOOL / BOOLEAN真或假CHAR(n) / CHARACTER…

现成Hadoop配置，图文手把手交你

为了可以更加快速的可以使用Hadoop，便写了这篇文章，想尝试自己配置一下的可以参考从零开始配置Hadoop，图文手把手教你，定位错误资源 1.两台已经配置好的hadoop 2.xshellVmware 链接：https://pan.baidu.com/s/1oX35…

大数据组件系列-Hadoop每日小问

1、谈谈对HDFS的理解？HDFS这种存储适合哪些场景？ HDFS即Hadoop Distributed File System，Hadoop 分布式文件系统。它为的是解决海量数据的存储与分析的问题，它本身是源于Google在大数据方面的论文，GFS-->HDFS; HD…

【大数据存储与处理】1. hadoop单机伪分布安装和集群安装

0. 写在前面 0.1 软件版本 hadoop2.10.2 ubuntu20.04 openjdk-8-jdk 0.2 hadoop介绍 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个…

zookeeper/HA集群配置

1.zookeep配置 1.1 安装4台虚拟机 （1）按照如下设置准备四台虚拟机，其中三台作为zookeeper，配置每台机器相应的IP，hostname，下载vim，ntpdate配置定时器定时更新时间，psmisc&#xff…

Hadoop的第二个核心组件：MapReduce框架第二节

Hadoop的第二个核心组件：MapReduce框架第二节六、MapReduce的工作流程原理（简单版本）七、MapReduce中的序列化机制问题八、流量统计案例实现（序列化机制的实现） 六、MapReduce的工作流程原理（简单版本&…

启动hadoop并测试问题合集

首先hadoop和jdk都已经装好了的，如下： 然后相应的这五个配置文件也配好了： 然后格式化了： cd /opt/hadoop/bin/ sudo ./hdfs namenode -format （显示这个就为成功，很长的，慢慢找） …

正中优配：收盘集合竞价规则？

收盘集合竞价规矩是指在股票、期权等买卖中，在收市前的最后数分钟内进行的集合竞价买卖。该买卖准则是我国股票商场中的一种特殊买卖方法，其主要意图是为了平衡商场供求关系，进步行情的合理性和公正性。下面从多个视点进行分析。一、收盘集…

hive排序

mr中不指定reduce时默认是1,而hive会自动调节reduce数量,hive的切片是256,多少切片多少reduce. 1.order by 全局排序,只会有一个reduce 2.reduce 内部排序可以指定reduce个数(分区个数) 1.sort by 每个reduce的内部排序 2.distribute by 分区,默认hash规则 3.cluster …

使用Apache Doris自动同步整个 MySQL/Oracle 数据库进行数据分析

Flink-Doris-Connector 1.4.0 允许用户一步将包含数千个表的整个数据库（MySQL或Oracle ）摄取到Apache Doris（一种实时分析数据库）中。通过内置的Flink CDC，连接器可以直接将上游源的表模式和数据同步到Apache Doris&…

大数据课程L4——网站流量项目的Hive离线批处理

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州 ▲ 本章节目的 ⚪ 掌握网站流量项目的 Hive 的占位符与文件的调用； ⚪ 掌握网站流量项目的 Hive 离线批处理过程； ⚪ 掌握网站流量项目的定时任务改造Hive离线处理过程；一、Hive 的占位符与文件的调用 …

hive葵花宝典：hive函数大全

用hadoop-eclipse-plugins-2.6.0来配置hadoop-3.3.6

hadoop-eclipse-plugins这个插件是Eclipse中Hadoop的插件，但在寻找这个插件的过程中，突然发现插件的版本最好与hadoop的版本的一样但我所能找到的最新版是3.3.1的，试了试，运行有问题，不能用然后又试了试自己搭对应…

搭建Hadoop集群并实现hdfs上的crud操作

搭建Hadoop集群需要以下步骤： 1. 安装Java环境和Hadoop软件包在所有节点上安装Java环境和Hadoop软件包； 以下是详细的步骤： 在所有节点上安装Java环境和Hadoop软件包。如果您使用的是Ubuntu，可以使用以下命令安装Java环境和H…

Hadoop-Hive

1. hive安装部署 2. hive基础 3. hive高级查询 4. Hive函数及性能优化 1.hive安装部署解压tar -xvf ./apache-hive-3.1.2-bin.tar.gz -C /opt/soft/ 改名mv apache-hive-3.1.2-bin/ hive312 配置环境变量：vim /etc/profile #hive export HIVE_HOME/opt/soft/hive…

hive 静态分区与动态分区（笔记）

目录前言： 静态分区： 1.创建分区 2.删除分区 3.在分区中插入数据 4.查看分区表数据动态分区 ： 2.查看v表源数据 3.以emp_name为动态字段数据抽取到employee表总结前言： Hive中的分区就是把一张大表的数据按照业务需要…

Hive【非交互式使用、三种参数配置方式】

前言今天开始学习 Hive，因为毕竟但凡做个项目基本就避不开用 Hive ，争取这学期结束前做个小点的项目。第一篇博客内容还是比较少的，环境的搭建配置太琐碎没有写。 Hive 常用使用技巧交互式使用就是我们正常的进入 hive 命令行下的使用…

Hdoop伪分布式集群搭建

文章目录 Hadoop安装部署前言1.环境2.步骤3.效果图具体步骤（一）前期准备（1）ping外网（2）配置主机名（3）配置时钟同步（4）关闭防火墙 （二&#xff09…

Apache Hive概述，模拟实现Hive功能，Hive基础架构

1、Apache Hive 概述 1.1、分布式SQL计算对数据进行统计分析，SQL是目前最为方便的编程工具。大数据体系中充斥着非常多的统计分析场景所以，使用SQL去处理数据，在大数据中也是有极大的需求的。 MapReduce支持程序开发（Java…

flink1.13.2版本的对应的hive的Hcatalog的使用记录

依赖版本要求<hive.version>3.1.2</hive.version><flink.version>1.13.2</flink.version><hadoop.version>3.3.2</hadoop.version><scala.binary.version

【大数据】Doris 构建实时数仓落地方案详解（二）：Doris 核心功能解读

Doris 构建实时数仓落地方案详解（二）：Doris 核心功能解读 1.Doris 发展历程2.Doris 三大模型3.Doris 数据导入4.Doris 多表关联5.Doris 核心设计6.Doris 查询优化7.Doris 应对实时数仓的痛点 1.Doris 发展历程 Apache Doris 是由百度研发并…

大数据学习1.5-单机Hadoop

1.修改主机信息 vi /etc/hosts 2.修改信息如下(这里第三位一定是自己的IP 每个人都不一样) 192.168.216.140 hadoop01 192.168.216.141 hadoop02 192.168.216.142 hadoop033.修改Hadoop配置信息-1进入配置信息文件 cd /usr/local/hadoop/hadoop-2.7.1/etc/hadoop/ 4.修改Had…

Hadoop源码阅读（一）：NameNode启动

说明： 1.Hadoop版本：3.1.3 2.阅读工具：IDEA 2023.1.2 3.源码获取：Index of /dist/hadoop/core/hadoop-3.1.3 (apache.org) 4.工程导入：下载源码之后得到 hadoop-3.1.3-src.tar.gz 压缩包，在当前目录打开Pow…

Hive 数据仓库介绍

目录编辑一、Hive 概述 1.1 Hive产生的原因 1.2 Hive是什么？ 1.3 Hive 特点 1.4 Hive生态链关系二、Hive架构 2.1 架构图 2.2 架构组件说明 2.2.1 Interface 2.2.1.1 CLI 2.2.1.2 JDBC/ODBC 2.2.1.3 WebUI 2.2.2 MetaData 2.2.3 MetaStore 2.2…

Hadoop的HDFS高可用方案

一、Hadoop高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用，两者的实现基本类似，但 HDFSNameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多，所以它的实现也更加复杂 1、HDFS系统高可用简介…

任务长期不释放和占用单节点持续的cpu，导致hivesever2本身内存泄漏造成

任务长期不释放和占用单节点持续的cpu，导致hivesever2本身内存泄漏造成产生的原因在于： 查询过于复杂或者数据量过大：当有复杂的查询或处理大量数据的请求时，HiveServer2可能会出现高负载。这可能涉及大量的计算、IO操作或涉及大…

Hadoop源码阅读（二）：DataNode启动

说明： 1.Hadoop版本：3.1.3 2.阅读工具：IDEA 2023.1.2 3.源码获取：Index of /dist/hadoop/core/hadoop-3.1.3 (apache.org) 4.工程导入：下载源码之后得到 hadoop-3.1.3-src.tar.gz 压缩包，在当前目录打开Pow…

Hive 优化建议与策略

目录编辑一、Hive优化总体思想二、具体优化措施、策略 2.1 分析问题得手段 2.2 Hive的抓取策略 2.2.1 策略设置 2.2.2 策略对比效果 2.3 Hive本地模式 2.3.1 设置开启Hive本地模式 2.3.2 对比效果 2.3.2.1 开启前 2.3.2.2 开启后 2.4 Hive并行模式 2.5 Hive…

迁移 sqoop测试环境

1.参考 CentOS7服务器命令行配置静态IP_centos7网络配置静态ip命令_智汇探长的博客-CSDN博客 CentOS7服务器命令行配置静态IP_centos7网络配置静态ip命令_智汇探长的博客-CSDN博客静态ip地址配置 2. 彻底理解hostname---四种方法修改hostname值_fangupad的博客-CSDN博客…

大数据之Hive(三)

分区表概念和常用操作将一个大表的数据按照业务需要分散存储到多个目录，每个目录称为该表的一个分区。一般来说是按照日期来作为分区的标准。在查询时可以通过where子句来选择查询所需要的分区，这样查询效率会提高很多。 ①创建分区表 hive (defau…

Sqoop（SQL to Hadoop）数据传输工具：用于在Hadoop和关系数据库服务器之间传输数据

Sqoop（SQL to Hadoop）是一个Apache软件基金会下的开源工具，用于在Hadoop和关系数据库服务器之间传输数据。它的主要目的是简化将数据从关系数据库（如MySQL、Oracle、SQL Server等）导入到Hadoop生态系统（如H…

Hive部署,hive客户端

1、Hive部署 Hive是分布式运行的框架还是单机运行的？ Hive是单机工具，只需要部署在一台服务器即可。Hive虽然是单机的，但是它可以提交分布式运行的MapReduce程序运行。 1.1、规划我们知道Hive是单机工具后，就需要准备一台服务…

hive with tez:无法从链中的任何提供者加载aws凭据

环境信息 hadoop 3.1.0 hive-3.1.3 tez 0.9.1 问题描述可以从hadoop命令行正确地访问s3a uri。我可以创建外部表和如下命令： create external table mytable(a string, b string) location s3a://mybucket/myfolder/; select * from mytable limit 20; 执行正…

hive表字段跟字段对应的值转为json数组

第一种方式直接用hive 函数实现 select collect_list(named_struct(id,id,name,name)) from table 此方式不适用于字段数量过多的情况（比较麻烦） 第二种方式写udf 函数 import org.apache.hadoop.hive.ql.exec.Description; import org.apache.had…

flink-1.15.0集群部署-HA

11111 设置主机名 hosts 免密登录环境变量配置文件启动与停止系统与版本

四个BY的区别 HIVE中

在Hive中，有四个BY比较：Order By、Sort By、Distribute By和Cluster By。 Order By是全局排序，只有一个Reducer。它可以按照升序（ASC）或降序（DESC）对结果进行排序。Order By子句通常用在SELECT语…

0401hive入门-hadoop-大数据学习.md

文章目录 1 Hive概述2 Hive部署2.1 规划2.2 安装软件 3 Hive体验4 Hive客户端4.1 HiveServer2 服务4.2 DataGrip 5 问题集5.1 Could not open client transport with JDBC Uri 结语 1 Hive概述 Apache Hive是一个开源的数据仓库查询和分析工具，最初由Facebook开发&…

hive分区表的元数据信息numRows显示为0

创建分区表 CREATE TABLE `dept_partition`(`deptno` int, `dname` string, `loc` string) PARTITIONED BY (

Hive中窗口函数的基本语法和示例

Hive是一个基于Hadoop的数据仓库解决方案，它允许你执行SQL查询和分析大规模数据集。Hive支持窗口函数，用于在查询中执行各种分析操作，例如排名、累积、分组和聚合，以及许多其他分析任务。窗口函数使你能够在查询结果集的特定窗口&…

hdfs数据丢失数据块block missing问题排查解决

组件:HDFS/cube-hdfs-1 告警内容:NameNode Blocks Health:Total Blocks:[13352317], Missing Blocks:[1] 开始时间:2023-10-02 08:05:12 持续时间:8小时44分钟 hadoop会在6个小时候自动检测并修复主动发现阶段： 当数据块损坏后，DN节点执行directorysc…

【kerberos】win环境下kerberos认证工具类

本案例在测试中很实用噢！ 上代码： import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.security.UserGroupInformation; import java.io.IOException;public class KerberosProvider {public static final String krb5Conf &quo…

Apache Hive安装部署详细图文教程

目录一、Apache Hive 元数据 1.1 Hive Metadata 1.2 Hive Metastore 二、Metastore 三种配置方式 2.1 内嵌模式 2.2 本地模式 2.3 远程模式三、Hive 部署实战 3.1 安装前准备 3.2 Hadoop 与 Hive 整合 3.3 远程模式安装 3.3.1 安装 MySQL 3.3.2 …

CDH6.3.2 的pyspark读取excel表格数据写入hive中的问题汇总

需求：内网通过Excel文件将数据同步到外网的CDH服务器中，将CDH中的文件数据写入hive中。 CDH版本为：6.3.2 spark版本为：2.4 python版本：2.7.5 操作系统：CentOS Linux 7 集群方式：yarn-cluster …

hive数据表定义

分隔符 CREATE TABLE emp( userid bigint, emp_name array<string>, emp_date map<string,date>, other_info struct<deptname:string, gender:string>) ROW FORMAT DELIMITED FIELDS TERMINATED BY \t COLLECTION ITEMS TERMINATED BY , MAP KEYS TERMINAT…

hive数据load到redis

使用shell脚本来实现，脚本如下： #!/bin/bash# 定义变量 pwd/root day$(date %Y%m%d) before_day$(date -d -1day %Y%m%d) log_file$pwd/load_redis_$day.log# 创建目录 mkdir -p $pwd/$day && echo "$(date %Y-%m-%d %H:%M:%S)----$pwd/$d…

Hadoop----Azkaban的使用与一些报错问题的解决

1.因为官方只放出源码，并没有放出其tar包，所以需要我们自己编译，通过查阅资料我们可以使用gradlew对其进行编译，还是比较简单，然后将里面需要用到的服务文件夹进行拷贝，完善其文件夹结构，通常会…

kyuubi的查询遇到的问题NoneType‘ object has no attribute ‘_getitem_‘

对一个空的查询结果进行索引操作：如果你执行了一个查询语句，但是返回的结果为空，那么在尝试对结果进行索引访问时就会触发此错误。在进行索引操作之前，应该先检查查询的结果是否为空，以避免此错误。还有可能是cpu过高…

数据库：Hive转Presto（二）

继续上节代码，补充了replace_func函数， import re import os from tkinter import *class Hive2Presto:def __int__(self):self.t_funcs [substr, nvl, substring, unix_timestamp] \[to_date, concat, sum, avg, abs, year, month, ceiling, floor]s…

【创新项目探索】大数据服务omnidata-hive-connector介绍

omnidata-hive-connector介绍 omnidata-hive-connector是一种将大数据组件Hive的算子下推到存储节点上的服务，从而实现近数据计算，减少网络带宽，提升Hive的查询性能。目前支持Hive on Tez。omnidata-hive-connector已在openEuler社区开源。 …

一百八十五、大数据离线数仓完整流程——步骤四、在Hive的DWD层建动态分区表并动态加载数据

一、目的经过6个月的奋斗，项目的离线数仓部分终于可以上线了，因此整理一下离线数仓的整个流程，既是大家提供一个案例经验，也是对自己近半年的工作进行一个总结。二、数仓实施步骤 （四）步骤四、在Hive的…

Hive实战-表创建

Hive实战-表创建使用ORC压缩储存空间使用ORC压缩储存空间什么是ORC？ ORC的全称是(Optimized Row Columnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式。 ORC是列式存储，有多种文件压缩方式，并且有着很高的压缩比。文件…

【hive】—原有分区表新增加列(alter table xxx add columns (xxx string) cascade；)

项目场景： 需求：需要在之前上线的分区报表中新增加一列。实现方案： 1、创建分区测试表并插入测试数据 drop table test_1; create table test_1 (id string, score int, name string ) partitioned by (class string) row format delimit…

Hadoop的安装和使用，Windows使用shell命令简单操作HDFS

1，Hadoop简介 Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性。高可靠性。高效性。高可扩展性。高容错性。成本低。运行在Linux平台上。支持多种编程…

hive中的索引

使用索引前的配置在使用Hive索引之前，需要进行一些配置，以确保索引能够正常工作。以下是一些常见的配置步骤： Hive配置在Hive中启用索引功能，需要在Hive配置文件（hive-site.xml）中设置以下属性&#x…

Hive【Hive（五）函数-高级聚合函数、炸裂函数】

高级聚合函数多进一出（多行输入，一个输出） 普通聚合函数：count、sum ... 1）collect_list（）：收集并形成 list 集合，结果不去重 select sex,collect_list(job) from e…

Hive【Hive（六）窗口函数】

窗口函数（window functions） 概述定义窗口函数能够为每行数据划分一个窗口，然后对窗口范围内的数据进行计算，最后将计算结果返回给该行数据。语法窗口函数的语法主要包括窗口和函数两个部分。其中窗口用于定义计算范围…

hdfs dfsadmin -safemode无法退出安全模式

退出安全模式第一种：正常退出安全模式 hdfs dfsadmin -safemode leave如提示Safe mode is OFF，那就说明退出成功，但有时候这个命令也没办法退出安全模式，就需要使用强制退出第二种：强制退出安全模式 hdfs dfsadmin …

freeipa server副本同步中断，两主节点数据不一致

/var/log/messages 和/var/log/dirsrv/slapd-testhadoop-COM 日志都出现以下日志: If replication stops, the consumer may need to be reinitialized. [27/Jun/2023:05:15:09.469361922 0800] - ERR - NSMMReplicationPlugin - changelog program - repl_plugin_name_cl - a…

拦截器以及统一功能的实现

目录引言实现一个简单的拦截器拦截器小结统一访问前缀统一异常处理统一返回参数 ControllerAdvice 引言 HandlerInterceptor是Spring MVC框架提供的一个拦截器接口，它用于对请求进行拦截和处理。在Spring MVC中，拦截器可以用于实现一些通用的功能…

项目知识点总结-过滤器-MD5注册-邮箱登录

（1）过滤器使用过滤器验证用户是否登录 /** * Title: NoLoginFilter.java * Package com.qfedu.web.filter * Description: TODO(用一句话描述该文件做什么) * author Feri * date 2018年5月28日 * version V1.0 */ package com.gdsdx…

Hadoop3教程（二十八）：（生产调优篇）NN、DN的多目录配置及磁盘间数据均衡

文章目录 （148）NN多目录配置（149）DataNode多目录配置及磁盘间数据平衡磁盘间数据均衡参考文献 （148）NN多目录配置 NN多目录的意思是，本地目录可以配置成多个，且每个目录存放内容相…

hive 知识总结

编辑社区公告教程下载分享问答JD 登录注册 01 hive 介绍与安装 1 hive介绍与原理分析 Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL&#xf…

Hadoop----Hive的使用

1.数据库的安装，通过网上教程，使用yum进行安装即可，一定删除干净，下载与Hive版本对应的MySQL。 2.Hive的安装，在官网下载.tar.gz包解压至对应目录（/export/server），可以根据网上教程…

一、软件工程概述+练习题

文章目录软件工程复习一、概述1.常见考点1.1 什么是软件？软件的特点 1.2 什么是软件危机？它的具体表现是什么？软件危机的概念软件危机的内容具体表现软件危机的原因消除软件危机的途径 2.软件工程的三要素软件工程的定义 3. 软件生存周期4.…

大数据技术学习笔记（三）—— Hadoop 的运行模式

目录 1 本地模式2 伪分布式模式3 完全分布式模式3.1 准备3台客户机3.2 同步分发内容3.2.1 分发命令3.2.2 执行分发操作 3.3 集群配置3.3.1 集群部署规划3.3.2 配置文件说明3.3.3 修改配置文件3.3.4 分发配置信息 3.4 SSH无密登录配置3.4.1 配置ssh3.4.2 无密钥配置 3.5 单点启动…

Hadoop3教程（三十）：（生产调优篇）纠删码

文章目录 （155）纠删码原理纠删码原理纠删码相关命令纠删码策略解释 （156）纠删码案例实操参考文献 （155）纠删码原理纠删码原理默认情况下，一个文件在HDFS里会保留3个副本，以此提高…

Kali Linux 安装搭建 hadoop 平台调用 wordcount 示例程序详细教程

步骤一： 目标：*安装虚拟机，在自己虚拟机上完成hadoop的伪分布式安装。（安装完成后要检查）* 1）前期环境准备：（虚拟机、jdk、ssh） 2）SSH相关配置安装SSH Se…

配置Hive使用Spark执行引擎

配置Hive使用Spark执行引擎 Hive引擎概述兼容问题安装SparkSpark配置Hive配置HDFS上传Spark的jar包执行测试速度对比 Hive引擎概述在Hive中，可以通过配置来指定使用不同的执行引擎。Hive执行引擎包括：默认MR、tez、spark MapReduce引擎： 早…

爬取微博热榜并将其存储为csv文件

🙌秋名山码民的主页 😂oi退役选手，Java、大数据、单片机、IoT均有所涉猎，热爱技术，技术无罪 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 获取源码，添加WX 目录前言1.…

Hadoop3教程（三十六）：（生产调优篇）企业开发场景中的参数调优案例概述

文章目录 （170）企业开发场景案例HDFS参数调优MapReduce参数调优YARN参数调优执行程序参考文献 （170）企业开发场景案例这章仅做兴趣了解即可。需求：从1G数据中，统计每个单词出现次数。服务器3台&#x…

hive 问题解决 Class path contains multiple SLF4J bindings

hive输入命令时出现日志冲突提示（问题不复杂，是个warn，强迫症解决，做项目经常遇到，项目里是处理maven。这里处理方法思路类似。） 问题： SLF4J: Class path contains multiple SLF4J bindings. …

mac 版hadoop3.2.4 解决 Unable to load native-hadoop library 缺失文件

mac 版hadoop3.2.4或其他版本 Unable to load native-hadoop library 缺失文件 Native 包报错缺失： 1. hadoop-3.2.4/lib/native里加*.dylib 2. hadoop-3.2.4/etc/hadoop/hadoop-env.sh 加或修改 export HADOOP_OPTS"-Djava.library.path/Users/lvan/Documen…

【大数据】hadoop安装部署（学习笔记）

一、集群组成概述 Hadoop集群包括两个集群：HDFS集群、YARN集群两个集群逻辑上分离、通常物理上在一起两个集群都是标准的主从架构集群 HDFS集群（分布式存储）： 主角色：NameNode从角色：DataNode主角色…

大数据学习(4)-hive表操作

&&大数据学习&& 🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门 💖如果觉得博主的文章还不错的话，请点赞👍收藏⭐️留言📝支持一下博>主哦&#x…

hive 之select 中文乱码

此处的中文乱码和mysql的库表编码 latin utf 无关。直接上案例。有时候我们需要自定义一列，有时是汉字有时是字母，结果遇到这种情况了。说实话看到这真是糟心。这谁受得了。单独select 没有任何问题。这是怎么回事呢？ 经过一番检查&…

【大数据】HDFS概述（学习笔记）

一、文件系统、分布式文件系统 1、传统文件系统文件系统是一种存储和组织数据的方法，实现了数据的存储、分级组织、访问和获取等操作。文件系统使用树形目录的抽象逻辑概念代替了硬盘等物理设备使用数据块的概念。数据：指存储的内容本身。这些数据…

hive抽取mysql里的表，如果mysql表没有时间字段如何做增量抽取数据

如果MySQL表中没有时间字段，你可以通过其他方式实现增量抽取数据，以下是一些常见的方式： 使用自增主键：如果MySQL表中有自增主键，你可以记录上一次抽取数据时最大的主键值（即上一次抽取数据的结束位置&…

理解数据仓库中星型模型和雪花模型

在数据仓库的建设中，一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。 （一）星型模型图示如下： 星型模是一种多维的数据关系，它由一个事实表和一组维表组成。每个维表都有一…

如何使用Spark的local模式远程读取Hadoop集群数据

我们在windows开发机上使用spark的local模式读取远程hadoop集群中的hdfs上的数据，这样的目的是方便快速调试，而不用每写一行代码或者一个方法，一个类文件都需要打包成jar上传到linux上，再扔到正式的集群上进行测试，像功…

Hue+Hive临时目录权限不够解决方案

[sizemedium]安装[urlhttp://qindongliang.iteye.com/blog/2212619]Hue[/url]后，可能会分配多个账户给一些业务部门操作hive，虽然可以正常写SQL提交任务，但是由于不同账户在生成MR任务时写入的临时文件，导致临时目录权限改变&…

开源大数据索引项目hive-solr

github地址：https://github.com/qindongliang/hive-solr 欢迎大家fork和使用关于这个项目的介绍，请参考散仙前面的文章： http://qindongliang.iteye.com/blog/2283862 最新更新： （1）添加了对solrcl…

Hadoop+Hbase集群数据迁移问题

[sizemedium] 数据迁移或备份是任何一个公司都有可能到遇到的一件事，有关hbase数据迁移，官网也给出了几种方案，这里比较推荐使用hadoop distcp这种方式迁移。比较适合大数据量或者跨版本集群之间的数据迁移服务。版本 Hadoop2.7.1 Hbase0.98.…

如何监控你的Hadoop+Hbase集群？

前言监控hadoop的框架有不少，如CDH的CM组件和Ambari都可以监控他们自己的hadoop，但是它不能监控apache的hadoop，如果你是使用原生的Apache Hadoop，那么也没关系，原生的Hadoop天生就提供了非常详细的对接Ganglia的jm…

用 Hadoop 进行分布式并行编程, 第 3 部分

一前言在本系列文章的第一篇：用 Hadoop 进行分布式并行编程，第 1 部分： 基本概念与安装部署中，介绍了 MapReduce 计算模型，分布式文件系统 HDFS，分布式并行计算等的基本原理, 并且详细介绍了如何安装…

Hadoop问题笔记之五问五答-日志配置

[b][colorgreen][sizelarge]接着上次，散仙所写的[urlhttp://qindongliang.iteye.com/blog/2200400]文章[/url]，在Win7上的eclipse中使用Apache Hadoop2.2.0对接CDH5.3的Hadoop2.5调试时，很顺利，所有的问题全部KO，今天散…

用 Hadoop 进行分布式并行编程, 第 2 部分

前言在上一篇文章：“用 Hadoop 进行分布式并行编程第一部分基本概念与安装部署”中，介绍了 MapReduce 计算模型，分布式文件系统 HDFS，分布式并行计算等的基本原理, 并且详细介绍了如何安装 Hadoop，如何运行基于 …

2021年施工升降机司机(建筑特殊工种)考试资料及施工升降机司机(建筑特殊工种)证考试

题库来源：安全生产模拟考试一点通公众号小程序安全生产模拟考试一点通：施工升降机司机(建筑特殊工种)考试资料是安全生产模拟考试一点通生成的，施工升降机司机(建筑特殊工种)证模拟考试题库是根据施工升降机司机(建筑特殊工种)最新版教材汇…

彷徨 | MapReduce框架设计思想图

MapReduce框架设计思想图

彷徨 | HDFS客户端API编程基本java操作 | 二

一 : API编程查看文件内容先上传一文件到HDFS hadoop fs -put ./zhang / 查看文件是否传上去 hadoop fs -ls / 用命令行客户端查看文件内容用API编程查看文件内容代码 : // 读取HDFS中的文件的内容Testpublic void testReadContent() throws Exception {Configuration…

程序开发经验分享总结：计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测地铁爬虫地铁客流量分析大数据毕业设计大数据毕设

开发技术 Spark Hadoop Python爬虫 Vue.js SpringBoot 机器学习/深度学习人工智能创新点 Spark大屏可视化爬虫预测算法功能 1、登录注册界面，用户登录注册，修改信息 2、管理员用户： （1）查看用户信息&#x…

程序思路分享计算机毕业设计hadoop+spark天气预测系统天气可视化深度学习天气大数据大数据毕业设计大数据毕设

开发技术 python爬虫、spark、hadoop、sklearn、深度学习模型、echarts、springboot 运行截图

大数据、机器学习和人工智能未来发展的8个因素

人工智能和机器学习以及不断增加的数据量正在改变当前的商业和社会格局。这些领域中出现了许多需要CIO注意的主题和问题。日前，OReilly 公司在伦敦Strata举办了一个为期数天的数据会议，与会者为此更好地了解大数据、机器学习(ML)和人工智能的发展方向。…

大数据技术五大在线Hadoop课程系统学习线路

如果你正在学习大数据技术，希望探索的Hadoop框架并寻找最棒的课程，那么你算是找对地方了！在本文中，我们将分享一些最出色的Hadoop的课程，希望能够帮助各位把握大数据领域令人兴奋的发展机遇，同时引导你了解…

大数据处理为何选择Spark，而不是Hadoop

Spark是一个用来实现快速而通用的集群计算的平台。在速度方面，Spark扩展了广泛使用的MapReduce计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。一.基础知识 1.Spark spark是一个用来实现快速而通用的集群计算的平台。在…

九种引人瞩目的开源大数据技术

1.Apache Hadoop Apache hadoop是一个开源的分布式计算框架，最初由Doug为支持其开源Web搜索引擎Nutch所创立。通过集成MapReduce技术，Hadoop将大数据分布到多个数据节点上进行处理。Hadoop遵循Apache 2.0许可证，可以轻松处理结构化、半结构化…

数据控使用Hadoop的三种最常用方式

Hadoop使用的一般模式 Hadoop最初的构想是为像Yahoo、Google、Facebook等这样的公司以非常低的成本来解决大量数据的存储问题。现在，它正被越来越多地引入企业环境中处理新不同数据类型。机器生成的数据、传感器数据、社交数据、网络日志等数据类型呈指数级增长&am…

Hadoop、Hive、Spark 之间是什么关系?

大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤&#xff0…

你应该知道的大数据领域12大动向

Actian发布VectorH 5.0数据库 Actian首席营销官托尼卡瓦诺(Tony Kavanaugh，图左)与Actian合作伙伴销售副总裁戴夫休格曼(Dave Sugarman)在近期召开的2016年Hadoop峰会上交谈。 Actian本周发布了Actian Vector in Hadoop(VectorH)5.0，这是该公司现已与Ap…

Spark大数据处理系列之Machine Learning

Spark的机器学习库(Spark MLlib)，包括各种机器学习算法：协同过滤算法、聚类算法、分类算法和其他算法。在前面的《Spark大数据处理》系列文章，介绍Apache Spark框架，介绍如何使用Spark SQL库的SQL接口去访问数据，使用S…

谈谈对大数据的八个观点分析

越来越多程序员也涌入大数据行业，但是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的，最常引用Victor的4V理论，大量(Volume)，快速(Velocity)，种类多(Variety)，价值(Value)，但究竟多大…

大数据告诉你什么样的密码最牢靠

对于密码，我们已经知道了不少。比如，多数密码短小、简单、且容易破解。但我们对一个人选择某个密码的心理原因却所知甚少。在本文中，我们分析了包括企业CEO、科学家在内的1000万人们的密码选择，来看看密码背后所揭示的意义。你脑…

五年后，大数据会怎样改变我们的生活

全球大数据和数据分析领导企业Teradata天睿公司（纽交所上市公司，2007年从母公司 NCR 公司剥离独立）每年举办一次全球用户大会（Teradata Partners），我们讨论大数据不过三五年的事情，但是这场业内…

大数据日志收集框架之Flume入门

Flume是Cloudrea公司开源的一款优秀的日志收集框架，主要经历了两个大的版本，分别是 Flume-OG Flume-NG OG是0.9.x的版本，依赖zookeeper，角色职责不够单一， NG是新版本指1.x的版本，官网解释它更轻量级&a…

Kakfa集群搭建

[sizemedium] 先来整体熟悉下Kafka的一些概念和架构（一）什么是Kafka？ Kafka是由LinkedIn开发并开源的一个分布式消息系统，因其分布式和高吞吐率被广泛应用，现在已经在Hadoop和Spark等大数据的生态系统中成为一个必不可…

Hive使用ORC格式存储离线表

[sizemedium] 在大数据时代，列式存储变得越来越流行了，当然并不是说行式存储就没落了，只是针对的场景不同，行式存储的代表就是我们大多数时候经常用的数据库，比较适合数据量小，字段数目少，查询性…

Spark架构模型介绍

[sizemedium]集群概述：（一）组件 spark应用作为一系列独立的进程运行在集群上，通过SparkContext来协调，这个对象一般在我们的main程序里面，通常称为驱动程序，特别的，为了能够在集群上…

Spark SQL+Hive历险记

基础依赖环境 Apache Hadoop2.7.1 Apache Spark1.6.0 Apache Hive1.2.1 Apache Hbase0.98.12 （1）提前安装好scala的版本，我这里是2.11.7 （2）下载spark-1.6.0源码，解压进入根目录编译 &#xff08…

hive on spark 测试

[sizemedium] 基础环境：Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0 Apache Pig0.15.0 Apache oozie4.2.0 Apache Spark1.6.0 Cloudrea Hue3.8.1 经测试，spark1.6.0和spark1.5.x集成…

Hive集成Tez让大象飞起来

[img]http://dl2.iteye.com/upload/attachment/0114/5700/de4b9062-7d61-3ea5-995d-5ae35deb61c0.jpg[/img][sizemedium] 基础环境Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0 Apache Pig0.15.0 Apache oozie…

Apache Phoenix安装使用

[sizemedium] 前提HadoopHbase集群已经能够正常运转，如果不知道如何安装，请查看如下两篇文章： Hadoop安装 [url]http://qindongliang.iteye.com/blog/2222145[/url] Hbase安装 [url]http://qindongliang.iteye.com/blog/2095733[/url]框架版本…

一次bug死磕经历之Hbase堆内存小导致regionserver频繁挂掉

环境如下： Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 JDK1.7 Ant1.9.5 Maven3.0.5 最近在测Hbase的压缩，Hadoop安装了lzo和snappy，插入50条文本数据，每条数据大约4M，来看他们…

Win7上eclipse无插件提交Hadoop2.2分布式作业

[colorgreen][sizelarge]一直以来，都以为，想在Win上提交hadoop集群的作业，必须得在eclipse上安装hadoop-eclipse-plugin插件才可以提交，但最近与同事交流，发现其实，不一定必须安装hadoop的eclipse插件&…

Hadoop2.7.1和Hbase0.98添加LZO压缩

[sizemedium] 1，执行命令安装一些依赖组件 yum install -y hadoop-lzo lzo lzo-devel hadoop-lzo-native lzop 2， 下载lzo的源码包并解压wget [url]http://www.oberhumer.com/opensource/lzo/download/lzo-2.09.tar.gz[/url] tar -zxvf lzo-2.09.tar.gz …

如何在Centos6.5下部署Hadoop2.2的完全分布式集群

[colorolive][sizelarge]散仙在上篇文章中，已经讲述了部署Hadoop2.2伪分布式的步骤，那么今天，我们来看下，如何在Centos6.5下，部署完全分布式集群。下面先来看下具体的系统环境 [table] |序号|名称|描述 |1|系统环境Ce…

如何在win7下的eclipse中以local模式调试Hadoop2.2.0的程序

[colorolive][sizelarge]在上一篇博文中，散仙已经讲了Hadoop的单机伪分布的部署，本篇，散仙就说下，如何eclipse中调试hadoop2.2.0,如果你使用的还是hadoop1.x的版本，那么，也没事，散仙在以前的博客…

如何在CentOS6.5下编译64位的Hadoop2.x

[colorgreen][sizelarge]hadoop2.x在apache官网直接下载的并没有64位直接能用的版本，如果我们想在64位系统使用，那么就需要重新编译hadoop，否则直接使用32位的hadoop运行在64位的系统上，将会出现一些库不兼容的异常。如下图所示&a…

诡异的SSH免密失效

[sizemedium] 今天在开发环境，重启了下hadoop，发现log里面竟然打出，需要让重新输入本机器密码的提示，仔细查看，发现仅仅本机需要密码，其他的几台机器正常，碰到这种问题，一般都是SSH免…

Hbase设置Snappy压缩测试

[sizemedium] 在DT大数据时代，海量数据的存储和分析是一个巨大的挑战，给我们的hadoop或者hbase集群添加数据压缩的能力，是必不可少的，通过压缩我们不但能节约磁盘空间，而且也能节省集群间网络带宽的损耗，从…

设置Hadoop+Hbase集群pid文件存储位置

有时候，我们对运行几天或者几个月的hadoop或者hbase集群做停止操作，会发现，停止命令不管用了，为什么呢？ 因为基于java开发的程序，想要停止程序，必须通过进程pid来确定，而hadoop和hb…

Spark入门之WordCount

[img]http://dl2.iteye.com/upload/attachment/0111/4770/079b7965-40fb-318c-8c35-cd5d6aa03c83.png[/img][sizelarge]环境: Hadoop版本：Apache Hadoop2.7.1Spark版本：Apache Spark1.4.1 核心代码：[/size][img]http://dl2.iteye.com/upload/…

Hadoop的Map Sied Join

[b][colorolive][sizelarge]散仙，在有关Hadoop的上篇博客里，给出了基于Reduce侧的表连接，今天，散仙，就再来看下如何在Map侧高效完成的join，因为在reduce侧进行join在shuffle阶段会消耗大量的时间&#xff0…

Hadoop+Maven项目打包异常

[sizelarge]先简单说下业务：有一个单独的模块，可以在远程下载Hadoop上的索引，然后合并压缩，最后推送到solr服务器上原来使用的是Ant打包，外部的jar是在执行主体的jar时cp进环境变量的，所以没有出现今天要说…

如何使用Hadoop的Reduce Side Join

[b][colorgreen][sizelarge]我们都知道在数据库里，多个表之间是可以根据某个链接键进行join的，这也是数据库的范式规范，通过主外键的关联，由此来减少数据冗余，提高性能。当然近几年，随着NOSQL的兴起&#x…

大数据学习笔记之一分布式文件系统HDFS

1 大数据学习笔记之一分布式文件系统HDFS 1.1 Hadoop安装 Hadoop Web http://hadoop.apache.org/ Hadoop安装教程 http://dblab.xmu.edu.cn/blog/285/ Eclipse安装 https://jingyan.baidu.com/article/ac6a9a5e2f1a7a2b653eac3f.html 1.2 Hadoop HDFS学习学习教程 http:/…

Spark历险记之编译和远程任务提交

Spark简介 Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处，Spark…

Hadoop高可用集群（HA）一键启动脚本

高可用集群启动时，需要分别在每个节点上都执行zkServer.sh start启动zookeeper，这个过程比较麻烦，并且当我们节点增多时，这个过程无疑不增加了我们的工作量，因此我们可以写一个一键启动所有节点zookeeper的脚本脚本实…

Hadoop3教程（一）：Hadoop的定义、组成及全生态概览

文章目录 （1）定义1.1 发展历史1.2 三大发行版本1.3 Hadoop的优势1.4 Hadoop的组成 （13）HDFS概述（14）Yarn架构（15）MapReduce概述（16） HDFS、YARN、MapReduce三…

Windows下DataGrip连接Hive

DataGrip连接Hive 1. 启动Hadoop2. 启动hiveserver2服务3. 启动元数据服务4. 启动DG 1. 启动Hadoop 在控制台中输入start-all.cmd后，弹出下图4个终端（注意终端的名字）2. 启动hiveserver2服务单独开一个窗口启动hiveserver2服务，…

大数据发展史

一、hadoop发展史 hadoop创始人Doug Cutting，主要为了实现Google类似全文搜索功能,该功能是基于Lucene框架进行优化升级,索引引擎; 2001年底Lucence成为Apache基金会的一个子项目,当时为了解决存储海量数据困难,检索海量速度慢,可以说Google是hadoop的思想之源; GFS…

Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件

Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件版本号步骤hadoopcore-site.xmlhdfs-site.xmlmapred-site.xmlslavesworkersyarn-site.xml hivehive-site.xmlspark-defaults.conf sparkhdfs-site.xmlhive-site.xmlslavesyarn-site.xmlspark-env.sh 版本号 apache-hive-3.1.3-…

Yarn基础入门

文章目录一、Yarn资源调度器1、架构2、Yarn工作机制3、HDFS、YARN、MR关系4、作业提交之HDFS&MapReduce 二、Yarn调度器和调度算法1、先进先出调度器（FIFO）2、容量调度器（Capacity Scheduler）3、公平调度器（Fair …

Hadoop3教程（六）：HDFS中的DataNode

文章目录 （63）DataNode工作机制（64）数据完整性（65）掉线时限参数设置参考文献 （63）DataNode工作机制 DataNode内部存储了一个又一个Block，每个block由数据和数据元数据组…

Hadoop3教程（五）：NameNode和SecondaryNameNode

文章目录 （59）NN和2NN的工作机制（60）FsImage镜像文件（61）Edits编辑日志（62）Checkpoint时间设置参考文献 （59）NN和2NN的工作机制 NameNode的数据是存储在磁盘…

免密码方式获取Hive元数据

前言开发中可能用到hive的元数据信息 ，如获取hive表列表、hive表字段、hive表数据量大小、hive表文件大小等信息，要想获取hive元数据信息即需要hive元数据库的账号及密码，此次提供的是一种不需要hive元数据库密码及可获取元数据信息的方式&…

2.3 初探Hadoop世界

文章目录零、学习目标一、导入新课二、新课讲解（一）Hadoop的前世今生1、Google处理大数据三大技术2、Hadoop如何诞生3、Hadoop主要发展历程 （二）Hadoop的优势1、扩容能力强2、成本低3、高效率4、可靠性5、高容错性 （三…

外卖大数据案例

一、环境要求 HadoopHiveSparkHBase 开发环境。二、数据描述 meituan_waimai_meishi.csv 是某外卖平台的部分外卖 SPU（Standard Product Unit ， 标准产品单元）数据，包含了外卖平台某地区一时间的外卖信息。具体字段说明如下&am…

大数据Hadoop之——部署hadoop+hive+Mysql环境（window11）

一、安装JDK8 【温馨提示】对应后面安装的hadoop和hive版本，这里使用jdk8，这里不要用其他jdk了，可能会出现一些其他问题。 1）JDK下载地址 http://www.oracle.com/technetwork/java/javase/downloads/index.html 按正常下载是需要…

Hadoop2.6.0+Spark1.4.0集群安装

1，要求你已经成功把Hadoop集群安装完毕，并经过测试，如果不知道如何编译安装Hadoop请参考散仙的这篇文章[url]http://qindongliang.iteye.com/blog/2222145[/url]2，安装Scala2.10.x版本，spark1.4.0最新版本的兼容2.10.x…

Pig0.15集成Tez，让猪飞起来

1，Tez是什么？Tez是Hortonworks公司开源的一种新型基于DAG有向无环图开源计算框架，它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能，看下面一张图，就能说明问题：[img]http://dl2.iteye.co…

CDH-Hadoop2.6+ Apache Pig0.15安装记录

1，使用CDH的hadoop里面有对应的组件Pig，但版本较低，所以放弃使用了，直接下载 Apache Pig0.15最新的版本（支持Tez，比Hive更容易集成） 下载地址：http://archive.apache.org/dist/pig/p…

Solr5.1.0如何安装部署？

[img]http://dl2.iteye.com/upload/attachment/0109/1614/82c098b6-211e-30cb-b0ef-f852ccbc052b.png[/img]solr是什么？ 来自维基百科的解释：[img]http://dl2.iteye.com/upload/attachment/0109/1616/6a2b77ef-db54-35d6-b8b5-1723301faf5b.png[/img]Sol…

Hadoop可视化分析利器之Hue

先来看下hue的架构图： [img]http://dl2.iteye.com/upload/attachment/0108/7048/ae2bc982-c44b-3786-b287-76bc357542f5.jpg[/img]（1）Hue是什么？Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口…

驭象者之Apache Oozie

（1）Apache Oozie是什么？ Oozie在英语中的释义指的是：驯象人，驭象者（多指缅甸那边的俗称），这个比喻相对与它的功能来说，还是很恰当的。 Apache Oozie是一个用来管理Hadoop…

Spark与hdfs delegation token过期的排查思路总结

背景 hadoop delegation token的问题相对比较混乱和复杂，简单说下这东西的出现背景，最早的hadoop的因没有的完善的安全机制（安全机制主要包括：认证鉴权，hadoop这里主要是身份认证机制没有），所…

hadoop常见问题解答（转）

[img]http://dl2.iteye.com/upload/attachment/0108/4936/ad1f9f79-4fc9-3b37-8670-112579e50d55.png[/img] [b][colorgreen][sizelarge] （1）Hadoop适不适用于电子政务？为什么？ 电子政务是利用互联网技术实现政府组织结构和工作流…

亚马逊Hadoop2.2内存参数模板

[b][colorolive][sizelarge] m1.medium配置选项默认值 mapreduce.map.java.opts -Xmx512m mapreduce.reduce.java.opts -Xmx768m mapreduce.map.memory.mb 768 mapreduce.reduce.memory.mb 1024 yarn.app.mapreduce.am.resource.mb 1024 yarn.scheduler.minimum-allocation-mb…

Hadoop2.2如何集成Apache Pig0.12.1？

[b][colorgreen][sizelarge]散仙假设你的Hadoop环境已经安装完毕（1）到[url]https://archive.apache.org/dist/pig/[/url]下载对应的tar包，如果是hadoop0.20.x之前的版本，则直接可以用，如果Hadoop2.x之后的，…

Spring Boot入门开发之明月千城（一）

最近数据分析的项目也即将告一段落了，中间也积累了很多知识，特此记录一下。其中用的最爽的Web组合开发就是Intellij IDEA Maven Spring Boot Velocity Boostrap jQuery了，关于后端的数据分析和处理的Hadoop模块，会放在Hadoop…

如何向hadoop集群定时提交一个jar作业？

除了使用Hive，Pig来执行一个MapReduce任务，不需要专门的把项目打成jar包，提交执行，或者定时执行，因为Hive，Pig这些开源框架已经，帮我们自动打包上传了。而有些时候，我们自己手写了一…

一百九十、Hive——Hive刷新分区MSCK REPAIR TABLE

一、目的在用Flume采集Kafka中的数据直接写入Hive的ODS层静态分区表后，需要刷新表，才能导入分区和数据。原因很简单，就是Hive表缺乏分区的元数据二、实施步骤 （一）问题——在Flume采集Kafka中的数据写入HDFS后&am…

hive进行base64 加密解密函数

加密 select base64(cast(abcd as binary))YWJjZA 解密 -- 直接解密（结果字段格式为比binary格式） select unbase64(YWJjZA) -- 格式转换 select cast(unbase64(YWJjZA) as string) abcd

hue实现对hiveserver2 的负载均衡

如果你使用的是CDH集群那就很是方便的在Cloudera Manager中，进入HDFS Service 进入Instances标签页面，点击Add Role Instances按钮，如下图所示点击Continue按钮，如下图所示返回Instances页面，选择HttpFS角色…

Hive用户中文使用手册系列（三）

JDBC HiveServer2 有一个 JDBC 驱动程序。它支持对 HiveServer2 的嵌入式和 remote 访问。 Remote HiveServer2 模式建议用于 production 使用，因为它更安全，不需要为用户授予直接 HDFS/metastore 访问权限。连接 URL 连接 URL 格式 HiveServer2 UR…

【Hadoop】好用的脚本分享

知识目录一、写在前面✨二、一键安装HA🍭三、Hadoop一键启动🔥四、一键启动可视化工具🍭五、结语🔥 一、写在前面✨ 大家好！我是初心，希望我们一路走来能坚守初心！ 🏠 个人主页&a…

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

本案例软件包：链接：https://pan.baidu.com/s/1zABhjj2umontXe2CYBW_DQ 提取码：1123（若链接失效在下面评论，我会及时更新）. 目录 （1）安装Spark 1.先用xftp将安装包传到home/hadoop…

Hadoop面试题+详解

20道面试题及详细解答！ 1.说说什么是结构化数据、非结构化数据和半结构化数据结构化数据、非结构化数据和半结构化数据是根据数据的组织结构和格式来划分的不同类型的数据。结构化数据：结构化数据是按照预定义的数据模型进行组织和存储的数据。它通常…

Hadoop面试题（2）

1.什么是数据倾斜？如何处理数据倾斜？ 数据倾斜指的是在分布式计算中，数据在某些节点上不均匀地分布，导致某些节点的负载过重，影响整体计算性能。处理数据倾斜的方法主要包括以下几种： 增加分区数量&…

Hive安装配置笔记

版本说明 hadoop-3.3.6（已安装） mysql-8（已安装） hive-3.1.3 将hive解压到对应目录后做如下配置： 基本配置与操作 1、hive-site <configuration><property><name>ja…

Hive用户中文使用手册系列（四）

Python Client 在github 上上可以使用 Python client 驱动程序。有关安装说明，请参阅设置 HiveServer2：Python Client 驱动程序。 Ruby Client 一个 Ruby client 驱动程序在https://github.com/forward3d/rbhive的 github 上可用。与 SQuirrel SQL …

Hadoop3教程（二十七）：（生产调优篇）HDFS读写压测

文章目录 （146）HDFS压测环境准备（147）HDFS读写压测写压测读压测参考文献 （146）HDFS压测环境准备对开发人员来讲，压测这个技能很重要。假设你刚搭建好一个集群，就可以直接投入生…

Hadoop3.0大数据处理学习1（Haddop介绍、部署、Hive部署）

Hadoop3.0快速入门学习步骤： 三大组件的基本理论和实际操作Hadoop3的使用，实际开发流程结合具体问题，提供排查思路开发技术栈： Linux基础操作、Sehll脚本基础JavaSE、Idea操作MySQL Hadoop简介 Hadoop是一个适合海量数据存…

Hadoop进阶之输入路径如何正则通配？

[b][colorgreen][sizelarge] 在hadoop的编程中，如果你是手写MapReduce来处理一些数据，那么就避免不了输入输出参数路径的设定，hadoop里文件基类FileInputFormat提供了如下几种api来制定： [/size][/color][/b] [img]http://dl2.ite…

Hive0.13安装问题总结

[b][colorolive][sizelarge]继上篇文章Hive安装之后，本篇散仙就来总结下安装Hive过程中，出现的一些问题，以及解决方法。问题列表如下： [table] |序号|问题| |1|为何我配置的是MySQL存储hive元数据，但总是存储到它自带的…

SSH免密登录原理浅析

HDFS文件上传过程简述

HDFS文件上传过程简述另外底下链接是别人对文件上传的描述，可以作为上图的补充。 hdfs文件上传及下载的流程_RashaunHan的博客-CSDN博客另外下边是CSDN推荐的一篇写的比较好的文章 HDFS文件上传流程_G_scsd的博客-CSDN博客_hdfs上传文件的基本流程

Pig使用问题总结

[b][colorblack][sizelarge] 1,如果是a::tags#pic作为参数，传递给另一个函数方法，需要转义多次,二次调用函数，就是这个方法里，又调用了其他方方法，参数也是层层传递，需要转义两次，尤其是map里的…

解决centos7虚拟机中网络配置问题

进入到虚拟机后， 编辑ifcfg-ens33 如果不知道地址可以先搜索找到地址然后进入将bootproto改为 bootprotostatic 将onboot改为 onbootyes 添加 ipaddr本机ip地址（本机ip地址和网关可以到win中查到） gateway本机网关 dns1本机网关文件完成配置…

关于数据调度中需要关注的重点

在数据调度中，如果从一个大的框架来看，其实还是数据库到数据库，即端到端，既然是端到端，那么在调度的时候，考虑以下几个点即可： 库、schema、表、字段、类型、长度、值上述七个点，在…

ElasticSearch入门之风花雪月（五）

以前经常有人问散仙，如何学好搜索？ 其实这个问题很具有代表性，你可以归纳为一类问题？ 其实，散仙在以前博客的中，也有总结过，大家可以点击这个链接再看一下。本篇散仙要介绍的内容&#xff0c…

如何使用Java API操作Hbase(基于0.96新的api)

[b][colorgreen][sizelarge]写了个Hbase新的api的增删改查的工具类，以供参考，直接拷贝代码就能用，散仙觉得基础的功能，都有了，代码如下：[/size][/color][/b]package com.dhgate.hbase.test;import java.uti…

Hadoop2.2.0+Hbase0.96.2分布式集群搭建

[b][colorolive][sizelarge]最近项目有用到Hbase存储数据，由于现在的hadoop 的集群是基于hadoop2.2.0的，所以不可避免的就需要使用新版的Hbase，以前和hadoop1.x的集群使用的hbase是0.94版本的，现在最新的版本是0.98的，…

hadoop升级之fsck命令迎战miss block警告

[sizelarge]继上次升级hadoop完毕后，集群启动正常，但是在访问Namenode的50070的界面上，发现了如下截图的警告信息： [/size][img]http://dl2.iteye.com/upload/attachment/0099/3811/ef2a4650-2939-3697-a7b3-c300c9a9364d.jpg[/im…

Hadoop1.2.0的DataNode启动失败异常

[b][colorgreen][sizelarge]在配置hadoop1.x的集群时，如果我们在hdfs-site.xml里面，如果明确指定了dfs的路径，需要设置下dfs.data.dir的权限，下面是散仙在Hadoop1.2.0里面的配置：[/size][/color][/b]<configuration…

记一次hadoop磁盘空间满的异常

[b][colorgreen][sizelarge]本事故，发生在测试的环境上，虽然不是线上的环境，但也是一次比较有价值的事故。起因：公司里有hadoop的集群，用来跑建索引，PHP使用人员，调用建索引的程序时&#xff0c…

Java连接Hbase0.96异常

[b][colorolive][sizelarge]在Windows上直接使用JAVA API连接Hbase0.96报的一个异常，这个异常在Hbase0.94的版本里是没有的，为什么？ 跟你所用的底层的Hadoop有关系，如果是底层hadoop是1.x的版本，那么没有这个问题&…

Hadoop2.2.0集成Hbase0.96报的一个异常

[colorgreen][sizelarge]最近项目抓取的数据，存在Hbase里，所以需要从Hbase里读取数据，创建连接时，发现总是报如下的一个异常:[/size][/color][img]http://dl2.iteye.com/upload/attachment/0099/0648/7a8992ed-bd18-334f-a976-5ac…

如何在Windows下的eclipse调试Hadoop2.2.0分布式集群

[colorolive][sizelarge]上篇文章， 散仙已经在eclipse中通过local的模式可以正确的调试hadoop2.2，那么本篇，散仙将重点叙述下，如何在eclipse中，真真正正的提交作业到yarn上，开启分布式模式的调试&#xff0…

Ganglia安装配置与监控Solr

[colorgreen][sizelarge]Ganglia的安装，可以使用yum和rpm来进行，对于刚装的系统需要分别执行以下几个命令，来完成初始化安装：[/size][/color]yum install –y wget apr-devel apr-util check-devel cairo-devel pango-devel libxm…

How to make nutch run in eclipse ?

[b][colorgreen][sizelarge]Nutch是一个优秀的开源的数据爬取框架，我们只需要简单的配置，就可以完成数据爬取，当然，Nutch里面也提供了很灵活的的插件机制，我们随时都可以对它进行二次开发，以满足我们的需求…

玩转大数据系列之Apache Pig如何通过自定义UDF查询数据库（五）

GMV(一定时间内的成交总额)是一个衡量电商网站营业收入的一项重要指标，例如淘宝，京东都有这样的衡量标准，感兴趣的朋友可以自己科普下这方面的概念知识。当然散仙今天，并不是来解释概念的，而是记录下最近工作的一些东…

Nutch1.8+Hadoop1.2+Solr4.3分布式集群配置

[b][colorgreen][sizelarge]Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。当然在百度百科上这种方法在Nutch1.2之后，已经不再适合这样描述Nutch了，因为在1.2版本之后，Nutch专…

Hadoop的Reduce Join+BloomFilter实现表链接

[b][colorgreen][sizelarge]散仙，在上篇文章中了，测了使用半链接的方式，来实现的表join，注意中间存储小表的key，是用HashSet实现的，也就是把数据存在内存里，在map侧，进行key过滤后&a…

玩转大数据系列之Apache Pig如何与MySQL集成（三）

上篇介绍了如何把Pig的结果存储到Solr中，那么可能就会有朋友问了，为什么不存到数据库呢？ 不支持还是？ 其实只要我们愿意，我们可以存储它的结果集到任何地方，只需要重写我们自己的StoreFunc类即可。关于如…

玩转大数据系列之Apache Pig如何与Apache Solr集成（二）

散仙，在上篇文章中介绍了，如何使用Apache Pig与Lucene集成，还不知道的道友们，可以先看下上篇，熟悉下具体的流程。在与Lucene集成过程中，我们发现最终还要把生成的Lucene索引，拷贝至本地磁盘&a…

Apache Druid 0.18.1 compact （合并，压缩） segements

问题 Apache druid 中的实时任务默认一个小时生成一个segement (如果是老版本，一个小时生成的数量与Kafka 的partition 数量有关)，会导致集群产生大量的 segements.根据druid 的建议每个 segement大小 300M-700M. 有时需要进行compact 向 overlord…

如何基于新API使用Hadoop的Reduce Side Join

[b][colorgreen][sizelarge]上篇，散仙介绍了基于Hadoop的旧版API结合DataJoin工具类和MapReduce实现的侧连接，那么本次，散仙就来看下，如何在新版API（散仙的Hadoop是1.2版本，在2.x的hadoop版本里实现代码一样…

玩转大数据之Apache Pig如何与Apache Lucene集成

在文章开始之前，我们还是简单来回顾下Pig的的前尘往事： 1，Pig是什么？ Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache（一个开源软件的基金组织）的一个项目&a…

玩转大数据系列之Apache Pig如何与Apache Lucene集成（一）

[img]http://dl2.iteye.com/upload/attachment/0105/3491/7c7b3bef-0dda-3ac6-8cdb-1ecc1dd9c194.jpg[/img] [b][colorgreen][sizelarge]在文章开始之前，我们还是简单来回顾下Pig的的前尘往事：1，Pig是什么？Pig最早是雅虎公司的一个…

Apache Pig学习笔记（二）

主要整理了一下，pig里面的一些关键词的含义和用法，pig虽然是一种以数据流处理为核心的框架，但数据库的大部分关键词和操作，在pig里面基本上都能找到对应的函数，非常灵活与简洁，春节前的最后一篇文章了&…

你有一个好的归档习惯吗？

备忘和扯一扯最近散仙在工作用到的几个不错的小技术点： （1）使用shell写了一个根据年份能生成此年份下归档文件目录，精确到年-月-日-小时谈谈本意： 由于散仙最近是在搞我们平台的搜索日志分析的工作，日…

大数据，怎么搞？

随着大数据的爆红，数据分析师这个职位也得到了越来越多的关注，千千万万懂些大数据技术的少年们都渴望成为高大上的“大数据科学家”，可是，你们真的准备好了吗？ 1、最早的数据分析可能就报表目前很多数据分析…

Apache Pig5行代码怎么实现Hadoop的WordCount？

[img]http://dl2.iteye.com/upload/attachment/0105/1908/1805d55c-2b7f-3246-b732-02121f8698ac.jpg[/img][b][colorgreen][sizelarge]初学编程的人，都知道hello world的含义，当你第一次从控制台里打印出了hello world，就意味着，…

Apache Pig如何自定义UDF函数？

[b][colorgreen][sizelarge]近日由于工作所需，需要使用到Pig来分析线上的搜索日志数据，散仙本打算使用hive来分析的，但由于种种原因，没有用成，而Pig（pig0.12-cdh）散仙一直没有接触过&#xff0c…

Hadoop2.2安装出现不支持bzip2压缩问题原因分析

刚装的hadoop2.2的集群，散仙在执行bin/hadoop checknative 命令时，出现如下警告：[img]http://dl2.iteye.com/upload/attachment/0104/4231/309ef9f8-6888-3ee1-8c85-a7bf44ec99b7.jpg[/img]bizip2的的本地压缩支持无效，整个编译过…

阿里云异构数据源离线同步工具之DataX

阿里云异构数据源离线同步工具之DataXDataXDataX概述框架设计插件体系核心架构更多介绍安装DataX系统要求下载与安装DataX基本使用1.官方演示案例2.从stream读取数据并打印到控制台查看配置模板创建作业配置文件启动DataX3.从MySQL抽取数据到HDFS获取配置模板创建作业配置文件启…

Linux服务器搭建单机版Hive与搭建Hive集群

Linux服务器搭建单机版Hive与搭建Hive集群HiveHive概述Hive架构Hive计算引擎Linux安装Hive下载Hive解压及重命名配置hive-env.sh创建hive-site.xml配置日志添加驱动包配置环境变量初始化数据库启动HiveHive的交互方式使用bin/hive使用hiveServer2使用sql语句或者sql脚本Hive集群…

Hadoop之MapReduce的使用示例

MapReduce的基本使用添加依赖 <dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>3.1.3</version></dependency><dependency><groupId>or…

hadoop集群警告No groups available for user dr.who

刚装完的hadoop集群，在查看namenode的log时，散仙发现有如下的警告信息：2014-10-30 16:49:18,340 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 2 secs2014-10-30 16:49:18,340 INFO org.apache.hadoop.hdfs.Sta…

Hadoop集群搭建完毕后，如何测试是否正常工作？

最近，要在沙箱的环境装一个hadoop的集群，用来建索引所需，装hadoop已经没啥难的了，后面，散仙会把重要的配置信息，贴出来，本次装的hadoop版本是hadoop1.2的版本，如果不知道怎么装的&am…

Cloudera公司首席架构师Doug Cutting谈Hadoop之变迁

Doug Cutting是开源界的大神，也是散仙非常膜拜的一个对象，从最早2000年Lucene的开始，到后来的基于Lucene衍生的企业级搜索项目Solr和ElasticSearch，以及发展到现在专职于全网采集的Nutch项目，再到后来从Nutch项目里&am…

Hadoop 请求数据长度 Requested Data length 超过配置的最大值

一、问题现象 Spark 任务速度变慢，也不失败。 DataNode 内存足够 CPU 负载不高 GC 时间也不长。查看 DataNode 日志，发现有些日志出现很多 Netty RPC 超时。超时的 destination 是一个 NameNode 节点，然后查看 NameNode 节点的日志&…

sqoop连接MYSQL报错处理

Sqoop远程连接MYSQL数据库报/apache/commons/lang/StringUtils错误，如下： [rootmanager ~]# sqoop list-databases --connect jdbc:mysql://10.100.81.207:3306/ --username root --password 123 Warning: /home/bigdata/sqoop//../hcatalog does not e…

数据结构与算法——分治法

分治算法（Divide and Conquer Algorithm）是一种算法设计策略，它将一个大问题分割成多个相同或相似的子问题，然后递归地解决这些子问题，最后将它们的解合并在一起，得到原始问题的解。分治算法通常包含三个关…

Hive SQL 函数高阶应用场景

HIVE作为数据仓库处理常用工具，如同RDBMS关系型数据库中标准SQL语法一样，Hive SQL也内置了不少系统函数，满足于用户在不同场景下的数据分析需求，以提高开发SQL数据分析的效率。我们可以使用show functions查看当下版本支持的函数…

CDH大数据平台 28Cloudera Manager Console之superset相关包安装(markdown新版二)

💖个人主页：@与自己作战 💯作者简介：CSDN@博客专家、CSDN@大数据领域优质创作者、CSDN@内容合伙人、阿里云@专家博主 🆘希望大佬们多多支持，携手共进 📝 如果文章对你有帮助的话，欢迎评论💬点赞👍收藏📂加关注 ⛔如需要支持请私信我，💯必支持文章目录一…

apache seatunnel支持hive jdbc

上传hive jdbc包HiveJDBC42.jar到seatunel lib安装目录原因是cloudera 实现了add batch方法创建seatunnel任务文件mysql2hivejdbc.conf env {execution.parallelism = 2job.mode = "BATCH"checkpoint.interval = 10000 } source {Jdbc {url = "jdbc:mysql:/…

云服务器安装Hive

文章目录 1. 安装Hive(最小化部署)2. MySQL安装3. Hive元数据配置到MySQL4. HiveServer2服务5. Metastore服务运行模式6. 编写脚本来管理hive的metastore/hiveserver2服务的启动和停止1.7 Hive常用命令 7. Hive参数配置方式7.1 Hive常见的几个属性配置安装Hive的前提是先安装H…

构建 hive 时间维表

众所周知 hive 的时间处理异常繁琐且在一些涉及日期的统计场景中会写较长的 sql，例如：周累计、周环比等；本文将使用维表的形式降低时间处理的复杂度，提前计算好标准时间字符串未来可能需要转换的形式。一、表设计结合业务场景常…

尚硅谷大数据项目《在线教育之实时数仓》笔记005

视频地址：尚硅谷大数据项目《在线教育之实时数仓》_哔哩哔哩_bilibili 目录第9章数仓开发之DWD层 P031 P032 P033 P034 P035 P036 P037 P038 P039 P040 第9章数仓开发之DWD层 P031 DWD层设计要点： （1）DWD层的设计依…

大数据毕业设计选题推荐-系统运行情况监控系统-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

hive的工作机制

hive的工作机制 1、在hive中建一个库 ---在hive的元数据库中记录 ---在hdfs的默认路径下/user/hive/warehouse/ 建一个以 "库名.db" 为名字的文件夹 2、在hive的库中建表 ---在hive的元数据库中记录 ---在hdfs的默认路径下 /user/hive/…

[Hive] Map类型在表中是如何存储的

在 Hive 中，Map 类型是指键值对的集合，其中键和值都可以是任意数据类型。在 Hive 表中，Map 类型通常被存储为结构体或者键值对列表。具体来说，在表中，Map 类型通常分为以下两种存储方式： 文章目录结构…

大数据毕业设计选题推荐-自媒体舆情分析平台-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

H5ke9

上次fetvh就一个参数url,,就是get请求 fetch还可以第二个参数对象,可以指定method:改为POST 请求头header :发送txt,servlet,json给客户端,,异步请求图片 1 这节客户端传到服务器端 2异步文件上传,两三行代码把文件传输 mouseover事件 .then()的使用是Promise对象的一个方法…

hadoop伪分布式安装部署

首先jdk安装完毕 jdk安装文档参考： Linux 环境下安装JDK1.8并配置环境变量_linux安装jdk1.8并配置环境变量_Xi-Yuan的博客-CSDN博客准备好hadoop的安装包我的下载地址如下： We Transfer Gratuit. Envoi scuris de gros fichiers. 将hadoop包上传到随…

Hadoop部署过程中问题总结

Hadoop伪分布式集群部署问题总结一、HDFS初始化失败初始化失败，HDFS初始化操作如下： hdfs namenode -format然后我运行后报错：error parsing conf core-site.xml 出现这个信息就说明core-site.xml配置文件出错了，用vim命令可…

【Hive】分区表和分桶表相关知识点介绍

Hive中的分区表和分桶表是两种用于优化数据查询和管理的技术。它们可以提高查询性能、减少数据扫描量并提供更精细的数据组织方式。分区表（Partitioned Table） Hive的分区表将数据按照一个或多个列的值进行逻辑分区。每个分区都是一个独立的子目录，其中包含符合该分区条件…

大数据毕业设计选题推荐-无线网络大数据平台-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

大数据毕业设计选题推荐-智慧小区大数据平台-Hadoop-Spark-Hive

✨作者主页：IT研究室✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

【Hive】内部表（Managed Table）和外部表（External Table）相关知识点

在Hive中，有两种类型的表：外部表（External Table）和内部表（Managed Table）。它们在数据存储和管理方式上存在一些重要的区别。本文就来对这些知识做一个总结。 1、如何在hive中创建内部表和外部表？ 2、内部表和外部表的一些区别。 3、怎么查看一个表是内部表还是外部表…

[Hive] INSERT OVERWRITE DIRECTORY要注意的问题

在使用Hive的INSERT OVERWRITE语句时，需要注意以下问题： 数据覆盖：INSERT OVERWRITE语句会覆盖目标目录中的数据。因此，在执行该语句之前，请确保目标目录为空或者你希望覆盖的数据已经不再需要。数据格式：…

在linux上脱离hadoop安装hbase-2.5.6

一、下载hbase2.5.6 https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.5.6/ 二、把下载好的hbase文件存放在某个目录 /usr/local/bigdata/hbase-2.5.6 [rootnode4 hbase-2.5.6]# ll 总用量 2428 drwxr-xr-x. 4 root root 4096 11月 9 17:21 bin -rw-r--r--. 1 ro…

21.Hadoop在Windows环境下的下载安装配置超详细版

Hadoop在Windows环境下的下载安装配置超详细版本文章所需下载安装软件： 链接：https://pan.baidu.com/s/1jIQyy0VHuPvQZ8-n_Zq0pg?pwd1017 hadoop的Windows化安装步骤是非常麻烦的，如果有一步出错将导致得充头从来。环境配置前置依赖1&…

GZ033 大数据应用开发赛题第02套

2023年全国职业院校技能大赛赛题第02套赛项名称：大数据应用开发英文名称： Big Data Application Development 赛项组别：高等职业教育组赛项编号： GZ033 背景描述大数据时代背景下，电…

【hive-解决】HiveAccessControlException Permission denied: CREATEFUNCTION

文章目录一.任务描述二. 解决一.任务描述 Error while compiling statement: FAILED: HiveAccessControlException Permission denied: Principal [nameroot, typeUSER] does not have following privileges for operation CREATEFUNCTION [ADMIN PRIVILEGE on INPUT, ADMIN…

【Python大数据笔记_day10_Hive调优及Hadoop进阶】

hive调优 hive官方配置url: Configuration Properties - Apache Hive - Apache Software Foundation hive命令和参数配置 hive参数配置的意义: 开发Hive应用/调优时，不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率，或帮助定位问…

大数据基础设施搭建 - Hadoop

文章目录一、下载安装包二、上传压缩包三、解压压缩包四、配置环境变量五、测试Hadoop5.1 测试hadoop命令5.2 测试wordcount案例5.2.1 创建wordcount输入文本信息5.2.2 执行程序5.2.3 查看结果六、分发压缩包到集群中其他机器6.1 分发压缩包6.2 解压压缩包6.3 配置环境变量七…

Hive效率优化记录

Hive是工作中常用的数据仓库工具，提供存储在HDFS文件系统，将结构化数据映射为一张张表以及提供查询和分析功能。 Hive可以存储大规模数据，但是在运行效率上不如传统数据库，这时需要懂得常见场景下提升存储或查询效率的方法&#x…

【Java 进阶篇】在Java Web应用中实现请求数据的共享：域对象详解

在Java Web应用中，处理请求时常常需要在不同的Servlet之间共享数据。为了实现数据的共享和传递，Java提供了域对象的概念，包括请求域（Request域）、会话域（Session域）和应用域（Applica…

在linux安装单机版hadoop-3.3.6

一、下载hadoop https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/core/hadoop-3.3.6/ 二、配置环境变量 1、配置java环境变量 2、配置hadoop环境变量 export HADOOP_HOME/usr/local/bigdata/hadoop-3.3.6 export HBASE_HOME/usr/local/bigdata/hbase-2.5.6 export JA…

大数据毕业设计选题推荐-河长制大数据监测平台-Hadoop-Spark-Hive

✨作者主页：IT研究室✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

Hadoop原理，HDFS架构，MapReduce原理

Hadoop原理，HDFS架构，MapReduce原理 2022找工作是学历、能力和运气的超强结合体，遇到寒冬，大厂不招人，可能很多算法学生都得去找开发，测开测开的话，你就得学数据库，sql&#xff0c…

Hive 知识点八股文记录 ——（二）优化

函数 UDF：用户定义函数 UDAF：用户定义聚集函数 UDTF：用户定义表生成函数建表优化分区建桶创建表时指定分区字段 PARTITIONED BY (date string)指定分桶字段和数量 CLUSTERED BY (id) INTO 10 BUCKETS插入数据按分区、分桶字段插入 …

【Hadoop实战】Hadoop指标系统V2分析

Hadoop指标系统V2分析文章目录 Hadoop指标系统V2分析架构主要组成部分根据图表解释数据流向指标过滤JMX的应用开启指标系统的组件指标项说明使用HTTP（JMXJsonServlet）获取指标接口调用方式GET查询的逻辑数据的来源，以及更新的原理架构在…

Hive 知识点八股文记录 ——（一）特性

Hive通俗的特性结构化数据文件变为数据库表sql查询功能sql语句转化为MR运行建立在hadoop的数据仓库基础架构使用hadoop的HDFS存储文件实时性较差（应用于海量数据）存储、计算能力容易拓展（源于Hadoop） 支持这些特性的架构 CLI&…

大数据毕业设计选题推荐-污水处理大数据平台-Hadoop-Spark-Hive

✨作者主页：IT研究室✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

2023.11.10 hadoop,hive框架概念,基础组件

目录分布式和集群的概念: hadoop架构的三大组件:Hdfs,MapReduce,Yarn 1.hdfs 分布式文件存储系统 Hadoop Distributed File System 2.MapReduce 分布式计算框架 3.Yarn 资源调度管理框架三个组件的依赖关系是: hive数据仓库处理工具 hive的大体流程: Apache hive的…

【大数据分布并行处理】单元测试（二）

文章目录第二单元单选题多选题填空题第二单元单选题每种大数据产品都有特定的应用场景，以下哪个产品是用于图计算的： A. MapReduce B. GraphX C. Hive D. Streams 正确答案： B 每种大数据产品都有特定的应用场景，以下哪个产…

【大数据分布并行处理】单元测试（三）

文章目录第三单元单选题多选题第三单元单选题 HDFS的命名空间不包含： A. 块 B. 目录 C. 字节 D. 文件正确答案： C 对HDFS描述错误的是: A. HDFS是一个开源框架 B. 2004年，Doug Cutting发布了第一个版本HDFS C. HDFS是 Hadoop大数据生态…

已解决：java.net.BindException: 地址已在使用

解决zookeeper报错：java.net.BindException: 地址已在使用，是因为端口被占用。显示Starting zookeeper ... STARTED，jps没有QuorumPeerMain进程。问题截图： 看似Starting zookeeper ... STARTED，实则集群并没有启动…

2023.11.13 hive数据仓库之分区表与分桶表操作,与复杂类型的运用

目录 0.hadoop hive的文档 1.一级分区表 2.一级分区表练习2 3.创建多级分区表 4.分区表操作 5.分桶表 6. 分桶表进行排序 7.分桶的原理 8.hive的复杂类型 9.array类型: 又叫数组类型,存储同类型的单数据的集合 10.struct类型: 又叫结构类型,可以存储不同类型单数据的集合…

深入理解Kafka3.6.0的核心概念，搭建与使用

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景&a…

hive更改表结构的时候报错

现象 FAILED: ParseException line 1:48 cannot recognize input near ADD COLUMN compete_company_id in alter table statement 23/11/14 17:59:27 ERROR org.apache.hadoop.hive.ql.Driver: FAILED: ParseException line 1:48 cannot recognize input near ADD COLUMN compe…

hadoop 如何关闭集群 hadoop使用脚本关闭集群 hadoop(八)

1. hadoop22, hadoop23, hadoop24三台机器 2. namenode 所在hadoop22关闭 hdfs: # 找到/etc/hadoop位置 cd /opt/module/hadoop-3.3.4/etc/hadoop # 找到shell脚本，关闭即可sbin/stop-dfs.sh 3. 关闭yarn脚本，我的在hadoop23： # 找到/etc…

2023.11.16-hive sql高阶函数lateral view,与行转列,列转行

目录 0.lateral view简介 1.行转列需求1: 需求2: 2.列转行解题思路: 0.lateral view简介 hive函数 lateral view 主要功能是将原本汇总在一条（行）的数据拆分成多条（行）成虚拟表，再与原表进行笛卡尔积&#xff0c…

二百零二、Hive——Hive解析JSON字段（单个字段与json数组）

一、目的用Flume采集Kafka写入到Hive的ODS层在HDFS路径下的JSON数据，需要在DWD层进行解析并清洗 （一）Hive的ODS层建静态分区外部表 create external table if not exists ods_queue(queue_json string ) comment 静态排队数据表——静…

2023.11.15 hive sql之函数标准,字符串,日期,数学函数

目录一.函数分类标准二.查看官方函数,与简单演示三.3种类型函数演示四.字符串函数 1.常见字符串函数 2.索引函数解析函数五.日期函数 1.获取当前时间 2.获取日期相关 3.周,季度等计算 4.时间戳六.数学函数一.函数分类标准目前hive三大标准 UDF:&#xff08…

2023.11.17 -hivesql调优,数据压缩,数据存储

目录 1.hive命令和参数配置 2.hive数据压缩 3.hive数据存储 0.原文件大小 18.1MB 1.textfile行存储格式, 压缩后size:18MB 2.行存储格式:squencefile ,压缩后大小8.89MB 3. 列存储格式 orc - ZILIB ,压缩后大小2.78MB 4.列存储格式 orc-snappy ,压缩后大小3.75MB 5…

hadoop2.2生态系统快速安装脚本

[b][colorgreen][sizelarge]对于使用hadoop进行开发的朋友们，可能要自己搭建一套hadoop的运行环境，如果不是经常变动的还好，如果，经常搭建而且还是多台机器，那么我们一个个的安装，就显得有点捉襟见肘了&…

Hadoop2.2.0+Hive0.13+Hbase0.96.2集成

[b][colorgreen][sizelarge]本篇，散仙主要讲的是使用Hive如何和Hbase集成，Hbase和Hive的底层存储都在HDFS上，都是hadoop生态系统中的重要一员，所以他们之间有着很亲密的联系，可以相互转换与操作。hadoop，hb…

如何在Hadoop里面实现二次排序

[b][colorgreen][sizelarge]在hadoop里面处理的数据，默认按输入内容的key进行排序的，大部分情况下，都可以满足的我们的业务需求，但有时候，可能出现类似以下的需求，输入内容： [/size][/color][/b…

如何使用Hadoop的MultipleOutputs进行多文件输出

[b][colorolive][sizelarge]有时候，我们使用Hadoop处理数据时，在Reduce阶段，我们可能想对每一个输出的key进行单独输出一个目录或文件，这样方便数据分析，比如根据某个时间段对日志文件进行时间段归类等等。这时候我们就…

图解shell命令运行Hadoop1.2的WordCount例子

[b][colorgreen][sizex-large]在hadoop1.2.x的版本中，直接运行自带的WordCount的例子会报异常，这个原因是因为它路径的问题，所以，想要正常运行自带的例子，我们还是需要做一些准备工作的，当然你可以直接在ec…

Linux的shell小脚本的用途

[b][colorgreen][sizex-large]熟悉Linux的朋友们，对linux的命令，肯定都不陌生，大部分时候我们都可以使用系统自带的命令来轻松完成我们的工作。如果我们再能简单掌握下这些shell的制作，在某些场景下对我们的工作是非常有利的&…

图解Hadoop1.2.1容量调度器的配置

[b][colorgreen][sizex-large]资源调度器是Hadoop集群中一个比较重要的模块，最初的hadoop资源调度器是基于队列形式的FIFO调度的，这种模式在大规模集群的时候，资源分配并不是很合理，比如一个后提交的任务，但想要它先执…

CentOS6.4之图解Hadoop1.2.1完全分布式部署

[b][colorgreen][sizex-large]散仙上篇博客，介绍了Hadoop基于单机模式下的伪分布式的部署，那么今天我们来看下Hadoop完全分布式的部署，其实只要伪分布式部署的会了，那么完全分布式的相对来说就很简单了，只要我们在一台…

CentOS6.4之图解配置Hadoop1.2单机伪分布式

[b][colorgreen][sizex-large]基于yarn平台的Hadoop2.2.0在前几天已经发布稳定版本了新版本解决了1.x中的NameNode，JobTracker单点故障问题，使用yarn统一了分布式开发的集群平台，给集群的资源管理及部署大大提供了便利。目前大多数公司使用…

CentOS6.4之图解SSH无验证双向登陆配置

[b][sizex-large][colorgreen]配置SSH无登陆验证，在很多场景下是非常方便的，尤其是在管理大型集群服务时，避免了繁琐的密码验证，在安全级别越高的服务器上，通常密码的设置更复杂，配置SSH，不仅可…

hadoop配置说明

hadoop集群搭建： 一、下载安装所需要的文件 jdk（一般linux自带jdk，是可以用的） hadoop二进制版（源码的安装方式不同，会更加复杂一些） 服务器二、安装jdk 将下载好的jdk安装包放在指定位置下&am…

Flume(NG)架构设计要点及配置实践

Flume NG是一个分布式、可靠、可用的系统，它能够将不同数据源的海量日志数据进行高效收集、聚合、移动，最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG，进行了架构重构，并且现在NG版本完全不兼容原来的OG…

如何使用Hadoop的Partitioner

[b][colorolive][sizelarge]Hadoop里面的MapReduce编程模型，非常灵活，大部分环节我们都可以重写它的API，来灵活定制我们自己的一些特殊需求。今天散仙要说的这个分区函数Partitioner，也是一样如此，下面我们先来看下Par…

Map/Reduce执行流程

[b][colorgreen][sizelarge]FileSplit:文件的子集--文件分割体简介：这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模式不熟悉，请先参阅MapReduce--http://labs.google.com/papers/mapreduce.htmlMap由于Map是…

Hive Lateral View explode列为空时导致数据异常丢失

一、问题描述日常工作中我们经常会遇到一些非结构化数据，因此常常会将Lateral View 结合explode使用，达到将非结构化数据转化成结构化数据的目的，但是该方法对应explode的内容是有非null限制的，否则就有可能造成数据缺失。 SE…

大数据平台/大数据技术与原理-实验报告--MapReduce编程

实验名称 MapReduce编程实验性质 （必修、选修） 必修实验类型（验证、设计、创新、综合） 综合实验课时 2 实验日期 2023.10.30-2023.11.03 实验仪器设备以及实验软硬件要求专业实验室（配有centos7.5系统…

Hive进阶函数：inline() 和 struct() ,一列转多行

一、使用场景如果存在一张表，记录的是每位学生的各科成绩，现在想把表转换为纵向存储比如： name｜english｜math｜history tom ｜80 ｜90 ｜100 转换为： name&…

内置对象理解

Config对象是在服务器启动时就自动创建的对象，而Servlet创建时，通常是通过其获取初始化所需的信息。 config表示一个javax.servlet.ServletConfig对象 pageContext对象提供了getRequest()方法，用于获取当前页的ServletRequest对象 pageCon…

【hive-design】hive架构详解：描述了hive架构，hive主要组件的作用、hsql在hive执行过程中的底层细节、hive各组件作用

文章目录一. Hive Architecture二. Metastore1. Metastore Architecture2. Metastore Interface 三. Compiler四. hive架构小结本文主要讨论了描述了hive架构，hive主要组件的作用详细描述了hsql在hive执行过程中的底层细节描述了hive各组件作用一. Hive Archite…

三十分钟学会Hive

Hive的概念与运用 Hive 是一个构建在Hadoop 之上的数据分析工具（Hive 没有存储数据的能力，只有使用数据的能力），底层由 HDFS 来提供数据存储，可以将结构化的数据文件映射为一张数据库表，并且提供类似 SQL …

Hive进阶函数：SPACE() 一行炸裂指定行

数据一行如何转多行假如有一张表，字段有两个，分别是name 和 number，代表含义为名字和名字出现的次数，现在需要把一行数据转为number行举例： 输入： tom｜3jery｜4输出&#xff1a…

2023.11.18 Hadoop之 YARN

1.简介 Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度。支持多个数据处理框架&…

Hadoop入门学习笔记

视频课程地址：https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 这里写目录标题一、VMware准备Linux虚拟机1.1. VMware安装Linux虚拟机1.1.1. 修改虚拟机子网IP和网关1.1.2. 安装…

GZ033 大数据应用开发赛题第03套

2023年全国职业院校技能大赛赛题第03套赛项名称： 大数据应用开发英文名称： Big Data Application Development 赛项组别： 高等职业教育组赛项编号： GZ033 …

Apache Hive源码阅读环境搭建

前置软件： JDK 1.8 Maven 3.3.9 1 下载源码 # 下载源码 git clone https://github.com/apache/hive.gitcd hive# 查看标签 git tag# 切换到要阅读的指定版本的tag git checkout rel/release-2.1.02 编译源码 mvn clean install -DskipTests执行报错日志如下 E…

day30_servlet

今日内容零、复习昨日一、接收请求二、处理响应三、综合案例零、复习昨日画图, 请求处理的完整流程(javaweb开发流程) 零、注解改造 WebServlet注解,相当于是在web.xml中配置的servlet映射 Servlet类 package com.qf.servlet;import javax.servlet.ServletException; im…

如何查看Hadoop运行过程中产生日志

[b][colorgreen][sizelarge]用hadoop也算有一段时间了，一直没有注意过hadoop运行过程中，产生的数据日志，比如说System打印的日志，或者是log4j，slf4j等记录的日志，存放在哪里，日志信息的重要性&a…

如何使用eclipse调试Hadoop作业

[b][colorgreen][sizelarge]使用eclipse来调试hadoop作业是非常简洁方便的，散仙以前也有用eclipse开发过hadoop程序，但是一直没有深入了解eclipse调试的一些模式，有些时候也会出一些莫名奇妙的异常，最常见的就是下面这个[/size][/…

Hadoop2.2.0的eclipse插件的编译

[b][colorgreen][sizelarge]Hadoop2.x之后，已经发布了稳定的版本hadoop2.2.0.但是由于没有eclipse插件工具，辅助，开发调试相对起来，会稍显麻烦，特别是基于Java开发的工程师们，虽然写完MR任务后，…

如何使用Java API读写HDFS

[b][colorgreen][sizelarge]HDFS是Hadoop生态系统的根基，也是Hadoop生态系统中的重要一员，大部分时候，我们都会使用Linux shell命令来管理HDFS，包括一些文件的创建，删除，修改，上传等等&#xff…

图解Hbase之使用外置Zookeeper分布式集群

[b][colorgreen][sizex-large]散仙，在上篇文章，已经介绍了Hbase的完全分布式集群部署，这次要介绍的，也是基于Hbase的完全分布式集群，只不过集群的zookeeper与上次的不同，我们都知道Hbase为了简化集群部署&a…

图解Hbase的完全分布式部署

[b][colorolive][sizex-large]上篇文章，散仙介绍了Hbase的单机伪分布式的安装，那么今天，散仙再来介绍下Hbase的完全分布式的安装部署，完全分布式的安装同样是基于Hadoop的HDFS底层的，也就是说，要想完成Hbas…

HDFS dfs常用命令大全

根据官方文档的提示我们能够知道可以通过shell的方式访问hdfs中的数据，对数据进行操作。那么首先让我们看一下hdfs的版本，使用命令hdfs version。 -mkdir 创建目录 Usage：hdfs dfs -mkdir [-p] < paths> 选项：-p 很像Unix m…

数据仓库中Hive、Mysql、Hadoop之间的关联

1. Hive 与 HDFS 之间的联系 （1）hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 sql 查询功能，可以将 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低&…

Hive与数据仓库

Hive Hive主要实现了两个功能： 提供了一个存储和管理元数据的HiveMetastore，以库和表的形式管理HDFS中的元数据。实现了一套将SQL转换为MapReduce程序的执行引擎。 Hive执行原理所有的命令和查询都会进入Driver（驱动模块）&#…

Hive报错处理

报错 FAILED: SemanticException [Error 10265]: This command is not allowed on an ACID table test.log_test with a non-ACID transaction manager. Failed command: select * from log_test 解决办法客户端 SET hive.txn.managerorg.apache.hadoop.hive.ql.lockmgr.D…

Hive执行异常org.apache.hadoop.hdfs.BlockMissingException

今天hive在执行的时候出现了报错，内容如下： Caused by: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-2040810143-192.168.144.145-1612269795515:blk_1077591653_3851069 file/hbase/data/default/cycle_middle_data/c4…

hadoop 常用端口号，常用配置文件都有哪些？hadoop3.x端口号 hadoop(十二)

1. hadoop3.x系列常用端口号： 类型desc端口hdfs NameNode内部通常端口号8020/9000/9820 hdfs NameNode 对用户的查询端口9870yarn查看历史任务运行情况8088历史服务器19888 2. hadoop 2.x系列常用端口号： 类型desc端口 hdfs NameNode 内部通常端口802…

七、HDFS文件系统的存储原理

1、总结之所以把总结放在文件开头，是为了让读者对这篇文章有更好的理解，（其实是因为我比较懒……） 对于整个HDFS文件系统的存储原理，我们可以总结为一句话，那就是： 分块备份 2、存储结构和问题…

2023.11.22 -数据仓库

目录 https://blog.csdn.net/m0_49956154/article/details/134320307?spm1001.2014.3001.5501 1经典传统数仓架构 2离线大数据数仓架构 3数据仓库三层数据运营层,源数据层（ODS）（Operational Data Store） 数据仓库层&#…

GZ033 大数据应用开发赛题第08套

2023年全国职业院校技能大赛赛题第08套赛项名称： 大数据应用开发英文名称： Big Data Application Development 赛项组别： 高等职业教育组赛项编号： GZ033 …

GZ033 大数据应用开发赛题第09套

2023年全国职业院校技能大赛赛题第09套赛项名称： 大数据应用开发英文名称： Big Data Application Development 赛项组别： 高等职业教育组赛项编号： GZ033 …

【Python大数据笔记_day11_Hadoop进阶之MR和YARNZooKeeper】

MR 单词统计流程已知文件内容: hadoop hive hadoop spark hive flink hive linux hive mysql input结果: k1(行偏移量) v1(每行文本内容)0 hadoop hive hadoop spark hive 30 flink hive linux hive mysql map结果:k2(split切割后的单词) v2(拼接…

基于VM虚拟机下Ubuntu18.04系统，Hadoop的安装与详细配置

参考博客： https://blog.csdn.net/duchenlong/article/details/114597944 与上面这个博客几乎差不多，就是java环境配置以及后面的hadoop的hdfs-site.xml文件有一些不同的地方。准备工作 1.更新 # 更新 sudo apt update sudo apt upgrade2.关闭防火…

HDFS元数据管理/磁盘清理维护

元数据管理 1.元数据管理概述 > HDFS分类-类型分包括以下几部分文件、目录自身的属性信息，例如文件名，目录名，修改信息等文件记录的信息的存储相关的信息，例如存储块信息，分块情况，副本个数等记录…

Educoder中Hive综合应用案例——用户学历查询

第1关：查询每一个用户从出生到现在的总天数 ---------- 禁止修改 ----------drop database if exists mydb cascade; ---------- 禁止修改 -------------------- begin ---------- ---创建mydb数据库 create database mydb;---使用mydb数据库 use mydb;---创建表user create …

Hive csv文件导入Hive

一、如何把csv文件导入Hive (1) 在Hive中建立与csv相对应的表 create table if not exists tmp.tmp_wenxin_20231123 (redeem_code_id string comment ) ROW FORMAT DELIMITED FIELDS TERMINATED BY , STORED AS TEXTFILE;创建了一张名为tmp_wenxin_20231123的hive表&am…

分布式计算第五章大数据多机计算：Hadoop

文章目录分布式计算第五章大数据多机计算：Hadoop5.2 大数据和分布式的基础概念5.2.1 从硬件思考大数据5.1.2 从软件角度看大数据5.1.3 分布式 DISTRIBUTED5.1.4 谷歌“三驾马车” 5.1.5键值存储的优缺点5.2 Hadoop5.2.1 Hadoop与云计算区别与联系5.2.2 Hadoop 是…

Hadoop集群升级（3.1.3 -＞ 3.2.4）

升级前确认旧版本：3.1.3 升级版本：3.2.4 旧版本安装路径：/ddhome/bin/hadoop/ 新版本安装路径：/ddhome/bin/hadoop-3.2.4 安装新版本hadoop 解压安装 # 解压安装包到相应目录下 tar -zxvf /ddhome/tools/hadoop-3.2.4.tar.gz…

hdfs——简单操作

来记录一些hdfs命令 #将test.txt文件上传到hdfs的根路径下 hdfs dfs -put test.txt / #显示目录内容 hdfs dfs -ls / #显示占用空间 hdfs dfs -du -h / #递归显示目录内容 hdfs dfs -ls -R / #显示文件内容 hdfs dfs -cat /test.txt hdfs dfs -text /test.txt #下载到本地 hd…

Hbase——简单操作

创建表 create 表名,列族1,列族2 统计数据条数 hbase org.apache.hadoop.hbase.mapreduce.RowCounter 表名清空表 truncate 表名删除表，需要两步 disable 表名 drop 表名查询某一行 get 表名,行

kafka基础入门（三）

目录三. kfk的架构深入3.4 kfk的消费者3.4.1 消费者的消费方式3.4.2 分区分配策略3.4.2.1 RoundRobin轮询3.4.2.2 Range范围(默认)3.4.2.3 什么时候会用到分区分配策略3.4.3 offset的维护3.4.4 消费者组案例3.5 kfk高效读写数据的原因3.6 zk在kfk中的作用3.7 Range策略再分析3.…

Hive on Zeppelin

** Hive on Zeppelin ** 官网：zeppelin.apache.org 做大数据的人应该对Hive不陌生，Hive应该是大数据SQL引擎的鼻祖。历经多个版本的改进，现在的Hive3已经具备比较完善的ACID功能，能够同时满足交互式查询和ETL 两种场景。那怎…

trino的介绍和安装使用

前言： 最近在研究大数据的一些组件和数据库，本来是要调研下presto怎么用的，结果发现presto因为facebook的关系，导致presto核心开发成员离开， 重新开始创建了trino，个人感觉trino发展会更好，因为…

Hadoop学习篇(二)——HDFS

在大数据时代，分布式文件处理系统目前是我们的必然选项。作为Hadoop核心组件之一的HDFS，整个大数据处理技术的学习中，占有主导地位。上一节内容总结开源计算框架Hadoop的相关基本理论。其中就提到了分布式文件处理系统HDFS这一重要组件。在H…

Spring的import注解解析及使用场景

一、导言在spring框架下做开发时，会给容器中导入组件，通常我们给容器中注入组件的方式，可以通过Spring的xml配置方式，也可以通过注解，如Component等，也可以通过java配置类的方式给容器中导入，I…

HBASE的安装步骤

1）下载安装包并解压缩 [userNewBieSlave1 ~]$ wget https://mirrors.bfsu.edu.cn/apache/hbase/2.3.5/hbase-2.3.5-bin.tar.gz --2021-07-23 23:52:23-- https://mirrors.bfsu.edu.cn/apache/hbase/2.3.5/hbase-2.3.5-bin.tar.gz Resolving mirrors.bfsu.edu.cn (…

hadoop启动hdfs异常

hadoop启动hdfs异常 util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable 记录一下安装hadoop遇到的问题，以便后面再次遇到有个解决方式的记录，也方便其他人解决相同的问题…

hadoop第一个运行实例wordcount

引语： 这几周事情比较多，两周没写博客了，这周总算把hadoop的实例给运行起来，然后跑了一下官方的wordcount例子（用于统计文件中单词出现的次数）。接下来是我成功运行实例的记录。运行的前提是安装配置好ha…

基于Hadoop的区块链海量数据存储的设计与实现

点我完整下载：基于Hadoop的区块链海量数据存储的设计与实现.docx 基于Hadoop的区块链海量数据存储的设计与实现 Design and Implementation of Mass Data Storage for Blockchain based on Hadoop 目录目录 2 摘要 3 关键词 4 第一章引言 4 1.1 研究背景 4 1.2 研…

大数据面试大厂真题【附答案详细解析】

1.Java基础篇（阿里、蚂蚁、字节、携程、快手、杭州银行等） 问题：HashMap的底层实现原理答案： 在jdk1.8之前，hashmap由数组-链表数据结构组成，在jdk1.8之后hashmap由数组-链表-红黑树数据结构组成&…

大数据平台/大数据技术与原理-实验报告--部署全分布模式Hadoop集群

实验名称部署全分布模式Hadoop集群实验性质 （必修、选修） 必修实验类型（验证、设计、创新、综合） 综合实验课时 2 实验日期 2023.10.16-2023.10.20 实验仪器设备以及实验软硬件要求专业实验室（配有cen…

01数仓平台 Hadoop介绍与安装

Hadoop概述 Hadoop 是数仓平台的核心组件。在 Hadoop1.x 时代，Hadoop 中的 MapReduce 同时处理业务逻辑运算和资源调度，耦合性较大。在 Hadoop2.x 时代，增加了 Yarn。Yarn 只负责资源的调度，MapReduce 只负责运算。Hadoop3.x 在…

Apache Hive3.1.3 遇到DATE_FORMAT转换2021年12月格式的问题

比如：需要将时间2021-12-28 00:00:00转换成2021-12的格式，用date_format会将2021-12转换成2022-12的问题。解决方法： 方式一：大写的‘Y’换成‘y’ 方式二：字符串截取，substr 本博主推荐方式一&#xf…

查看Hive表信息及占用空间的方法

一、Hive下查看数据表信息的方法方法1：查看表的字段信息 desc table_name; 方法2：查看表的字段信息及元数据存储路径 desc extended table_name; 方法3：查看表的字段信息及元数据存储路径 desc formatted table_name; 方法4：…

搭建部署Hadoop2.x和3.x的区别

文章目录 Java最小支持版本常用的端口号配置文件Classpath隔离NodeManager重连 Java最小支持版本 Hadoop 2.x最低要求Java 7。Hadoop 3.x最低要求Java 8，并且所有Hadoop JAR都已针对Java 8的运行时版本编译。这意味着用户需要升级到Java 8或更高版本才能运行Hadoop…

尚硅谷hadoop3.x课程部分资料文件下载，jdk,hadoopjar包

jdk文件百度云下载： 链接：https://pan.baidu.com/s/1MCiGRzOZY8rAFpRJwA3tdw 提取码：kphl hadoop的jar包： 最新版官网链接： Index of /dist/hadoop/core/stable (apache.org) 百度云下载，3.3.3版&#xf…

hadoop-3.3.5安装过程

准备资源三台虚拟机： 1）准备3台服务器（关闭防火墙、静态IP、主机名称） 2）安装JDK 3）配置环境变量 4）安装Hadoop 5）配置环境变量安装虚拟机（略）--1台即…

Hdoop学习笔记（HDP）-Part.10 创建集群

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hive Serde

Hive Serde 目的： Hive Serde用来做序列化和反序列化，构建在数据存储和执行引擎之间，对两者实现解耦。应用场景： 1、hive主要用来存储结构化数据，如果结构化数据存储的格式嵌套比较复杂的时候，可…

大数据实战项目_电商推荐系统

一、项目介绍 HadoopSpark (Python)Scala SparkSQLSparkStreaming MongoDB Redis Kafka Flume ( SpringMVC vue) 1 项目介绍 1.1 项目系统架构项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托，以某电商网站真实业务数据架构为基…

Hadoop——分布式存储HDFS

HDFS集群环境部署 VMware虚拟机中部署一、https://hadoop.apache.org中下载安装包二、环境分配三、上传、解压确认服务器创建、固定IP、防火墙关闭、Hadoop用户创建、SSH免密、JDK部署等四、修改配置文件 hdfs-site.xml ①、dfs.datanode.data.dir.perm 700 h…

Kettle 安装配置

文章目录 Kettle 安装配置Kettle 安装Kettle 配置连接 Hive Kettle 安装配置 Kettle 安装在安装Kettle之前，需要确定已经安装Java运行环境。Kettle需要Java的支持才能运行，JDK的版本最好是8.x的太新的也会出现bug。Kettle的7.1版本的太旧了&#xff0…

【头歌实训】分布式文件系统 HDFS

文章目录第1关：HDFS的基本操作任务描述相关知识HDFS的设计分布式文件系统NameNode与DataNode HDFS的常用命令编程要求测试说明答案代码第2关：HDFS-JAVA接口之读取文件任务描述相关知识FileSystem对象FSDataInputStream对象编程要求测试说明答案代码 …

Apache Sqoop使用

1. Sqoop介绍 Apache Sqoop 是在 Hadoop 生态体系和 RDBMS 体系之间传送数据的一种工具。 Sqoop 工作机制是将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制。 Hadoop 生态系统包括：HDFS、Hi…

day02 hive 实操练习

一、某高校图书管理系统中有如下三个数据模型： create table book( book_id string, sort string, book_name string, writer string, output string, price decimal(10,2));INSERT INTO TABLE book VALUES (001,TP391,information_processing,author1,machinery_i…

Hdoop学习笔记（HDP）-Part.06 安装OracleJDK

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

Hadoop YARN组件

1. 请解释Yarn的基本架构和工作原理。 YARN，也被称为"Yet Another Resource Negotiator"，是Apache HadoopYARN，也被称为"Yet Another Resource Negotiator"，是Apache Hadoop的一部分，它被设计为一…

Hadoop的介绍与安装

1　Hadoop的简介 Hadoop是一个开源的大数据框架，是一个分布式计算的解决方案。Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。 HDFS是一个分布式文件系统&#x…

启动 AWS Academy Learner Lab【教学】（Hadoop实验）

🔥博客主页： A_SHOWY🎥系列专栏：力扣刷题总结录数据结构云计算第一部分创建实例过程首先，需要创建3台EC2，一台作主节点 (master node)，两台作从节点 (slaves node)。 1.镜像选择 EC2&…

头歌—密码学基础

第1关：哈希函数题目任务描述本关任务：利用哈希算法统计每个字符串出现的个数。相关知识为了完成本关任务，你需要掌握：1.密码学哈希函数的概念及特性，2.安全哈希算法。密码学哈希函数的概念及特性我们需要…

2023.12.4 GIT的概念和组成

目录目录 1.git的介绍 2.git的历史开发者：Linus Torvalds Linux的创始人 3.git和svn的对比 svn:集中式管理 git:分布式管理 4.git管理的组成结构 5.取消git文件夹追踪 1.git的介绍 git是项目版本管理工具,能自动的将多个版本进行管理存储,类似于快照,多个…

10-Hadoop组件开发技术

单选题题目1：下列选项描述错误的是？ 选项: A Hadoop HA即集群中包含Secondary NameNode作为备份节点存在。 B ResourceManager负责的是整个Yarn集群资源的监控、分配和管理工作 C NodeManager负责定时的向ResourceManager汇报所在节点的资源使用情况…

【HDFS】调试慢节点pipiline ack信息

Client - DN1 - DN2 - DN3 DN3 send ack：[0][d3]。 DN2 send ack: [从dn2入队到收到dn3的ack耗时,0] [d2,d3]。 DN1 send ack: [pkt从dn1入队到收到dn2的ack耗时,pkt从dn2入队到收到dn3的ack耗时,0] [d1,d2,d3]。 Client receive: 就是DN1发送过来数据。客户端收到的第一个…

【Hive】——数据仓库

1.1 数仓概念数据仓库（data warehouse）：是一个用于存储，分析，报告的数据系统目的：是构建面向分析的集成化数据环境，分析结果为企业提供决策支持特点： 数据仓库本身不产生任何数据…

记一次CDH集群迁移产生的问题——HIVE

背景生产环境CDH集群迁移到新的环境，迁移之后使用Hive Client方执行任务一直失败。问题1：metadata.SessionHiveMetaStoreClient 产生报错： FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.Ru…

【Hive】——安装部署

1 MetaData（元数据） 2 MetaStore （元数据服务） 3 MetaStore配置方式 3.1 内嵌模式 3.2 本地模式 3.3 远程模式 4 安装前准备 <property><name>hadoop.proxyuser.root.hosts</name><v…

【WPF.NET开发】根据绝对定位构造布局

本文内容系统必备创建项目添加 Panel 控件向面板中添加控件测试布局汇总所有内容在绝对定位中，通过指定子元素相对于其父元素的准确位置来排列子元素。例如，通过指定控件相对于面板的左坐标和上坐标可以在面板上排列控件。适用于 Visual Studio …

HDFS常见题

1. 谈谈什么是Hadoop? Hadoop是一个开源软件框架，用于存储大量数据，并发计算/查询节点的集群上的数据。　　Hadoop包括以下内容： 　　　　HDFS(Hadoop Distributed File System)：Hadoop分布式文件存储系统。　　　　MapReduce&…

【数据开发】Hive 多表join中的条件过滤与指定分区

1、条件过滤 left join 中 on 后面加条件 where 和 and 的区别 1、 on条件是在生成临时表时使用的条件，它不管and中的条件是否为真，都会保留左边表中的全部记录。2、where条件是在临时表生成好后，再对临时表进行过滤的条件。这时已经没有le…

Hive 浅析

Hive是一个简单的LUA沙盒，除了基本的LUA解释器的功能以外，还提供了诸如热加载等功能。了解HIVE的工作原理有利于了解Lua虚拟机的底层实现机理。本文从是什么-怎么用-为什么三个维度介绍HIVE。 Hive Hive是什么 hive是一个简单的LUA应用框架,目前基于…

数据仓库工具Hive

1. 请解释Hive是什么，它的主要用途是什么？ Hive是一个基于Hadoop的数据仓库工具，主要用于处理和分析大规模结构化数据。它可以将结构化的数据文件映射为一张数据库表，并提供类似SQL的查询功能，将SQL语句转换为MapRedu…

hive/spark用法记录

1. cast()更改数据类型 cast(column_name as type) 2. get_dt_date()自定义日期操作函数（返回不带横线的日期） select get_dt_date();–获取当前日期，返回 20170209 select get_dt_date(get_date(-2));–获取当前日期偏移，转为…

【Hadoop】修改YARN配置文件

本节需要修改的 YARN 配置文件保存在$HADOOP_HOME/etc/haoop 目录下，需要修改的文件共有 7 个，分别是：core-site.xml, hadoop-env.sh, hdfs-site.xml, yarn-site.xml, yarn-env.sh, mapred-site.xml, slave. 这些文件的用途： core…

hive-窗口函数

1 窗口函数语法分析函数/专用窗口函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置) 常用的分析函数常用的分析函数：sum()、max()、min()、avg()、count() 常用的专用窗口函数专用窗口函数：row_number()、rank()、dens…

单节点hadoop搭建

下载Hadoop-bin.*.tar.gz 解压文件，配置HADOOP_HOME 编辑文件etc/hadoop/hadoop-env.sh配置JAVA_HOME 配置etc/hadoop/core-site.xml文件 <configuration><property><name>fs.defaultFS</name><value>hdfs://dachengnode1:9000<…

二百一十五、Flume——Flume拓扑结构之复制和多路复用的开发案例（亲测，附截图）

一、目的对于Flume的复制和多路复用拓扑结构，进行一个小的开发测试二、复制和多路复用拓扑结构 （一）结构含义 Flume 支持将事件流向一个或者多个目的地。 （二）结构特征这种模式可以将相同数据复制到多个channe…

【Hive】——CLI客户端(bin/beeline，bin/hive)

1 HiveServer、HiveServer2 2 bin/hive 、bin/beeline 区别 3 bin/hive 客户端 hive-site.xml 配置远程 MateStore 地址 XML <?xml version"1.0" encoding"UTF-8" standalone"no"?> <?xml-stylesheet type"text/xsl" hre…

导入pgsql中的保存的html数据到hive时，换行符无法被repalce

数据如图所示： 当我使用replace函数 \r\n 、\r 、 \n替换时。无论如何都无法替换最终发现可以使用chr(ASCII码) 可以匹配到，坑我好久。 replace(replace(replace(replace(replace(bid_html_con, chr(9),),chr(10),),chr(13),),chr(160),),chr(32),)

2023.12.14 hive sql的聚合增强函数 grouping set

目录 1.建库建表 2.需求 3.使用union all来完成需求 4.聚合函数增强 grouping set 5.聚合增强函数cube ,rollup 6.rollup翻滚 7.聚合函数增强 -- grouping判断 1.建库建表 -- 建库 create database if not exists test; use test; -- 建表 create table test.t_cookie(month …

Doris分区与分桶（八）

接上篇----------Doris 建表示例 Doris 支持两层的数据划分。第一层是 Partition，支持 Range 和 List 的划分方式。第二层是 Bucket（Tablet），仅支持 Hash 的划分方式。也可以仅使用一层分区。使用一层分区时，只支持…

WIN10下解决HIVE 初始化MYSQL表报错：Unknown version specified for initialization

今天本地WINDOWS装HIVE，走到最后一步初始化数据库死活不通过： D:\hive\hive-rel-release-3.1.3\bin\ext>hive --service schematool -dbType mysql -initSchema --verbose SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found bind…

【Hive】——DDL（CREATE TABLE）

1 CREATE TABLE 建表语法 2 Hive 数据类型 2.1 原生数据类型 2.2 复杂数据类型 2.3 Hive 隐式转换 2.4 Hive 显式转换 2.5 注意 3 SerDe机制 3.1 读写文件机制 3.2 SerDe相关语法 3.2.1 指定序列化类（ROW FORMAT SERDE ‘’） 3.2.2 指定分隔符&#xff0…

hive客户机执行sql脚本无法显示表头

hive客户机执行sql脚本无法显示表头临时跑数在sql脚本前加以下语句 set hive.cli.print.headertrue; 日常跑数不想每次跑数前都执行以下 1、在home路径下创建 .hiverc 文件 vim .hiverc 2、在文件中copy下面这句话 set hive.cli.print.headertrue; 3、保存文件并退出这…

大数据技术11：Hadoop 原理与运行机制

前言：HDFS （Hadoop Distributed File System）是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。一、Hadoop简介 1.1、Hadoop定义 Hadoop 作为一个开源分布式系统基础框架&#x…

【Hive_02】查询语法

1、基础语法2、基本查询（Select…From）2.1 全表和特定列查询2.2 列别名2.3 Limit语句2.4 Where语句2.5 关系运算函数2.6 逻辑运算函数2.7 聚合函数 3、分组3.1 Group By语句3.2 Having语句3.3 Join语句（1）等值与不等值Join&#x…

Hadoop和Spark的区别

Hadoop 表达能力有限。磁盘IO开销大，延迟度高。任务和任务之间的衔接涉及IO开销。前一个任务完成之前其他任务无法完成，难以胜任复杂、多阶段的计算任务。 Spark Spark模型是对Mapreduce模型的改进，可以说没有HDFS、Mapreduce就没有Spark。…

HiveSQL基础之窗口函数

1. 累计窗口函数 sum(…) over(…)2018年每月支付总额和当年累积支付总额 SELECT a.month,a.pay_amount,sum(a.pay_amount) over(order by a.month) FROM(SELECT month(dt) as month,sum(pay_amount) as pay_amountFROM user_tradeWHERE year(dt)2018GROUP BY month(dt)) as …

Ubuntu下配置hadoop环境

实现真正的分布式的hadoop，并不是伪分布式的。一、系统与配置共准备2台机器搭建Hadoop集群。基于Ubuntu14.04，jdk1.6.0_45，Hadoop1.0.3版本，虚拟机使用VMware10.0 192.168.1.10　　NameNode　　master （master&…

hadoop伪分布式安装记录

引语: 最近想接触一些大数据相关的技术,所以有了这篇文章,其实就是记录一下自己学习hadoop的过程,如果文章中有啥写的不对的地方,还望指正(有java开发经验,但是是大数据小白一只,各位大神轻喷.) 我先是在网上搜索了一波大数据应该要学些什么技术,基本上不约而同的都是指向了had…

任务调度器之Azkaban的使用

任务调度器之Azkaban的使用Azkaban概述安装Azkaban单服务模式准备解压安装启动solo-server访问Web使用两个服务器模式准备初始化数据库解压安装SSL安全认证安装Azkaban Web Server安装Azkaban Executor Server启动服务访问Web使用测试任务提交与执行Command类型定时任务HDFS操作…

Docker安装Hive与Windows安装Hive

Docker安装Hive与Windows安装HiveDocker安装Hive下载复制到容器内部进入容器解压及重命名修改hive-env.sh创建hive-site.xml添加驱动包创建数据库启动HiveWindows安装Hive下载Hive配置hive-env.sh配置hive-default.xml添加驱动包创建数据库启动HiveDocker安装Hive 由于使用Doc…

Hadoop之计算框架Tez的基本使用

Hadoop之计算框架Tez的基本使用Tez概述Tez编译下载Tez源码修改pom.xml开始编译Tez与Hadoop上传Tez到HDFS创建配置文件tez-site.xml配置环境变量Tez和Hadoop的兼容作业测试Tez与Hive整合拷贝Jar修改hive-site.xml配置文件重启HiveTez参数设置Tez优化内存大小设置JVM参数设置Hive…

Java操作Apache HBase API以及HBase和MapReduce整合

Java操作HBase API 添加依赖 <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>org.apache.hadoop</g…

详细记录Linux服务器搭建Hadoop3高可用集群

详细记录Linux服务器搭建Hadoop3高可用集群搭建Hadoop3高可用集群下载Hadoop修改集群环境修改配置文件修改环境变量分发软件到其他节点启动Zookeeper启动JournalNode格式化NameNode启动ZKFC启动HDFS启动yarn查看进程主备切换测试作业测试搭建Hadoop3高可用集群 Hadoop节点Name…

分布式存储系统HDFS之Java API操作

分布式存储系统HDFS之Java API操作安装HadoopHDFS架构设计API操作添加依赖获取FileSystem遍历所有文件文件权限问题创建文件夹及文件删除文件夹及文件文件上传文件下载小文件合并安装Hadoop Docker安装Hadoop Linux服务器搭建Hadoop3.X完全分布式集群环境 HDFS架构设计 HDFS…

Windows安装Hadoop3.x及在Windows环境下本地开发

Windows安装Hadoop3.x及在Windows环境下本地开发下载安装官网：https://hadoop.apache.org/ 访问：https://archive.apache.org/dist/hadoop/common/ 下载hadoop.tar.gz并解压到指定目录访问https://github.com/cdarlint/winutils选择合适版本对应的…

详细记录Linux服务器搭建Hadoop3.X完全分布式集群环境

详细记录Linux服务器搭建Hadoop3.X完全分布式集群环境 Hadoop节点NameNodeSecondary NameNodeDataNodeResource ManagerNodeManagernode001****node002***node003** 下载Hadoop 下载地址：https://archive.apache.org/dist/hadoop/core/ cd /usr/local/programwge…

Linux服务器使用Docker安装Hadoop

Linux服务器使用Docker安装Hadoop search hadoop 查找合适的Hadoop镜像 [rootadministrator ~]# docker search hadoop NAME DESCRIPTION STARS OFFICIAL AUTOMATED sequenceiq/hadoop-docker …

Linux服务器搭建Hadoop单节点伪分布式

Linux服务器搭建Hadoop单节点伪分布式官网：https://hadoop.apache.org/ 安装Hadoop 下载地址：https://archive.apache.org/dist/hadoop/core/ wget http://archive.apache.org/dist/hadoop/core/hadoop-3.3.2/hadoop-3.3.2.tar.gz解压且重命名 tar…

大数据项目实战---电商埋点日志分析（第八部分，用户留存主题（DWS层+ADS层）

1）创建每日留存用户明细表dws_user_retention_day并加载数据。 2）创建每日留存用户数表ads_user_retention_day_count并加载数据。 3)创建每日留存用户比例表ads_user_retention_day_rate并加载数据为了能够尽快地找到新工作，这个项目先到这…

大数据项目实战---电商埋点日志分析（第七部分，每日新增设备主题（DWS层+ADS层）

1）创建设备按天明细表，dws_new_mid_day并加载数据。 2）创建每日新增设备表，ads_new_mid_count并加载数据。下一章 https://blog.csdn.net/hailunw/article/details/118611510

大数据项目实战---电商埋点日志分析（第五部分，DWS层之用户活跃主题）

1）创建用户按天明细表，dws_uv_detail_day并加载数据。 2）创建用户按周明细表，dws_uv_detail_wk并加载数据。 3）创建用户按月明细表，dws_uv_detail_mn并加载数据。下一章 https://blog.csdn.net/hailunw/ar…

HIVE中UDTF的使用

1）创建Maven工程 2）项目pom.xml文件中添加hive的依赖。 3) 创建类EventJsonUDTF.

Hadoop HA集群怎么格式化namenode？

http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithNFS.html 1）停止Hadoop集群 2）在所有服务器上执行命令行 rm -rf /home/user/hadoop-3.2.2/tmp/* rm -rf /home/user/hadoop-3.2.2/journal/ns1/*3)确…

大数据项目实战---电商埋点日志分析（第二部分，ODS层）

安装部署HIVE 1)安装Hive并且使用mysql作为后台数据库，来支持多客户端。 https://blog.csdn.net/hailunw/article/details/117879021 2）安装，性能优于MR的，tez引擎。 https://blog.csdn.net/hailunw/article/details/118540120…

Hadoop环境的基准测试----自己电脑搭虚拟机的话就别测了，我电脑的主板差点烧了。

写文件测试 [userNewBieMaster sbin]$ hadoop jar /home/user/hadoop-3.2.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.2.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 8MB 2021-07-03 15:28:52,823 INFO fs.TestDFSIO: TestDFSIO.1.8 2021-07-03 …

十六、YARN和MapReduce配置

1、部署前提 （1）配置前提已经配置好Hadoop集群。配置内容： （2）部署说明 （3）集群规划 2、修改配置文件 MapReduce （1）修改mapred-env.sh配置文件 export JAVA_HOM…

hadoop-yarn简介及常用命令详解（超详细）

文章目录前言一、YARN概述1. YARN简介2. YARN架构(1) ResourceManager（资源管理器）(2) NodeManager（节点管理器）(3) ApplicationMaster（应用程序管理器） 3. YARN特点(1) 分布式资源管理(2) 多框架支持(3) …

Sqoop基础理论与常用命令详解（超详细）

文章目录前言一、Sqoop概述1. Sqoop简介2. Sqoop架构(1) Sqoop Client(2) Sqoop Server(3) Connector(4) Metastore(5) Hadoop/HDFS 3. Sqoop特点(1) 简化数据传输(2) 高效处理大数据量(3) 灵活的数据格式支持(4) 丰富的连接器支持(5) 数据压缩和加密(6) 与Hadoop生态系统集成…

Hadoop(2)：常见的MapReduce[在Ubuntu中运行！]

1 以词频统计为例子介绍 mapreduce怎么写出来的弄清楚MapReduce的各个过程： 将文件输入后，返回的<k1,v1>代表的含义是：k1表示偏移量，即v1的第一个字母在文件中的索引（从0开始数的）；v1表…

云计算与大数据之间的羁绊（期末不挂科版）：云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

文章目录前言：一、云计算1.1 云计算的基本思想1.2 云计算概述——什么是云计算？1.3 云计算的基本特征1.4 云计算的部署模式1.5 云服务1.6 云计算的关键技术——虚拟化技术1.6.1 虚拟化的好处1.6.2 虚拟化技术的应用——12306使用阿里云避免了高峰期的崩…

【Hive_04】分区分桶表以及文件格式

1、分区表1.1 分区表基本语法（1）创建分区表（2）分区表读写数据（3）分区表基本操作 1.2 二级分区1.3 动态分区 2、分桶表2.1 分桶表的基本语法2.2 分桶排序表 3、文件格式与压缩3.1 Hadoop压缩概述3.2 Hive文件…

Servlet技术之HttpServletRequest和HttpServletResponse

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加 Servlet技术j详解1 提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、Servlet简介二、S…

【Hive】——函数案例

1 Hive 多字节分隔符处理 1.1 默认规则 Hive默认序列化类是LazySimpleSerDe，其只支持使用单字节分隔符（char）来加载文本数据，例如逗号、制表符、空格等等，默认的分隔符为”\001”。根据不同文件的不同分隔符&#xf…

大数据-Hive练习-环比增长率、同比增长率、复合增长率

目录 🥙12.1 环比增长率 1. 概述 2. 公式 3. 示例 4.练习-需求:计算各类商品的月环比增长率 🥙12.2 同比增长率 1. 概述 2. 公式 3. 示例 4. 练习-需求:计算各类商品的月同比增长率 🥙12.3 复合增长率 1. 概述 2. 公式 3. 示例…

Hive实战：词频统计

文章目录一、实战概述二、提出任务三、完成任务（一）准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录 （二）实现步骤1、启动Hive Metastore服务2、启动Hive客户端3、基于HDFS文件创建外部表4、利用Hive SQL…

Hadoop集成对象存储和HDFS磁盘文件存储

1.环境配置 1.1 版本说明组件版本是否必须其他事项Hadoop3.3.0是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用sparksql，使用hive更好的管理HDFS数据spark3.3.1是hive和spark整合后，语法为HSQL，自定义函数按…

hadoop hive spark flink 安装

下载地址 Index of /dist ubuntu安装hadoop集群准备 IP地址主机名称192.168.1.21node1192.168.1.22node2192.168.1.23node3 上传 hadoop-3.3.5.tar.gz、jdk-8u391-linux-x64.tar.gz JDK环境 node1、node2、node3三个节点解压 tar -zxvf jdk-8u391-linux-x64.tar.gz…

华为的OD，值得去吗？

最近有不少小伙伴接到了华为OD的面试邀约，但搞不清楚OD到底怎么回事儿，要不要去。所以今天来说说华为的OD到底是怎么回事儿，怎么判断是否值得去。 1、华为的OD是怎么回事儿 OD，是Outsourcing Dispacth的缩写，简单粗暴地…

5.4 压缩

5.4 压缩为了节省存储空间和网络数据传输量，我们会反复提到压缩这个问题。当处理大量数据时，只要有办法减少存储空间和网络数据传输量，就能在速度和成本两方面给予效率提升。压缩就是这样一种策略，能帮助基于Hadoop更高效。所有…

5.1 Hadoop数据序列化

5.1 Hadoop数据序列化尽管我们看到的数据是结构化的形式，但数据的原始形式是序列化的比特或比特流。数据以这种原始形式通过网络传输，然后保存在RAM或其他持久性存储媒体中。序列化过程就是把结构化的数据转换为原始形式。反序列化过程则相反&#xff0…

spark深度剖析

spark深度剖析环境spark运行流程总体视图分层视图角色划分资源层计算层RDDRDD依赖关系RDD操作任务调度job、stage、task及关系概念关系DAGScheduler测试数据代码运行结果TaskSchedulerTask调度流程任务启动任务执行任务执行流程内存管理核心类图StaticMemoryManagerUnifiedMemo…

zookeeper 安装 windows环境

目录(?)[] 1. 概述 ZooKeeper是Hadoop的正式子项目，它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和…

java遍历hdfs路径信息，报错EOFException

文章目录代码代码 FileSystem fsFileSystem.get(new URI("hdfs://192.168.20.91:9000"), new Configuration(), "hdfs");ContentSummary in fs.getContentSummary(new Path("/apps/hbase/data/data/default"));报错原因：指定的hdfs端…

Hadoop学习笔记（一）分布式文件存储系统 —— HDFS

概念 HDFS （Hadoop Distributed File System），Hadoop分布式文件系统，用来存超大文件的。 HDFS 遵循主/从架构，由单个 NameNode(NN) 和多个 DataNode(DN) 组成： NameNode : 负责执行有关文件系统命名空间…

【问题】hadoop读取文件失败

环境 hadoop3.2.1 要实现的功能和代码读取hdfs上的文件。 Configuration conf new Configuration(); try (FileSystem fs FileSystem.get(conf)) {Path basePath new Path("hdfs://hdfs-cluster/");FileStatus[] files fs.listStatus(basePath);for (FileSt…

hbase执行org.apache.hadoop.hbase.mapreduce.RowCounter出错

需求统计hbase某个表的所有rowkey数量方法使用hbase提供的类，RowCounter。具体命令： ./hbase org.apache.hadoop.hbase.mapreduce.RowCounter table_name出现异常命令执行后控制台出现以下错误： 2021-04-21 15:46:19,787 INFO [m…

常用的HDFS操作

首先启动Hadoop start-all.sh如果出现 Starting namenodes on [localhost] localhost: hadooplocalhost: Permission denied (publickey,password). Starting datanodes localhost: hadooplocalhost: Permission denied (publickey,password). Starting secondary namenodes […

Hadoop学习篇(二)——HDFS编程操作2

上篇链接： Hadoop学习篇(二)——HDFS编程操作1 Hadoop学习篇(二)——HDFS编程操作2 说明：如涉及到侵权，请及时联系我，并在第一时间删除文章。 2.3.2 编程操作 HDFS的编程操作，实际上就是用高级语言模拟HDFS的命令…

Hadoop生产集群各种维护命令

1.HDFS运维 1.1 HDFS集群操作命令 #HDFS集群启停 start-dfs.sh stop-dfs.sh #获取HDFS集群信息 hdfs dfsadmin -report #namenode和datanode启动停止命令 hdfs --daemon stop datanode hdfs --daemon stop namenode hdfs --daemon start namenode hdfs --daemon start dat…

【HDFS联邦（2）】HDFS Router-based Federation官网解读：HDFSRouterFederation的架构、各组件基本原理

文章目录一. 介绍二、HDFS Router-based Federation 架构1. 示例说明2. Router2.1. Federated interface2.2. Router heartbeat2.3. NameNode heartbeat2.4. Availability and fault toleranceInterfaces 3. Quota management4. State Store 三、部署 ing 本文主要参考官网&am…

EMR集群迁移自建Hadoop(元数据及HDFS数据）

1.背景老集群采用的腾讯emr集群，使用过程中磁盘扩容成本费用高且开源组件兼容性存在问题，因此决定采用自建hadoop集群，需要将emr的元数据和hdfs基础数据迁移过来。 EMR版本：3.1.2 自建Hadoop版本：3.1.3 2.集群迁移步…

HDFS客户端UnknownHostException事故解析

文章目录前言事故现场问题分析是否是整个域名解析服务当时都出问题了是否是出问题的pods本身的域名解析有问题异常发生的全部过程域名的解析是什么时候发生的，怎么发生的域名解析的详细流程重试发生在什么地方为什么重试会无效 Bugfix代码详解关于StandardHostRe…

Hadoop之Yarn 详细教程

1、yarn 的基本介绍和产生背景 YARN 是 Hadoop2 引入的通用的资源管理和任务调度的平台，可以在 YARN 上运行 MapReduce、Tez、Spark 等多种计算框架，只要计算框架实现了 YARN 所定义的接口，都可以运行在这套通用的 Hadoop 资源管理和任务调…

【2023】通过docker安装hadoop以及常见报错

💻目录 1、准备2、安装镜像2.1、创建centos-ssh的镜像2.2、创建hadoop的镜像 3、配置ssh网络3.1、搭建同一网段的网络3.2、配置host实现互相之间可以免密登陆3.3、查看是否成功 4、安装配置Hadoop4.1、添加存储文件夹4.2、添加指定配置4.3、同步数据 5、测试启动5.1…

Hive集群出现报错信息解决办法

一、报错信息：hive> show databases;FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 解决办法：1.删除mysql中的元数据库（metastore&#xff0…

Filter过滤器的使用！！！

Hive中支持毫秒级别的时间精度

实际上，Hive 在较新的版本中已经支持毫秒级别的时间精度。你可以通过设置 hive.exec.default.serialization.format 和 mapred.output.value.format 属性为 1，启用 Hive 的时间精度为毫秒级。可以使用以下命令进行设置： set hive.exec.defau…

三台CentOS7.6虚拟机搭建Hadoop完全分布式集群（一）

这个是笔者大学时期的大数据课程使用三台CentOS7.6虚拟机搭建完全分布式集群的案例，已成功搭建完全分布式集群，并测试跑实例。 1.安装CentOS 7.6虚拟机 1.1安装完虚拟机发现没有sudo命令和hadoop用户执行命令失败我在安装CentOS 7.6虚拟机后&#xf…

hive多分隔符外表支持

在hive 外表关联文本的时候有时会遇到不是一个长度的分割符比如"~" 这种。这个时候使用shell命令多处理一步处理成单分隔符也可以，但是会有出错的风险。我们可以通过hive中指定的序列类来完成多分隔符的识别。 CREATE EXTERNAL TABLE text_mid1( id STRI…

Hadoop安装笔记1单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

将下发的ds_db01.sql数据库文件放置mysql中 12、编写Scala代码，使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info。字段名称、类型不变，同时添加静态分区，分区字段为etl_date，类型为String&am…

PiflowX组件-JDBCWrite

JDBCWrite组件组件说明使用JDBC驱动向任意类型的关系型数据库写入数据。计算引擎 flink 有界性 Sink: Batch Sink: Streaming Append & Upsert Mode 组件分组 Jdbc 端口 Inport：默认端口 outport：默认端口组件属性名称展示名称默…

Hive学习（13）lag和lead函数取偏移量

hive里面lag函数在数据处理和分析中，窗口函数是一种重要的技术，用于在数据集中执行聚合和分析操作。Hive作为一种大数据处理框架，也提供了窗口函数的支持。在Hive中，Lag函数是一种常用的窗口函数，可以用于计算前一行…

【Hadoop】HDFS简介——是什么/优缺点/适用场景

HDFS是什么HDFS的优点/特性HDFS适用场景HDFS的缺点与不足HDFS 不适用场景 HDFS是什么源自Google的GFS论文 Google于2003年10月发表HDFS是GFS的一个克隆版 HDFS(Hadoop Distributed File System) 是易于扩展的分布式文件系统。易扩展意味着如果文件系统大小不够可以增加节点运…

【Hive】——DDL（DATABASE）

1 概述 2 创建数据库 create database if not exists test_database comment "this is my first db" with dbproperties (createdByAllen);3 描述数据库信息 describe 可以简写为desc extended 可以展示更多信息 describe database test_database; describe databa…

基于Hadoop的智慧社区大数仓库系统设计与开发

基于Hadoop的智慧社区大数仓库系统设计与开发 Design and Development of a Smart Community Data Warehouse System based on Hadoop 目录目录 2 摘要 3 关键词 4 第一章绪论 4 1.1 研究背景 4 1.2 研究目的与意义 5 1.3 国内外研究现状 6 1.4 主要研究内容 8 1.5 研究方法与…

Hadoop 实战 | 倒排索引 InvertedIndex

倒排索引概念倒排索引（Inverted Index）是信息检索领域中的一种数据结构，它是一种反转（倒排）文档-词项关系的数据结构，以支持通过词项来查找相关文档。在倒排索引中，每个词项都被映射到包含该…

hive的分区表和分桶表详解

分区表 Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录，每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区，这样的查询效率会提高很多。静态分区表基本语法创建分区表 create table dept_p…

SparkSQL和Hive语法差异

SparkSQL和Hive语法差异 1、仅支持Hive SparkSQL关联条件on不支持函数rand()创建零时表时，Spark不支持直接赋值nullSpark无法读取字段类型为void的表SparkSQL中如果表达式没有指定别名，SparkSQL会将整个表达式作为别名，如果表达式中包含特殊…

用户行为分析遇到的问题-ubantu16,hadoop3.1.3

用户行为分析传送门我的版本 ubantu16 hadoop 3.1.3 habse 2.2.2 hive3.1.3 zookeeper3.8.3 sqoop 1.46/1.47 我sqoop把MySQL数据往hbase导数据时候有问题重磅：大数据课程实验案例：网站用户行为分析（免费共享） 用户行为分析-小…

Hadoop Single Node Cluster的安装

Hadoop Single Node Cluster的安装安装JDK查看java -version更新本地软件包安装JDK查看java安装位置设置SSH无密码登录安装hadoop下载安装设置hadoop环境变量修改hadoop配置设置文件设置core-site.xml设置YARN-site.xml设置mapred-site.xml设置HDFS分布式文件系统创建并格式化…

JavaWeb——第五章 Servlet

第五章 Servlet 一 Servlet简介1.1 动态资源和静态资源1.2 Servlet简介二 Servlet开发流程2.1 目标2.2 开发过程三 Servlet注解方式配置3.1 WebServlet注解源码3.2 WebServlet注解使用四 Servlet生命周期4.1 生命周期简介4.2 生命周期测试4.3 生命周期总结五 Servlet继承结…

hive企业级调优策略之CBO,谓词下推等优化

测试所用到的数据参考： 原文链接：https://blog.csdn.net/m0_52606060/article/details/135080511 本教程的计算环境为Hive on MR。计算资源的调整主要包括Yarn和MR。 CBO优化优化说明 CBO是指Cost based Optimizer，即基于计算成本的优化…

hive企业级调优策略之分组聚合优化

测试用表准备 hive企业级调优策略测试数据 (阿里网盘下载链接)：https://www.alipan.com/s/xsqK6971Mrs 订单表(2000w条数据) 表结构建表语句 drop table if exists order_detail; create table order_detail(id string comment 订单id,user_id …

使用 PySpark 进行数据清洗与 JSON 格式转换的实践详解（保姆级编码教程）

在大数据处理中，PySpark 提供了强大的工具来处理海量数据，特别是在数据清洗和转换方面。本文将介绍如何使用 PySpark 进行数据清洗，并将数据格式转换为 JSON 格式的实践。简介 PySpark 是 Apache Spark 的 Python API，可用于处…

Hive参数操作和运行方式

Hive参数操作和运行方式 1、Hive参数操作 1、hive参数介绍 hive当中的参数、变量都是以命名空间开头的，详情如下表所示： 命名空间读写权限含义hiveconf可读写hive-site.xml当中的各配置变量例：hive --hiveconf hive.cli.print.headert…

hive企业级调优策略之小文件合并

测试所用到的数据参考： 原文链接：https://blog.csdn.net/m0_52606060/article/details/135080511 本教程的计算环境为Hive on MR。计算资源的调整主要包括Yarn和MR。优化说明小文件合并优化，分为两个方面，分别是Map端输入的小…

Flink 状态管理与容错机制(CheckPoint SavePoint)的关系

一、什么是状态无状态计算的例子： 例如一个加法算子，第一次输入235那么以后我多次数据23的时候得到的结果都是5。得出的结论就是，相同的输入都会得到相同的结果，与次数无关。有状态计算的例子： 访问量的统计&#x…

【湖仓一体尝试】MYSQL和HIVE数据联合查询

爬了两天大大小小的一堆坑，今天把一个简单的单机环境的流程走通了，记录一笔。先来个完工环境照： mysqlhadoophiveflinkicebergtrino 得益于IBM OPENJ9的优化，完全启动后的内存占用： 1）执行联合查询后的…

Hive的四种排序方法

Hive的四种排序方法 hive排序方法,hive的排序方式 hive有四种排序方法: ORDER BY 、SORT BY 、DISTRIBUTE BY 、CLUSTER BY 0. 测试数据准备 --数据准备 WITH t_emp_info AS ( SELECT * FROM (VALUES (1001, 研发部, 16000 ), (1002, 市场部, 17000 ), (1003, 销售部, 1100…

【hive】Hive中的大宽表及其底层详细技术点

简介: 在大数据环境中，处理大规模数据集是常见的需求。为了满足这种需求，Hive引入了大宽表（Large Wide Table）的概念，它是一种在Hive中管理和处理大量列的数据表格。本文将详细介绍Hive中的大宽表概念以及其底层的详细…

hive sql常用函数

目录一、数据类型二、基础运算三、字符串函数 1、字符串长度函数: length() 2、字符串反转函数：reverse 3、字符串连接函数 4、字符串截取函数 5、字符串分割函数：split 6、字符串查找函数 7、ascii 8、base64 9、character_length 10、c…

hadoop02_HDFS的API操作

HDFS的API操作 1 HDFS 核心类简介 Configuration类：处理HDFS配置的核心类。 FileSystem类：处理HDFS文件相关操作的核心类,包括对文件夹或文件的创建，删除，查看状态，复制，从本地挪动到HDFS文件系统中等。…

【Hive】——函数

1 概述 2 内置函数内置函数（build-in）指的是Hive开发实现好，直接可以使用的函数,也叫做内建函数。官方文档地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManualUDF describe function extended get_json_obj…

Hadoop入门学习笔记——三、使用HDFS文件系统

视频课程地址：https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 Hadoop入门学习笔记（汇总） 目录三、使用HDFS文件系统3.1. 使用命令操作HDFS文件系统3.1.…

SpringBoot 3 集成Hive 3

前提条件: 运行环境：Hadoop 3.* Hive 3.* MySQL 8 ，如果还未安装相关环境，请参考：Hive 一文读懂 Centos7 安装Hadoop3 单机版本（伪分布式版本） SpringBoot 2 集成Hive 3 pom.xml <?xml ver…

Hive自定义函数详解

1.hive函数各种命令查看系统自带的函数 hive> show functions; -- 显示自带的函数的用法 hive> desc function upper; -- 详细显示自带的函数的用法 hive> desc function extended upper; -- 添加jar包到hive中 add jar /data/xx.jar; -- 创建自定义函数 create fu…

Hive用户自定义函数之UDF开发

在进行大数据分析或者开发的时候，难免用到Hive进行数据查询分析，Hive内置很多函数，但是会有一部分需求需要自己开发，这个时候就需要自定义函数了，Hive的自定义函数开发非常方便，今天首先讲一下UDF的入门开发…

Hadoop集群环境下HDFS实践编程过滤出所有后缀名不为“.abc”的文件时运行报错：java.net.ConnectException: 拒绝连接；

一、问题描述搭建完Hadoop集群后，在Hadoop集群环境下运行HDFS实践编程使用Eclipse开发调试HDFS Java程序（文末有源码）： 假设在目录“hdfs://localhost:9000/user/hadoop”下面有几个文件，分别是file1.txt、file2.tx…

【kettle】pdi/data-integration 打开ktr文件报错“Unable to load step info from XML“

一、报错内容： Unable to load step info from XML step nodeorg.pentaho.di.core.exception.KettleXMLException: Unable to load step info from XMLat org.pentaho.commons.launcher.Launcher.main (Launcher.java:92)at java.lang.reflect.Method.invoke (Met…

Hive - Select 使用 in 限制范围

目录一.引言二.Select Uid Info 1.少量 Uid 2.大量 Uid ◆ 建表 ◆ 本地 Load ◆ HDFS Load ◆ Select In 三.总结一.引言工业场景下 Hive 表通常使用 uid 作为用户维度构建和更新 Hive 表，当我们需要查询指定批次用户信息时，可以使用 in …

Hive10_窗口函数

窗口函数（开窗函数） 1 相关函数说明普通的聚合函数聚合的行集是组,开窗函数聚合的行集是窗口。因此,普通的聚合函数每组(Group by)只返回一个值，而开窗函数则可为窗口中的每行都返回一个值。简单理解，就是对查询的结果多出一列…

2024.1.2 Spark 简介,架构,环境部署,词频统计

目录一. Spark简介二 . Spark 框架模块三. 环境准备 3.1 Spark Local模式搭建 3.2 通过Anaconda安装python3环境 3.3 PySpark库安装四 . Spark集群模式架构介绍五. pycharm远程开发环境六. Spark词频统计一. Spark简介 1. Spark 和MapReduce MR:大量的磁盘反复…

Hive自定义函数支持国密SM4解密

当前项目背景需要使用到国密SM4对加密后的数据进行解密，Hive是不支持的，尝试了华为DWS数仓，华为只支持在DWS中的SM4加密解密，不支持外部加密数据DWS解密新建Maven工程只需要将引用的第三方依赖打到jar包中，hadoop和…

StreamPark + PiflowX 打造新一代大数据计算处理平台

🚀 什么是PiflowX PiFlow 是一个基于分布式计算框架 Spark 开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件，以所见即所得方式进行流水线配置。简单易用，功能强大。它具有如下特性： 简单易用…

数仓工具—Hive进阶之StorageHandler(23)

Storage Handler 引入Storage Handler，Hive用户使用SQL的方式读写外部数据源, 例如ElasticSearch、 Kafka、HBase等数据源的查询对非专业开发是有一定门槛的，借助Storage Handler，他们有了一种方便快捷的手段查询数据，Storage Handler作为Hive的存储插件，我们需要的时候直…

创建第一个SpringMVC项目，入手必看！

文章目录创建第一个SpringMVC项目，入手必看！1、新建一个maven空项目，在pom.xml中设置打包为war之前，右击项目添加web框架2、如果点击右键没有添加框架或者右击进去后没有web框架，点击左上角file然后进入项目结构在模块…

2024 1.9 Spark_SQL , 数据清洗API , 写出操作

目录一. DataFrame 详解 1. 数据清洗API 1.去重 : 2. 去除空: 3. 填充替换 : 2. SparkSQL的shuffle分区设置 3 . SparkSQL 数据写出操作 3.1 写出到文件系统 3.2 写出到数据库一. DataFrame 详解 1. 数据清洗API 1.1 去重 : DropDupilcates : init_df.dropDuplicates().…

Hive之set参数大全-4

F 指定在使用 FETCH 命令提取查询结果时的序列化/反序列化器 hive.fetch.output.serde 是 Hive 的一个配置参数，用于指定在使用 FETCH 命令提取查询结果时的序列化/反序列化器。以下是一个示例： -- 设置 hive.fetch.output.serde 为 org.apache.had…

深入理解 Hadoop （四）HDFS源码剖析

HDFS 集群启动脚本 start-dfs.sh 分析启动 HDFS 集群总共会涉及到的角色会有 namenode, datanode, zkfc, journalnode, secondaryName 共五种角色。 JournalNode 核心工作和启动流程源码剖析 // 启动 JournalNode 的核心业务方法 public void start() throws IOException …

HDFS相关API操作

文章目录 API文档环境配置API操作准备工作创建文件夹文件上传文件下载文件删除文件的更名和移动获取文件详细信息 API文档 HDFS API官方文档：https://hadoop.apache.org/docs/r3.3.1/api/index.html 环境配置将Hadoop的Jar包解压到非中文路径（例如D:…

Hive操作命令上手手册

内容来自于《大数据Hive离线计算开发实战》 Hive原理 Hive是一个基于Hadoop的数据仓库和分析系统，用于管理和查询大型数据集。以下是Hive的原理： 数据仓库：Hive将结构化的数据文件映射成一张表，并提供类SQL查询功能。用户可以使…

PiflowX-MysqlCdc组件

MysqlCdc组件组件说明 MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。计算引擎 flink 组件分组 cdc 端口 Inport：默认端口 outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子hostnameHostname“”无是MySQL…

2024.1.10 SparkSQL ,函数分类, Spark on HIVE,底层执行流程

目录一 . 开窗函数二 . SparkSQL函数定义 1. HIVE_SQL用户自定义函数 2.Spark原生UDF 3. pandasUDF 4. pandasUDAF 三. Spark on HIVE 四.SparkSQL的执行流程一 . 开窗函数分析函数 over(partition by xxx order by xxx [asc|desc] [rows between xxx and xxx]) 分析函…

Hive命令调优大全

– explain语法查询** – explain解析执行计划 – 以下优化为hive层面优化,常开**** – 读取零拷贝 set hive.exec.orc.zerocopy=true; – 默认false – 关联优化器 set hive.optimize.correlation=true; – 默认false – fetch本地抓取 set hive.fetch.task.conversion=min…

2024.1.8 Day04_SparkCore_homeWork

目录 1. 简述Spark持久化中缓存和checkpoint检查点的区别 2 . 如何使用缓存和检查点? 3 . 代码题浏览器Nginx案例先进行数据清洗,做后续需求用 1、需求一：点击最多的前10个网站域名 2、需求二：用户最喜欢点击的页面排序TOP10 3、需求三&#x…

深入理解 Flink（八）Flink Task 部署初始化和启动详解

JobMaster 部署 Task 核心入口： JobMaster.onStart();部署 Task 链条：JobMaster --> DefaultScheduler --> SchedulingStrategy --> ExecutionVertex --> Execution --> RPC请求 --> TaskExecutor TaskExecutor 处理 JobMaster 的 …

Hive 数据同步

一、需求同步集团的数据到断直连环境。二、思路三、同步数据（方案） 1、环境：断直连模拟环境 2、操作机器：ETL 机器 XX.14.36.216 3、工作路径：cd /usr/local/fqlhadoop/hadoop/bin 4、执行命令： 命令…

大数据技术原理与应用期末复习知识点全总结（林子雨版

目录 1.第一章大数据概述：（一）三次信息化浪潮（二）人类社会数据产生方式的3个阶段（三）大数据的3个发展阶段（四）大数据4V概念（五）数据存储单位之间…

深入理解 Hadoop （三）HDFS文件系统设计实现

HDFS FileSystem NameNode 端抽象实现 HDFS 磁盘元数据文件解读共有五种格式的文件： edits_0000000000000041912-0000000000000041913：该 LogSegment 记录了 transaction id 在 41912-41913 之间的事务日志。(最多保留 50 个) edits_inprogress_000000…

Sqoop与其他数据采集工具的比较分析

比较Sqoop与其他数据采集工具是一个重要的话题，因为不同的工具在不同的情况下可能更适合。在本博客文章中，将深入比较Sqoop与其他数据采集工具，提供详细的示例代码和全面的内容，以帮助大家更好地了解它们之间的差异和优劣势。 Sq…

Hive基础知识（十四）：Hive的八种Join使用方式与优缺点

1. 等值 Join Hive 支持通常的 SQL JOIN 语句。 1）案例实操 （1）根据员工表和部门表中的部门编号相等，查询员工编号、员工名称和部门名称； select e.ename,e.empno,d.dname from emp e join dept d on e.deptno d.de…

CDH6.3.2，不互通的cdh平台互导hive数据

1、先导出所有建表语句，在源CDH服务器命令行输入下面命令，该库下所有建表语句保存至hive目录中的tables.sql文件中，不知道具体路径可以全局搜索一下，拿到源库hive的建表语句后，稍微处理一下，去目标库把表建…

HDFS和MapReduce综合实训

文章目录第1关：WordCount词频统计第2关：HDFS文件读写第3关：倒排索引第4关： 网页排序——PageRank算法第1关：WordCount词频统计测试说明以下是测试样例： 测试输入样例数据集：文本文档test1…

Hadoop分布式文件系统(三)

目录一、Hadoop 1、MapReduce 1.1、理解MapReduce思想 1.2、分布式计算概念 1.3、MapReduce介绍 1.4、MapReduce特点 1.5、MapReduce局限性 1.6、MapReduce实例进程 1.7、MapReduce阶段组成 1.8、MapReduce数据类型 1.9、MapReduce官方示例 1.9.1、示例说明--圆周…

HDFS WebHDFS 读写文件分析及HTTP Chunk Transfer Encoding相关问题探究

文章目录前言需要回答的首要问题DataNode端基于Netty的WebHDFS Service的实现基于重定向的文件写入流程写入一个大文件时WebHDFS和Hadoop Native的块分布差异基于重定向的数据读取流程尝试读取一个小文件尝试读取一个大文件读写过程中的Chunk Transfer-Encoding支持写文件使…

Hadoop之mapreduce参数大全-3

51.指定Shuffle传输过程中可以同时连接的节点数 mapreduce.shuffle.max.connections是Hadoop MapReduce中的一个配置参数，用于指定Shuffle传输过程中可以同时连接的节点数。该参数用于控制Shuffle传输的并发度，以保障任务的稳定性和性能。可以通过以下…

Hive分组取满足某字段的记录

在SQL分组后取第一条记录中介绍了分组取满足条件的第一条记录的方法，现在业务上面临如此需求：在做公司流程监控时，要求监控每个流程每个节点的用时情况。其中有个字段isend可以判断流程是否结束，但是流程结束后可能还会有操作&…

大数据开发之Hive（统计影音视频网站的常规指标）

第 11 章：Hive实战 11.1 数据结构 1、视频表字段备注详细描述videoId视频唯一id(String)11位字符串uploader视频上传者(String)上传视频的用户名Stringage视频年龄(int)视频在平台上的整天数category视频类别(Array)上传视频指定的视频分类length视频长度(Int)整…

Hadoop-MapReduce-MRAppMaster启动篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧 Index of /dist/hadoop/core 二、上下文在上一篇<Hadoop-MapReduce-源码跟读-客户端篇>中已经将到：作业提交到ResourceManager，那…

hive - explode 用法以及练习

hive explode 的用法以及练习一行变多行 explode 例如： 临时表 temp_table ，列名为1st 1st1,2,34,5,6 变为 1 2 3 4 5 6 方式一：直接使用 explode select explode(split(1st,,)) from temp_table;方式二：使用 lateral view…

数据湖技术之发展现状篇

一. 大数据处理架构： 大数据处理架构的发展过程具体可以分为三个主要阶段：批处理架构、混合处理架构（Lambda、Kappa架构）、湖仓一体。首先是随着Hadoop生态相关技术的大量应用，批处理架构应运而生，借助离线…

Hadoop学习篇(二)——HDFS编程操作1

在前两篇文章中，我们已经介绍了HDFS的理论基础以及命令行的基本操作。但是，在实际中我们使用HDFS的平台时，是不可能全部进行命令行操作的。一定是要与编程结合起来进行的。所以，本篇将介绍HDFS相关的一些编程操作。上篇链接&a…

Hadoop学习篇(一)——初识Hadoop Hadoop单机配置

Hadoop学习篇(一) 本文档适用于Hadoop开发学习者使用说明：如涉及到侵权，请及时联系我，并在第一时间删除文章。 Hadoop简介：Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下&…

大数据复习(第五六章)

第五章 1.HBase HBase是 Apache基金会的一个项目。简单来说,它是一个分布式可扩展的 NoSQL数据库,提供了对结构化、半结构化、甚至非结构化大数据的实时读写和随机访问能力。（P123） HBase数据存储逻辑模型与 Google BigTable类似,但实现上有一些不同之处…

大数据存储技术了解

在大数据环境下使用海量的非结构化数据，所以我们常使用HDFS分布式文件系统和NoSQL数据库进行存储 HDFS分布式文件系统 HDFS特点： 存储数据较大支持流式数据访问支持多硬件平台数据一致性高有效预防硬件失效支持移动计算 HDFS局限性： 不适…

ubuntu 18.04 Redis 5.0.8安装教程

ubuntu 18.04 /Redis 5.0.8安装教程安装Redis 1.下载安装包！官网链接基本环境安装 2.安装gcc: sudo apt-get update sudo apt-get install gcc3.安装完成后，输入以下命令查看gcc版本。 gcc -v显示以下信息，说明你的gcc安装成功了&#xf…

Zookeeper简介及安装，以及Hadoop的HA集群(hdfs的namenode和yarn的resourcemanager)配置

Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。通常它被用来提供以下服务。统一命名服务统一配置服务统一集群管理服务器节点动态上下线软复杂均衡 Zookeepe…

Presto0.167安装部署

转载请注明出处：http://blog.csdn.net/u012842205/article/details/61622565 一、简介 Presto作为一种分布式数据SQL引擎，致力于交互式的类SQL（兼容 ASCI SQL）低延迟查询（秒级到分钟级），完全基…

让我们构建一个文件服务器！

Those of you who know me will be familiar with the fact that I am what could be called a ‘digital packrat’. After a few years of university my DVD/Blu-Ray collection has expanded to the point that it fills multiple shelves, and I have digitised the whole…

Bamboo基础概念

1、project1)提供报告、展板、连接|——2、plan1)指定默认代码仓库(同一个仓库)2)构建触发条件的配置3)构建结果的发送与通知4)可配置该plan的权限管理|——3、stage1)并行的处理job(用多个agent)2)只有所有的job成功，才会进入下一个stage3)可能会产生artifact&…

Sqoop1.99.7安装、配置和使用（二）

转载请注明出处：http://blog.csdn.net/u012842205/article/details/52346595 本文将接上文，记录Sqoop1.99.7基本使用。这里我们使用sqoop2将MySQL中的一个数据表导出到HDFS，都是最简单的使用。请确保Sqoop2服务器已经启动，并确保…

flume taildirsource kafka chnanel hadf sink 配置文件

3台机器，2台 flume 往kafka里面采集，一台从kafka里面拿放到hafs里面第一台机器大概是 #taildir source #为各个组件命名 a1.sources r1 a1.channels c1 #声明source a1.sources.r1.type TAILDIR a1.sources.r1.filegroups f1 #监控的目录 a1.s…

数据结构中二叉树的度

首先说说什么是度：通俗的讲二叉树中连接节点和节点的线就是度，有n个节点，就有n-1个度，节点数总是比度要多一个，那么度为0的节点一定是叶子节点，因为该节点的下面不再有线；度为1的节点即&#xf…

《Hadoop大数据分析技术》简介

#好书推荐##好书奇遇季#《Hadoop大数据分析技术》，京东当当天猫都有发售。定价69元，打折一下更便宜。配套源码、PPT课件，可以做Hadoop大数据分析课程的教材。本书是Hadoop大数据分析技术入门书，基于Hadoop 3.2.2框架体系&#xf…

《Hadoop+Spark大数据分析实战》简介

#好书推荐##好书奇遇季#《HadoopSpark大数据分析实战》，京东当当天猫都有发售。定价69元，打折一下更便宜。配套源码、PPT课件，可以做大数据分析课程的教材。本书是Hadoop Spark大数据分析技术入门书，基于Hadoop和Spark两大框架体…

基于Kubernetess集群部署完整示例——Guestbook

目录贴：Kubernetes学习系列本文依赖环境：Centos7部署Kubernetes集群、基于Kubernetes集群部署skyDNS服务该示例中，我们将创建一个redis-master、两个redis-slave、三个frontend。其中，slave会实时备份master中数据，f…

为Kubernetes集群部署本地镜像仓库

目录贴：Kubernetes学习系列经过之前两篇文章：Centos7部署Kubernetes集群、基于kubernetes集群部署DashBoard，我们基本上已经能够在k8s的集群上部署一个应用了，但有一个问题就是：生产环境下，我们势必不能够…

基于kubernetes集群部署DashBoard

目录贴：Kubernetes学习系列在之前一篇文章：Centos7部署Kubernetes集群，中已经搭建了基本的K8s集群，本文将在此基础之上继续搭建K8s DashBoard。 1、yaml文件编辑dashboard.yaml，注意或更改以下红色部分： …

Linux设置FQDN

FQDN是Fully Qualified Domain Name的缩写, 含义是完整的域名. 例如, 一台机器主机名(hostname)是www, 域后缀(domain)是example.com, 那么该主机的FQDN应该是 www.example.com.另外, 其实FQDN最后是以”.”来结尾的, 但是大部分的应用和服务器都允许忽略最后这个点。 Linux允许…

【Hive实战】Hive 物化视图

Hive 物化视图 (Materialized views） 始于Hive3.0.0 文章目录 Hive 物化视图 (Materialized views）目标Hive中物化视图的管理创建物化视图物化视图管理的其他操作基于物化视图的查询重写物化视图的维护物化视图的生命周期目标传统上，用于…

Ubuntu下Hadoop安装

参考链接老师给的教程是基于centOS的，但是我的虚拟机里面已经哟Ubuntu，就想在Ubuntu里面安装试试，一开始按照老师的步骤写，结果发现没有成功，只能自己查资料，配置。注意： 1.在配置完hadoop安…

一统大数据江湖，趣话图说“存算分离”武学心法

附：2004-2006年间，Google陆续发表了Google File System、MapReduce和BigTable三篇革命性技术的文章，奠定了分布式系统理论基础。随后以这三项技术为核心的开源框架如雨后春笋般涌现出来，Apache基金会开发的分布式系统基础架构Hado…

Java和Java大数据有哪些区别？

单独提起Java或者大数据，很多人对此都略知一二，但对于Java大数据这样一个名词，多少有些疑惑。那Java和Java大数据学习的内容是一样的吗？两者有什么区别呢？今天就从Java和Java大数据的以下方面谈谈两者的区别。 Java和…

Hadoop, HIve, Spark关系简述

大数据∈数据管理系统的范畴数据管理系统： 数据怎么存？数据怎么算？ 单机数据管理时代下， 数据处理的任务：IO密集型； 数据存不下？ HDFS用于存放多机器的数据并提供相关Api接口。 HDFS中引入了…

Hive中left join 中的where 和 on的区别

目录一、知识点二、测试验证三、引申一、知识点 left join中关于where和on条件的知识点： 多表left join 是会生成一张临时表。on后面： 一般是对left join 的右表进行条件过滤，会返回左表中的所有行，而右表中没有匹配上的数…

PiflowX组件-FileWrite

FileWrite组件组件说明往文件系统写入。计算引擎 flink 组件分组 file 端口 Inport：默认端口 outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子pathpath“”无是文件路径。hdfs://server1:8020/flink/test/text.txtfo…

Hadoop-MapReduce-YarnChild启动篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧 Index of /dist/hadoop/core 二、上下文在上一篇<Hadoop-MapReduce-MRAppMaster启动篇>中已经将到：MRAppMaster的启动，那么运行M…

大数据 - Hadoop系列《三》- MapReduce（分布式计算引擎）概述

上一篇文章： 大数据 - Hadoop系列《三》- HDFS（分布式文件系统）概述-CSDN博客目录 12.1 针对MapReduce的设计构思 1. 如何对付大数据处理场景 2. 构建抽象编程模型 3. 统一架构、隐藏底层细节 12.2 分布式计算概念 12.3 MapReduce定义…

Hadoop生态系统中一些关键组件的详细解析

1. Hadoop核心组件 HDFS（Hadoop Distributed File System）: 分布式文件存储系统。提供高吞吐量的数据访问，非常适合用于大规模数据集。有高容错性，通过在多个节点间复制数据块来实现。 MapReduce: 一种编程模型，用于在…

Hadoop-MapReduce-源码跟读-ReduceTask阶段篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧 Index of /dist/hadoop/core 二、Reducer类我们先看下我们写的reduce所继承的Reducer类 public class Reducer<KEYIN,VALUEIN,KEYOUT,VALUEOUT> {/*** 传…

Java技术栈 —— Hadoop入门（二）实战

Java技术栈 —— Hadoop入门（二） 一、用MapReduce对统计单词个数1.1 项目流程1.2 可能遇到的问题1.3 代码勘误1.4 总结一、用MapReduce对统计单词个数 1.1 项目流程 (1) 上传jar包。 (2) 上传words.txt文件。 (3) 用hadoop执行jar包的代码，…

Hadoop-生产调优(更新中)

第1章 HDFS-核心参数 1.1 NameNode内存生产配置 1）NameNode 内存计算每个文件块大概占用 150 byte，一台服务器 128G 内存为例，能存储多少文件块呢？ 128 * 1024 * 1024 * 1024 / 150byte ≈ 9.1 亿G MB KB Byte 2&#xff09…

Hadoop3.x基础（3）- MapReduce

来源: B站尚硅谷目录 MapReduce概述MapReduce定义MapReduce优缺点优点缺点 MapReduce核心思想MapReduce进程常用数据序列化类型MapReduce编程规范WordCount案例实操本地测试提交到集群测试 Hadoop序列化序列化概述自定义bean对象实现序列化接口（Writable&#xff…

（四）hive的搭建2

在（三）hive的搭建1中我们搭建好了hive环境，但是只能本地访问，在本节中配置Hive的访问方式。 1.元数据服务的方式 1.1 编辑hive-site.xml sudo vi hive-site.xml 在文件最后增加以下内容 <!– 指定存储元数据要连接的地址 –…

Hadoop3.x基础（3）- Yarn

来源：B站尚硅谷目录 Yarn资源调度器Yarn基础架构Yarn工作机制作业提交全过程Yarn调度器和调度算法先进先出调度器（FIFO）容量调度器（Capacity Scheduler）公平调度器（Fair Scheduler） Yarn常用命…

基于hadoop+spark的大规模日志的一种处理方案

概述： CDN服务平台上有为客户提供访问日志下载的功能，主要是为了满足在给CDN客户提供服务的过程中，要对所有的记录访问日志，按照客户定制的格式化需求以小时为粒度（或者其他任意时间粒度）进行排序、压缩、打包，供客户进行下载，以便进行后续的核对和分析的诉求。而且CDN…

5.0 HDFS 集群服务建立教程

HDFS 集群是建立在 Hadoop 集群之上的，由于 HDFS 是 Hadoop 最主要的守护进程，所以 HDFS 集群的配置过程是 Hadoop 集群配置过程的代表。使用 Docker 可以更加方便地、高效地构建出一个集群环境。每台计算机中的配置 Hadoop 如何配置集群、不同的计…

Hive详解、配置、数据结构、Hive CLI

一、Hive 认识 1. Hive 应用问题：公司的经营状况？ 主题一：财务现金流指标1.1：净现金流入/流出量指标1.2：现金转换周期预算执行状况指标2.1：预算内成本控制指标2.2：预算与实际支出的差异主题…

快讯｜Tubi 与华纳兄弟探索公司拓展合作，推出「超级英雄」系列内容

在每月一期的 Tubi 快讯中，你将全面及时地获取 Tubi 最新发展动态，欢迎🌟关注【比图科技】，一起成长变强！ Tubi 与华纳兄弟探索公司拓展合作，推出超级英雄系列内容 Tubi 近日宣布与 Warner Bros. Discovery 华纳兄弟探索公司拓展了内容合作伙伴关系，Tubi 推出了 10 个…

从零开始了解大数据(七)：总结

系列文章目录从零开始了解大数据(一)：数据分析入门篇-CSDN博客从零开始了解大数据(二)：Hadoop篇-CSDN博客从零开始了解大数据(三)：HDFS分布式文件系统篇-CSDN博客从零开始了解大数据(四)：MapReduce篇-CSDN博客从零开始了解大…

大数据开发之Hadoop（入门）

第 1 章：Hadoop概述 1.1 Hadoop是什么 1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2、主要解决，海量数据的存储和海量数据的分析计算问题。 3、Hadoop通常是指一个更广泛的概念-Hadoop生态圈 1.2 Hadoop优势（4高&#xf…

sqoop事务如何实现

场景1：如Sqoop在导出hdfs数据到Mysql时，某个字段过长导致任务失败，该错误记录之前的数据正常导入，之后的数据无法导入。如何保证错误发生后数据回滚？ 场景2：如Sqoop在导出hdfs数据到Mysql时，某…

使用Sqoop的并行处理：扩展数据传输

使用Sqoop的并行处理是在大数据环境中高效传输数据的关键。它可以显著减少数据传输的时间，并充分利用集群资源。本文将深入探讨Sqoop的并行处理能力，提供详细的示例代码，以帮助大家更全面地了解和应用这一技术。 Sqoop的并行处理在开始介绍…

Hadoop之mapreduce参数大全-7

151.设置客户端与 AM 之间的IPC（Inter-Process Communication）连接在发生超时时的最大重试次数 yarn.app.mapreduce.client-am.ipc.max-retries-on-timeouts 是 Apache Hadoop YARN 中 MapReduce Application Master（AM）的一个配…

Sqoop作业调度：自动化数据传输任务

自动化数据传输任务是大数据处理中的一个重要方面，可以定期执行Sqoop作业，确保数据在不同系统之间的同步。本文将深入探讨如何使用Sqoop作业调度来自动化数据传输任务，并提供详细的示例代码和全面的内容，以帮助大家更好地理解和应…

大数据开发之Hadoop（MapReduce）

第 1 章：MapReduce概述 1.1 MapReduce定义 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并…

Hive建表时候用的参数及其含义

1.序列化与反序列化序列化器（Serializer）和反序列化器（Deserializer） SerDe 是两个单词的拼写 serialized(序列化) 和 deserialized(反序列化)。什么是序列化和反序列化呢？ 当进程在进行远程通信时，彼…

Sqoop故障排除指南：处理错误和问题

故障排除是每位数据工程师和分析师在使用Sqoop进行数据传输时都可能遇到的关键任务。Sqoop是一个功能强大的工具，但在实际使用中可能会出现各种错误和问题。本文将提供一个详尽的Sqoop故障排除指南，涵盖常见错误、问题和解决方法，并提供丰富的…

大数据不得不说的事儿（一）：存算分离凭什么能一统天下

随着大数据系统建设的深入，企业的数据基础设施面临两个问题： 一个是成本问题，随着累积的数据量的增大，大数据业务量的增多，数据存储和处理的成本越来越高，企业数据基础设施的投资越来越大，这部…

flink笔记4 flink在local模式下两种提交job的方法

目录 1.网页 1.1自己的流处理程序 1.2将自己的程序打包 1.3开启虚拟机，启动flink 1.4网页提交jar 2.命令行 2.1启动flink 同上 2.2提交job 2.3取消job 1.网页 1.1自己的流处理程序 import org.apache.flink.api.java.utils.ParameterTool import org.…

Hadoop 各组件介绍

转自 https://www.cnblogs.com/klb561/p/9085615.html Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。 Hadoop的核心…

Hadoop：YARN集群中资源管理器RM的高可用HA配置

RM运行失败资源管理器失败是个很严重的问题，这意味着作业和任务容器都将无法启动，默认情况下RM也是个单点故障。所以为了得到高可用性，运行一对RM是很有必要的。当活动RM失败了，备用RM通过zookeeper管理能自动顶替上。所有运行…

MapReduce：shuffle阶段之Mapper输出

shuffle本意为混洗，MR将排完序的mapper输出作为reducer的输入的过程就称为shuffle，可以理解为mapper到reducer的中间过程，在这个过程中MR框架其实干了很多事。 Mapper输出阶段概述 map函数开始产生输出时(调用context.write()方法&#xff0…

MapReduce：关于RecordReader调用getCurrentKey()和getCurrentValue()时返回相同键-值对象

在《Hadoop权威指南第4版》的P219，关于Mapper类的run()方法部分有这样一段描述： 由于效率的原因，RecordReader程序每次调用getCurrentKey()和getCurrentValue()时将返回相同的键-值对象。只是这些对象的内容被reader的netKeyValue()方法改变…

Hadoop：详解HDFS启动过程及相关节点工作机制（检查点机制、安全模式）

目录 namenode HDFS启动流程检查点机制 secondarynamenode datanode 安全模式 namenode Namenode是集群主从结构模型中的唯一的一个管理者，它负责管理HDFS文件系统的命名空间（namespace)：文件系统树及整棵树内的所有文件和目录的元…

Hadoop：分布式集群多次格式化文件系统，导致datanode无法启动解决方案

关闭守护进程后再次格式化，导致datanode没有启动 [jingemaster ~]$ jps 3763 NameNode 4166 Jps 4059 SecondaryNameNode这是因为多次格式化导致clusterID不同，这就涉及到了namenode和datanode中的两个文件 namenode： datanode：…

Centos7 安装配置NFS

一、安装 NFS 服务器所需的软件包 # yum install -y nfs-utils二、编辑exports文件 # vim /etc/exports /data/disk1/video *(async,insecure,no_root_squash,no_subtree_check,rw)/data/disk1/video：与nfs服务客户端共享的目录 *：允许所有的网段访问&am…

Hadoop，Hive和Spark大数据框架的联系和区别

Hadoop，Hive和Spark是大数据相关工作中最常用的三种框架。 1 Hadoop hadoop是一个分布式计算框架，是大数据处理的基石，大多其他框架都是以hadoop为基础。Hadoop主要包括两个方面，分别是分布式存储框架（HDFS&#xff0…

OpenTSDB2.3.0安装部署

转载请注明出处：http://blog.csdn.net/u012842205/article/details/72817966 一、简介 OpenTSDB是基于HBase存储时间序列数据的一个开源数据库，但只是一个HBase的应用而已。也即是在HBase之上加了一层外壳，用于更好的处理时序数据库&#xf…

面试官把我问懵了....

感谢兄弟们的关注与支持，如果觉得有帮助的话，还请来个点赞、收藏、转发三操作该文章已更新到语雀中，后台回复“语雀”可获取公众号：进击吧大数据整个职业生涯持续更新的所有资料在前面介绍了Hadoop三部曲搞起~，简单…

初学hadoop——Hive Java API的使用

以词频统计算法为例，来介绍怎么在具体应用中使用Hive 一、创建input目录，output目录会自动生成其中input为输入目录，output目录为输出目录。命令： cd /usr/local/hadoop mkdir input 二、在input文件夹中创建两个测试文件…

HBase 在集群中对表(ddl)和数据(dml)的相应操作

HBase 在集群中对表(ddl)和数据(dml)的相应操作 HBase特点要开启hbase之前必须先开启hdfs和zookeeper(关闭将start改为stop即可) 启动hdfs：my_hadoop.sh start 启动zookeeper：zk.sh start 启动hbase：bin/start-hbase.sh 表(ddl)&#x…

初学Hadoop——Hive命令行客户端使用

一、Hive简介 Hive是一个基于HDFS和MapReduce的分布式数据仓库系统，以表的形式管理用户数据，用户只需要编写HQL语句就能够利用MR对存放在HDFS上的数据进行计算（Hive会将HQL语句自动转换为MR作业，提交给MR执行）&#x…

初学Hadoop——MapReduce Java API的使用

一、MapReduce简介 MapReduce是面向大数据并行处理的计算模型、框架和平台，它有以下三层含义： （1） MapReduce是一个基于集群的高性能并行计算平台它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并…

初学Hadoop——HBase Java API的使用

使用Eclipse编写java程序，来对HBase数据库进行增删改查等操作，Eclipse可以在Ubuntu软件中心搜索下载并安装。一、启动hadoop和hbase start-dfs.sh start-hbase.sh 二、新建Java工程和项目（文件） 在eclipse中新建Java工程和项…

MapReduce将HDFS文本数据导入HBase中

HBase本身提供了很多种数据导入的方式，通常有两种常用方式： 使用HBase提供的TableOutputFormat，原理是通过一个Mapreduce作业将数据导入HBase另一种方式就是使用HBase原生Client API 本文就是示范如何通过MapReduce作业从一个文件读取数据并…

初学Hadoop——HBase命令行客户端使用

一、HBase简介 HBase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《BigTable：一个结构化数据的分布式存储系统》。HBase以表的形式存储数据，表由行和列组成，列划分为若干个列族/列簇(column family)。 HBase的运行有三种模式…

初学Hadoop——HDFS Java API 的使用、在linux中安装eclipse

Hadoop不同的文件系统之间通过调用Java API进行交互，实验一中介绍的Shell命令，本质上也就是Java API的应用。 Hadoop官方的Hadoop API文档，可以访问如下网站，查看各个API的功能：网站链接一、 Eclipse的安装利用Ja…

初学Hadoop——HDFS命令行客户端使用

一、HDFS简介及其基本概念 HDFS（Hadoop Distributed File System）是hadoop生态系统的一个重要组成部分，是hadoop中的存储组件，在整个Hadoop中的地位非同一般，是最基础的一部分，因为它涉及到数据存储&#…

hadoop无法访问 9870 WebUI

直接访问hadoop301：9870打不开页面，然而直接输入ip:9870却可以访问，host文件也都没问题，离了大谱

mac-hadoop3.3.6 源码构建以及踩坑记录

1. 为什么需要构建源码因为hadoop的可执行文件是在专门的机器上编译的其中native库不一定能适用于每个机器导致在启动hadoop过程中出现烦人的警告 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes w…

PiflowX组件-OracleCdc

OracleCdc组件组件说明 Oracle CDC连接器允许从Oracle数据库读取快照数据和增量数据。计算引擎 flink 组件分组 cdc 端口 Inport：默认端口 outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子hostnameHostname“”无是Or…

Hive 数仓及数仓设计方案

数仓(Data Warehouse) 数据仓库存在的意义在于对企业的所有数据进行汇总，为企业各个部门提供一个统一、规范的出口。做数仓就是做方案，是用数据治理企业的方案。数据仓库的特点面向主题集成公司中不同的部门都会去数据仓库中拿数据，把独…

Hadoop-MapReduce-源码跟读-客户端篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧 Index of /dist/hadoop/core 二、从WordCount进入源码用idea将源码加载进来后，找到org.apache.hadoop.examples.WordCount类（快捷方法&…

PiflowX-JdbcCatalog组件

JdbcCatalog组件组件说明通过JDBC协议将Flink连接到关系数据库,目前支持Postgres Catalog和MySQL Catalog。计算引擎 flink 组件分组 Catalog 端口 Inport：默认端口 outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子c…

FluentValidation在C# WPF中的应用

1. 引言在.NET开发领域，FluentValidation以其优雅、易扩展的特性成为开发者进行属性验证的首选工具。它不仅适用于Web开发，如MVC、Web API和ASP.NET CORE，同样也能完美集成在WPF应用程序中，提供强大的数据验证功能。本文将深入探…

Hive【内部表、外部表、临时表、分区表、分桶表】【总结】

目录 Hive的物种表结构特性一、内部表建表使用场景二、外部表建表:关键词【EXTERNAL】场景： 外部表与内部表可互相转换三、临时表建表临时表横向对比编辑四、分区表建表：关键字【PARTITIONED BY】场景： 五、分桶表 …

开源大数据集群部署（十一）Ranger 集成Hadoop集群

作者：櫰木 1、节点选择部署在两个namenode节点 cd /opt/bigdata tar -xzvf ranger-2.3.0-hdfs-plugin.tar.gz -C /opt/ cd /opt/ranger-2.3.0-hdfs-plugin vim install.properties # Licensed to the Apache Software Foundation (ASF) under one or more # c…

电商推荐系统

此篇博客主要记录一下商品推荐系统的主要实现过程。一、获取用户对商品的偏好值代码实现 package zb.grms;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Doub…

hive 创建表字段类型

hive 创建表字段类型在Hive中创建表时可以指定不同的字段类型。常见的字段类型包括： 数值类型（Numeric Types）： TINYINT：8位有符号整数 SMALLINT：16位有符号整数 INT：32位有符号整数 BIG…

Bug2- Hive元数据启动报错：主机被阻止因连接错误次数过多

错误代码： 在启动Hive元数据时，遇到了以下错误信息： Caused by: java.sql.SQLException: null, message from server: "Host 192.168.252.101 is blocked because of many connection errors, unblock with mysqladmin flush-hosts&qu…

SERVLET间通信

在Web应用程序中，应用程序的servlet等各种组件之间可能需要通信以便处理客户机请求。例如，假设Web应用程序中有一个servlet显示组织的版权信息。您可以使用各种servelt通信技术将此servlet的内容纳入到需要显示版权信息的所有其他应用程序servlet中。同样，如果处理请求时发生…

【Hadoop集群搭建】Hadoop运行模式——本地模式（附Hadoop目录结构了解）

好接下来！我们来学习本地模式。上一篇是【Hadoop集群搭建】Hadoop运行环境配置——虚拟机准备（CentOS 8） 首先来了解一下Hadoop的目录结构。马赛克涂掉的是我之后产生的文件,剩下的是一个原本的干干净净的目录。介绍几个重要的常用的如下…

centOS8超实用xsync分发脚本

在使用之前，所有节点均需要安装 rsync 服务(yum install rsync -y)首先,打开命令行终端,进入root用户模式,输入: cd /bin输入 touch xsync输入 vi xsync按i键进入编辑状态,将如下脚本内容复制进去 CentOS8和CentOS6在脚本语言编写上语法规则有些许变化现将Cen…

【Hadoop集群搭建】Hadoop运行环境配置——虚拟机准备（CentOS 8）

主要步骤： 1.修改静态IP 2.修改主机名称 3.关闭防火墙 4.创建具有root权限的普通用户 5.安装jdk和hadoop 6.关机快照克隆并配置克隆虚拟机事先准备 VMware Workstation Pro 15(可变) CentOS 8 64位(可变，但使用别的linux版本后续操作会有几处不同) Xshe…

Hadoop API

1.创建maven工程在pom.xml文件中添加如下依赖 <dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.1.3</version></dependency><!-- 安装java测…

jps不显示worker进程问题! jps不显示

问题:在配置spark时,输入start-all.sh命令后启动成功,但是使用jps命令却不显示worker进程: 于是便查看日志,显示worker进程正常启动: 然后登录webUI,可以正常显示节点: 受这篇博客启发,猜测为jps访问权限不足(点我!) 于是su root切换root用户此时再输入jps,显示成功! !!! …

java使用hbase、hadoop报错举例

文章目录摘要情况1：NoClassDefFoundError情况2：使用hbase报错：NullPointerException情况3：summary.typeQuotaInfos.typeQuotaInfo[3].type摘要总结自己springboot项目使用hbase、hadoop中出现的莫名奇怪的依赖使用报错 hbase …

win10 配置Hadoop 非常详细!

成功启动Hadoop~~ 问题: 1.环境变量配置时一定看好是英文输入!注意全角和半角输入区别!!! 2.先替换文件再修改配置 3.hadoop文件路径全英文,不能有中文和空格 4.namenode和datanode路径修改时,注意"/“和”\"的区别,按博主内容格式来! 转载自这里,配置过程请点击查…

summary.typeQuotaInfos.typeQuotaInfo[3].type

文章目录摘要原因一：解决方案：原因二：解决办法一：解决办法二：其他文章答案讨论摘要在使用工具方法fs.getContentSummary(path)方法获取hbase库表信息时报错，报错如下： java.io.IOException: …

虚拟机中wget命令的安装

今天给服务器安装hadoop-2.6.0-cdh5.7.0.tar.gz时用的wget wget http://archive-primary.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz但是wget 时提示 -bash:wget command not found,很明显没有安装wget软件包。一般linux最小化安装时，wget不会默认被安…

虚拟机中centos7中vi编辑器模式

一、vi/vim文本编辑器是什么？ vi编辑器是Linux系统下最基本的编辑器，工作在字符模式下。从字面意思上实际上不难理解vi/vim这个工具，就是对文本的编辑，包括添加、修改、保存、内容查找等方面的编辑。 vi和vim具有完全相同的功能&…

Hive面试题系列第七题-同时在线问题

视频讲解地址： https://www.bilibili.com/video/BV1Tg411r7Jz/?spm_id_from333.788&vd_sourceaa4fb0436f6d978af872cafb81a01178 Hive面试题系列第七题-同时在线问题题目：计算主播最高同时在线人数（pcu） 表结构: create t…

【大数据面试题】007 谈一谈 Flink 背压

一步一个脚印，一天一道面试题（有些难点的面试题不一定每天都能发，但每天都会写） 什么是背压 Backpressure 在流式处理框架中，如果下游的处理速度，比上游的输入数据小，就会导致程序处理慢&…

java+SSM+mysql 开放式实验管理系统78512-计算机毕业设计项目选题推荐（免费领源码）

摘要我国高校开放式实验管理普遍存在实验设备使用率较低、管理制度不完善,实验设备共享程度不高等诸多问题。要在更大范围推行开放式实验管理,就必须在开放式实验教学管理流程中,通过引入信息化管理加大信息技术在其中的应用,才能真正发挥这种教学模式的开放性优势。本系统…

【Hadoop】Yarn 任务管理指令

列出所有Application : yarn application -list # 可以根据状态过滤：ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED yarn application -list -appStates FINISHED application_1652832924022_57402 DDOS-Detect-Engine_Ver000 …

Hadoop-Yarn-NodeManager如何计算Linux系统上的资源信息

一、上下文 <Hadoop-Yarn-NodeManager都做了什么>中讲节点资源监控服务（NodeResourceMonitorImpl）时只是提了下SysInfoLinux，下面我们展开讲下 SysInfoLinux是用于计算Linux系统上的资源信息的插件二、SysInfoLinux源码 package o…

大数据揭秘：Hadoop短视频流量分析实战

✍✍计算机编程指导师 ⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！ ⚡⚡ Java实战 |…

Java架构师之路七、大数据：Hadoop、Spark、Hive、HBase、Kafka等

目录 Hadoop： Spark： Hive： HBase： Kafka： Java架构师之路六、高并发与性能优化：高并发编程、性能调优、线程池、NIO、Netty、高性能数据库等。-CSDN博客Java架构师之路八、安全技术：Web安…

关于Hive架构原理，尚硅谷

最近学习hive 时候，在做一个实操案例，具体大概是这样子的： 我在dataGip里建了一个表，然后在hadoop集群创建一个文本文件里面存储了数据库表的数据信息，然后把他上传到hdfs后，dataGrip那个表也同步了我上传到…

Hive中UNION ALL和UNION的区别

1.概述 Hive官方提供了一种联合查询的语法，原名为Union Syntax，用于联合两个表的记录进行查询，此处的联合和join是不同的，join是将两个表的字段拼接到一起，而union是将两个表的记录拼接在一起。换言之， jo…

Hadoop生态选择（一）

一、项目框架 1.1技术选型技术选型主要考虑因素:维护成本、总成本预算、数据量大小、业务需求、行业内经验、技术成熟度。数据采集传输:Flume，Kafka，DataX，Maxwell，Sqoop，Logstash数据存储:MySQL，HDFS…

【数仓】通过Flume+kafka采集日志数据存储到Hadoop

相关文章【数仓】基本概念、知识普及、核心技术【数仓】数据分层概念以及相关逻辑【数仓】Hadoop软件安装及使用（集群配置）【数仓】Hadoop集群配置常用参数说明【数仓】zookeeper软件安装及集群配置【数仓】kafka软件安装及集群配置【数仓】flume软件安…

hive中如何取交集并集和差集

交集要获取两个表的交集，你可以使用INNER JOIN或者JOIN： SELECT * FROM table1 JOIN table2 ON table1.column_name table2.column_name;也可以使用 INTERSECT 关键字 SELECT * FROM table1 INTERSECT SELECT * FROM table2;并集要获取两个表的并集…

HDFS 之 Topology(Rack) Awareness - 机架感知

1、简介机架感知在大型分布式存储系统中非常实用，可以有效保证数据的高可用，同时提升集群稳定性。在HDFS中，也实现了类似Topology Awareness的机制，只不过是采用软件的方式模拟。 2、机架感知存在的意义分布式存储系统的一个特殊之处在于其通常包含非常多的机器。Clie…

使用Hadoop和Nutch构建音频爬虫：实现数据收集与分析

1. 背景介绍随着音频内容在互联网上的广泛应用，如音乐、播客、语音识别等，越来越多的企业和研究机构希望能够获取和分析这些数据，以发现有价值的信息和洞察。而传统的手动采集方式效率低下，无法满足大规模数据处理的需求&#x…

hive中split函数相关总结

目录 split函数示例实战注意事项 split 函数一直再用，居然发现没有总结，遂补充一下； split函数在Hive中，split函数用于将一个字符串根据指定的分隔符进行分割，并返回一个数组。它的语法如下： split(str…

Hive 严格模式设置

Hive 在早期使用参数 hive.mapred.mode 来决定是否执行严格模式, 其值为 strict 或者 nostrict. 当其值为 strict 时，执行严格模式，如从分区表查询时，过滤条件必须有分区字段。在 Hive 3.1.3 中，因为 hive.mapred.mode 比较粗暴…

【Java程序设计】【C00307】基于Springboot的基Hadoop的物品租赁管理系统（有论文）

基于Springboot的基Hadoop的物品租赁管理系统（有论文） 项目简介项目获取开发环境项目技术运行截图项目简介这是一个基于Springboot的基于 Hadoop的物品租赁系统的设计与实现，本系统有管理员、用户二种角色权限； 前台首页&#…

Hadoop-Yarn-NodeManager是如何监控容器的

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧 Index of /dist/hadoop/core 二、上下文在我的博客<Hadoop-Yarn-NodeManager是如何启动容器的>中的ContainerLaunch prepareForLaunch()会触发Containe…

hive--字符串截取函数substr(),substring()

一、字符串截取函数：substr,substring 语法: substr(string A, int start),substring(string A, int start) 返回值: string 说明：返回字符串A从start位置到结尾的字符串举例： hive> select substr(abcde,3); cde hive…

【错误处理】【Hive】【Spark】ERROR FileFormatwriter: Aborting job null.

问题背景近日，使用 Spark 在读写 Hive 表时发生了报错：Aborting job null，如果怎么都使用不了那张表的话，大概率是那张表有脏数据，导致整张表无法正常使用。 ERROR FileFormatwriter: Aborting job null.解决方法 …

hive报错：FAILED: NullPointerException null

发现问题起因是我虚拟机的hive不管执行什么命令都报空指针异常的错误我也在网上找了很多相关问题的资料，发现都不是我这个问题的解决方法，后来在hive官网上与hive 3.1.3版本相匹配的hadoop版本是3.x的版本，而我的hadoop版本还是2.7.2的版本…

Cloudera虚拟机配置（虚拟机环境自带Hadoop、Impala等大数据处理应用）

上学期的大数据处理课程，笔者被分配到Impala的汇报主题。然而汇报内容如果单纯只介绍Impala的理论知识，实在是有些太过肤浅，最起码得有一些实际操作来展示一下Impala的功能。但是Impala的配置实在是有些困难与繁琐，于是笔者通过各…

Ubuntu22.04下安装Spark2.4.0（Local模式）

一、版本信息虚拟机产品：VMware Workstation 17 Pro 虚拟机版本：17.0.0 build-20800274 ISO映像文件：ubuntukylin-22.04-pro-amd64.iso Hadoop版本：Hadoop 3.1.3 JDK版本：Java JDK 1.8 Spark版本：S…

hive,hbase集群拷贝注意事项

注意事项： 1.有足够的带宽，最好能300M/S 磁盘写入速度 2.两个集群的在一个网络，且新集群的主机名可以访问的域名。 CDH的主机名不能轻易更改，若只能换主机名建议重新部署CDH集群。 3.数据拷贝跑后台进程 hive表跨集群备份注…

Hadoop之HDFS——【模块一】元数据架构

一、元数据是什么在HDFS中，元数据主要指的是文件相关的元数据，通过两种形式来进行管理维护，第一种是内存，维护集群数据的最新信息，第二种是磁盘，对内存中的信息进行维护与持久化，由namenode管理维护。从广义的角度来说，因为namenode还需要管理众多的DataNode结点，因…

HIVE中的常用和不常用的函数总结及hive中的常见问题（自用）

笛卡尔积假设A和B是两个集合，存在一个集合，它的元素是用A中元素为第一元素，B中元素为第二元素构成的有序二元组，这个集合称为集合A和集合B的笛卡尔积，记为A X B。 eg:假设集合A{a, b}，集合B{0, 1, 2}&am…

hive 中少量数据验证函数的方法-stack

可以使用 stack 将少量数据直接写在sql中,然后用于验证是否正确 1、每个省累计销量前1名的城市 t1(pro_name,city_name,sale_num,sale_date） 源数据： ‘河北’,‘石家庄’,‘1’,‘2022-01-01’ ,‘河北’,‘石家庄’,‘2’,‘2022-01-02’ ,‘河北’,‘…

Hive面试题系列第三题-用户留存问题

视频讲解地址：https://www.bilibili.com/video/BV1Rd4y1T7iU/?spm_id_from333.788&vd_sourceaa4fb0436f6d978af872cafb81a01178 Hive面试题系列第三题-用户留存问题题目：求用户1日、3日、7日留存率概念问题： 第N日活跃用户留存率&am…

Hive面试题系列第一题-连续登录问题

视频讲解地址：https://www.bilibili.com/video/BV1iV4y1x7yo?spm_id_from333.999.0.0&vd_sourceaa4fb0436f6d978af872cafb81a01178 Hive面试题系列第一题-连续登录问题题目：求连续7天登录的用户表结构: CREATE TABLE logtable( uid int, dt s…

Flink的安装和部署--Standalone集群模式

Flink提供了多种集群模式，主要包括：Standalone和Flink on Yarn两种方式，Standalone是Flink的独立部署模式，它不依赖其他平台，如果想搭建一套独立的Flink集群，可以考虑使用这种模式。具体安装步骤（主节点）（flink-1.10.2-bin-scala_2.11.tgz用这个即可） flink-1.…

HDFS 通信框架

1.HDFS 的各节点之间的通信框架概述 HDFS 之间的通信方式有两种： （1）基于 RPC 的通信 （2）基于 TCP 或 HTTP 的通信 1）RPC 通信的接口定义了客户端和 NameNode 的接口，客户端和 DataNode 的接口…

YARN的基本架构

YARN基本组成结构 Yarn主要由ResourceManager，NodeManager，ApplicationMaster 和 Container 几个组件构成 1.ResourceManager（RM） RM，全局的资源管理器，负责整个系统的资源管理和分配 ①调度器调度器根…

YARN工作流程

当用户向 Yarn 提交一个应用程序后，Yarn 将分两个阶段运行该应用程序： ①启动 ApplicationMaster ②由 ApplicationMaster 创建应用程序，为它申请资源，并监控其整个运行过程，知道运行完成具体步骤如下： ①…

Hive表操作及管理

转载请注明出处：http://blog.csdn.net/u012842205/article/details/72765667Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。…

【学习笔记】尚硅谷Hadoop大数据教程笔记

本文是尚硅谷Hadoop教程的学习笔记，由于个人的需要，只致力于搞清楚Hadoop是什么，它可以解决什么问题，以及它的原理是什么。至于具体怎么安装、使用和编写代码不在我考虑的范围内。一、Hadoop入门大数据的特点： Vo…

Sqoop1.4.6安装与使用（二）

转载请注明出处：http://blog.csdn.net/u012842205/article/details/53378703 本文接上一篇博客，主要叙述使用Sqoop1.4.6从Oracle导入HBase的操作过程和一些坑。请确保所有安装组件能正常使用，且相互兼容。Sqoop1.4.6的安装和环境配置请参看上…

HDFS理论基础

1.存储模型 2.架构设计 3.角色功能 PS：角色对应的就是一个或者多个进程 4.元数据持久化 5.安全模式 HDFS合并EditLog与FsImage的过程： HDFS启动前会进行格式化，生成一个空的FsImage，假设HDFS集群在8:00时进行第一次初始化启动8:…

HDFS入门

HDFS入门 1.分布式文件系统HDFS 认识HDFS 当单台服务器的存储容量和计算性能已经无法处理超大文时，分布式文件系统应运而生。为了存储超大文件，可以将文件切分成很多小“块”，将这些块均匀的存储在多台服务器上，然后，…

01hadoop概念

大数据与Hadoop 大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 Hadoop是什么？ Hadoop是一种分析和处理海量数据的…

二百二十八、Hive——HQL报错：删除HDFS中的Hive数据文件导致Xshell连接MySQL异常和HQL查询异常

一、目的在删除HDFS中Hive目录下的数据文件后，导致HQL查询异常，以及XShell连接MySQL出现异常二、问题 （一）HQL查询问题 SQL语句在增加group by之后查询无数据，没有group by则查询有数据而且SQL语句无法动态加载…

使用REQUESTDISPATCHER对象调用错误页面

使用REQUESTDISPATCHER对象调用错误页面问题陈述 InfoSuper公司已经创建了一个动态网站。发生错误时，浏览器中显示的堆栈跟踪很难理解。公司的系统分析师David Wong让公司的软件程序员Don Allen创建自定义错误页面。servlet引发异常时，应使用RequestDisapatcher对象向自定义…

JavaWeb里的控制器Servlet,过滤器Filter,监听器Listener

文章目录简介控制器servlet控制器(Controller)概述控制器的工作原理控制器的生命周期控制器的种类控制器的应用场景示例代码Servlet控制器示例Spring MVC控制器示例总结过滤器filter过滤器(Filter)概述过滤器的工作原理过滤器的生命周期过滤器的链式调用过滤器的应用场景示例…

处理SERVLET中的错误和异常

处理SERVLET中的错误和异常应用服务器服务客户机请求时可能会遇到一些问题，如找不到所请求的资源或运行中的servlet引发异常。例如，在线购物门户中如果用户选择了当前缺货的物品要放入购物车中，就会出现问题，这种情况下，浏览器窗口中将显示错误消息。您可以在servlet中…

Hadoop之HDFS——【模块二】数据管理

一、Namespace的概述 1.1.集群与命名空间的关系类似于大集群与小集群之间的关系，彼此之间独立又相互依存。每个namespace彼此独立，Namespace工作时只负责维护本区域的数据，同时所有的namespace维护的文件都可以共用DataNode节点，为了区分数据属于哪些Namespace，DataNode…

Apache Paimon Hive引擎解析

HIve 引擎 Paimon 当前支持 Hive 的 3.1, 2.3, 2.2, 2.1 和 2.1-cdh-6.3 版本。 1.执行引擎当使用Hive Read数据时，Paimon 支持 MR 和 Tez 引擎, 当使用Hive Write数据时，Paimon支持MR引擎，如果使用 beeline，需要重启hive clu…

华为大数据平台-FusionInsight MRS

1、产品定位 (1) 关于华为的大数据平台，本人之前用过FusionInsight HD版本，近期也在用MRS结合MPP和治理平台做湖仓一体的开发，其实MRS是在HD基础上进行的升级、改版，MRS是集成一些开源的大数据组件，有自己的运维和安全…

【Hadoop】使用Metorikku框架读取hive数据统计分析写入mysql

一、定义作业文件作业文件该文件将包括输入源、输出目标和要执行的配置文件的位置，具体内容如下 metrics:- /user/xrx/qdb.yaml # 此位置为hdfs文件系统目录 inputs: output:jdbc:connectionUrl: "jdbc:mysql://233.233.233.233:3306/sjjc"user: &quo…

hive--字符串连接函数concat(),concat_ws()

一、字符串连接函数：concat 功能：将多个字符串连接成一个字符串语法: concat(string A, string B…) 返回值: string 说明：返回输入字符串连接后的结果，支持任意个输入字符串举例： hive> select concat(abc, …

如何构建Hive数据仓库Hive 、数据仓库的存储方式以及hive数据的导入导出

什么是Hive hive是基于Hadoop的一个数据仓库工具，可以将结构化数据映射为一张表。 hive支持使用sql语法对存储的表进行查询 （本质上是把sql转成mapreduce的任务执行） Hive有三个特点： hive所存储的数据是放在HDFS文件系统中的h…

大数据开发（Hadoop面试真题-卷三）

大数据开发（Hadoop面试真题） 1、Hadoop集群工作时启动哪些进程？它们有哪些作用？2、Hadoop在集群计算的时候，什么是集群的主要瓶颈？3、搭建Hadoop集群的xml文件有哪些？4、Hadoop的Checkpoint流程…

hadoop学习中遇到的问题一

由于看视频总是断断续续，经常遇到各种报错，现将遇到的问题进行总结。 hadoop学习中遇到的问题：hadoop拒绝连接 hadoop安装好之后，在本地浏览器输入地址http://192.168.222.102:9870，提示拒绝连接。在网上找了很多相关…

搭建Hadoop分布式集群

搭建Hadoop分布式集群【系统配置说明】 1）系统环境：CentOS-7-x86-Minimal 2）集群部署：一主三从（master/slave1/slave2/slave3） 3）Java环境：jdk-7u79-linux-x86 4）Hado…

MapReduce Shuffle 参数调优【转载】

MapReduce Shuffle性能调优 MapReduce shuffle过程剖析及调优 MapReduce的shuffle过程详解 Map阶段 -- 环形缓冲区大小，默认100 set mapreduce.task.io.sort.mb 200;-- 环形缓冲区溢写阈值，默认0.8 set mapreduce.map.sort.spill.percent 0.9;-- 并行…

Hive优化笔记（3 - 一些参数）

动态分区静态分区：手动指定分区名。动态分区：根据查询语句自动生成的分区名 https://blog.csdn.net/weixin_34104341/article/details/89795410 -- 开启动态分区。默认值是true set hive.exec.dynamic.partitiontrue; -- 默认值是strict&#xff0c…

从零搭建hive环境_ jdk 8 + SSH + hadoop 2.9.2 + hive 3.1.2

目录一、Ubuntu18.04 安装 jdk 8 二、安装SSH 三、安装hadoop 2.9.2 四、安装hive 3.1.2 Windows 虚拟机安装 Ubuntu18.04 Vim Mysql5.7参照 https://blog.csdn.net/zhsworld/article/details/103740953 一、Ubuntu18.04 安装 jdk 8 1 官网下载 jdk8安装包 2 将jdk8安装…

Hadoop基于SLA权限认证

在core-site.xml中配置以下属性： hadoop.security.authorizationtrue 配置hadoop-policy.xml 参数格式用户名与用户组之间用空格分开用户用户之间用“,” Tom,cat super,no 属性说明 security.client.protocol.acl 控制访问HDFS的权限 security.refresh…

plone_帮我升级plone.org

ploneBecause plone.org should run the latest Plone 因为plone.org应该运行最新的Plone You may be wondering why plone.org is not running the latest version of Plone. Well wonder no more! By the end of this month, it will be. I have been working onthe various…

超详细单机版搭建hadoop环境图文解析（转）

源：http://www.cnblogs.com/end/archive/2012/08/13/2636645.html 前言： 年前，在老大的号召下，我们纠集了一帮人搞起了hadoop，并为其取了个响亮的口号“云在手，跟我走”。大家几乎从零开始，中途…

Sqoop1.4.6安装与使用（一）

转载请注明出处： http://blog.csdn.net/u012842205/article/details/53377103 笔者之前因工作倒腾了一段时间的Sqoop，当时使用的是Sqoop2（1.99.7），并写了两篇博客（链接），就是最简单…

Hive数据类型

1.Hive基本数据类型 Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALLINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型，true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdoub…

数据倾斜排查

一、问题现象租户反馈，任务执行时长加长，执行过程中任务卡在 99%，大概率是出现了数据倾斜二、排查过程数据倾斜大多数都是大 key 问题导致的。排查方法如下： 1.时间判断 reduce 的时间比其他 reduce 时间长的多，大…

ElasticSearch 集群搭建 | hadoop | 复盘

参考来源: ElasticSearch 介绍及应用场景 Windows 环境安装Elasticsearch 通过Spring Data Elasticsearch操作ES [这三篇博客由同一个作者写出,从windows系统入手elasticsearch,写的很好]

【HDFS实战】HDFS上的数据均衡

HDFS上的数据均衡简介文章目录 HDFS上的数据均衡简介重新平衡多DN之间的数据相关命令重新平衡单DN内磁盘间的数据相关命令PlanExecuteQueryCancelReport 相关配置调试 HDFS上的balance目前有两类： Balancer：多数据节点之间的balanceDisk Balancer&…

SparkSQL与Hive整合(Spark On Hive）

1. Hive的元数据服务 hive metastore元数据服务用来存储元数据，所谓元数据，即hive中库、表、字段、字段所属表、表所属库、表的数据所在目录及数据分区信息。元数据默认存储在hive自带的Derby数据库。在内嵌模式和本地模式下，metastore嵌入在…

MapReduce伪分布配置

1.到hadoop目录下的配置文件（etc）的hadoop里面 2.修改配置文件yarn-site.xml里的内容 3.给mapred-site.xml.template改名，改为mapred-site.xml cp mapred-site.xml.template mapred-site.xmlcp命令不仅有备份文件的功能，也可以在…

运行hadoop自带示例程序wordcount

运行hadoop自带示例程序wordcount 创建 a.txt [hadoopspark1 ~]$ vim a.txt spark hadoop spark hadoop yarn resouremanager yarn hadoop 创建 b.txt [hadoopspark1 ~]$ vim b.txt 1001 aaa 1002 bbb hadoop hadoop1 创建 wordcount/input hdfs的目录 …

eclipse运行hadoop1版本错误如下 ClassNotFoundException:org.apache.hadoop.io.nativeio.NativeIO$POSIX$Stat

今天在eclipse下测试Hadoop1版本的本地运行模式：但是程序一直抛出一个异常： ClassNotFoundException:org.apache.hadoop.io.nativeio.NativeIOPOSIXStat 根据经验首先感觉应该是版本对应的问题：此时我的JDK是64位的，eclipse软件…

HDFS中dfsadmin命令的使用

在hadoop中，管理员可以通过dfsadmin管理HDFS，常用的两个命令如下： -report 显示文件系统的基本数据 -safemode 维护HDFS的安全模式

通过eclipse查看Hadoop源码的详细操作

核心内容: 1、如何将Hadoop源码关联到eclipse工程中 2、eclipse查看Hadoop源码展示 3、通过eclipse查看源码的重要性 1、Hadoop源码关联到eclipse工程中的详细步骤本次以hadoop1.1.2版本为例： 具体步骤： 1、在Eclipse下新建一个Java项目 2、为项…

Hadoop项目实战---黑马论坛日志分析

1、项目描述通过对黑马技术论坛的apache common日志进行分析， 计算论坛关键指标，供运营者决策。 2、数据情况每行记录有5部分组成： 1.访问ip 2.访问时间 3.访问资源【跟着两个访问的Url】 4.访问状态 5.本次流量截取部分数据如下…

Hadoop与之对应的Hbase版本问题

转载网址：http://blog.csdn.net/caoshichaocaoshichao/article/details/13096279

HDFS入门笔记------架构以及应用介绍

引言—HDFS的重要性： Hadoop的定义：适合大数据的分布式存储与计算的一个平台，其中大数据的分布式存储就是由HDFS来完成的，因此掌握好HDFS的相关概念与应用非常重要！ 本篇博客将从以下几个方面讲述HDFS： 1、…

基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析（hdfs、flume、hive、mysql等）、大屏可视化

目录项目介绍研究背景国内外研究现状分析研究目的研究意义研究总体设计数据获取网络爬虫介绍豆瓣电影数据的采集数据预处理数据导入及环境配置Flume介绍Hive介绍MySQL介绍Pyecharts介绍环境配置及数据加载大数据分析及可视化豆瓣影评结构化分析豆瓣电影类型占比分析豆瓣电影…

HDFS操作实验（hdfs文件上传、使用JavaAPI判断文件存在，文件合并）

此博客为博主学习总结，内容为博主完成本周大数据课程的实验内容。实验内容分为两部分。 1. 在分布式文件系统中创建文件并用shell指令查看； 2. 利用Java API编程实现判断文件是否存在和合并两个文件的内容成一个文件。感谢厦门大学数据库实验室的实验…

hive sql无法停止

排查流程 hive任务停止是调用org.apache.hive.jdbc.HiveStatement的close()方法实现的其底层是委托给org.apache.hive.service.cli.thrift.TCLIService.Iface客户端实例来实现。同时，通过JDK动态代理为其织入了synchronized同步机制：其底层是委托给…

Hadoop 3.1.1 分布式搭建过程

准备工作通过克隆获得三台虚拟机准备工作：时间同步、时区调整、JDK1.8环境、配置主机名、关闭防火墙、配置静态IP 无特别说明，三台虚拟机都要完成准备工作 1、时间同步 ntpdate ntp.aliyun.com2、调整时区 timedatectl set-timezone Asia/Shanghai3、…

MapReduce内存参数自动推断

MapReduce内存参数自动推断。在Hadoop 2.0中，为MapReduce作业设置内存参数非常繁琐，涉及到两个参数：mapreduce.{map,reduce}.memory.mb和mapreduce.{map,reduce}.java.opts，一旦设置不合理，则会使得内存资源浪费严重&a…

Hadoop运行搭建——系统配置和Hadoop的安装

Hadoop运行搭建前言： 本文原文发在我自己的博客小站，直接复制文本过来，所以图片不显示(我还是太懒啦！)想看带图版的请移步我的博客小站~ Linux镜像：CentOS7 系统安装：CentOS安装参考教程系统网卡设置…

hadoop伪集群部署教程

文章目录前言一、安装准备1. 安装条件2. 安装jdk3. 配置本节点免密登录二、安装hadoop1. 下载并解压hadoop2. 设置环境变量2.1 设置hadoop安装目录环境变量2.2. 设置hadoop的root用户环境变量 3. 修改配置文件3.1 修改 etc/hadoop/hadoop-env.sh 文件3.2 修改 etc/hadoop/cor…

MapReduce-Partition分区

Partition分区 1.默认Partitioner分区 (key.hashcode() & Interger.MAX_VALUE) % numReduceTasksnumReduceTasks默认为：1 //输出文件一个默认分区根据key的hashCode对ReduceTasks个数取模。用户控制那个key存储到那个分区2.手动设置分区 //设置分区 job.set…

Apache Paimon 使用之 Writing Tables

Writing Tables 1.插入语法 INSERT { INTO | OVERWRITE } table_identifier [ part_spec ] [ column_list ] { value_expr | query };part_spec：PARTITION ( partition_col_name partition_col_val [ , … ] ) column_list：(col_name1 [, column_nam…

Hadoop大数据应用：Linux 部署 HDFS 分布式集群

目录一、实验 1.环境 2.Linux 部署 HDFS 分布式集群 3.Linux 使用 HDFS 文件系统二、问题 1.ssh-copy-id 报错 2. 如何禁用ssh key 检测 3.HDFS有哪些配置文件 4.hadoop查看版本报错 5.启动集群报错 6.hadoop 的启动和停止命令 7.上传文件报错 8.HDFS 使用命令一…

Hadoop大数据应用：HDFS 集群节点扩容

目录一、实验 1.环境 2.HDFS 集群节点扩容二、问题 1.rsync 同步报错一、实验 1.环境 （1）主机表1 主机主机架构软件版本IP备注hadoop NameNode （已部署） SecondaryNameNode （已部署） Resourc…

Hive on Spark 配置

目录 1 Hive 引擎简介2 Hive on Spark 配置2.1 在 Hive 所在节点部署 Spark2.2 在hive中创建spark配置文件2.3 向 HDFS上传Spark纯净版 jar 包2.4 修改hive-site.xml文件2.5 Hive on Spark测试2.6 报错 1 Hive 引擎简介 Hive引擎包括：MR（默认&#xff09…

【Hadoop】 Hive：内部表与外部表的创建与查看

感情是偏执的越爱越是偏执的不相信我看到的硬要说裂缝不过是皱褶怎么先炽热的却先变冷了慢热的却停不了还在沸腾着看时光任性快跑随意就转折慢冷的人啊会自我折磨冲动的人向来听不见挽留这世界大得让你很难不旅游浪漫让你温柔也让你最惹人泪流 …

Hive-技术补充-初识ANTLR

一、背景要清晰的理解一条Hql是如何编译成MapReduce任务的，就必须要学习ANTLR。下面是ANTLR的官方网址，下面让我们一起来跟着官网学习吧，在学习的过程中我参考了《antlr4权威指南》，你也可以读下这本书，一定会对你有…

Cannot set priority of namenode process 8095

报错信息报错： Cannot set priority of namenode process 8095 查看日志文件： 2024-03-10 01:36:50,840 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: registered UNIX signal handlers for [TERM, HUP, INT] 2024-03-10 01:36:51,061 I…

hive逗号分割行列转换

select * from ( select back_receipt_nos,order_no,reject_no from ods_one.ods_us_wms_reject_order_match_all_d where order_no 10150501385980001 ) t1 lateral view explode(split(t1.back_receipt_nos, ,)) t as back_receipt_no where 1 1;

【大数据】二、HDFS 入门演示

大数据要了解大数据，我们就要先了解什么是数据？ 数据就是指人们的行为，人们的某个行为都被称为是一项数据，这些数据可以用来对生活中各种各样的事物进行分析，而我们进行分析所需要的技术就是我们所学的大数据的一系…

hadoop3.0高可用分布式集群安装

hadoop高可用，依赖于zookeeper。用于生产环境, 企业部署必须的模式. 1. 部署环境规划 1.1. 虚拟机及hadoop角色划分主机名称 namenode datanode resourcemanager nodemanager zkfc journalnode zookeeper master slave1 slave2 1.2. 软件版本 java …

HDFS的基本操作（创建目录或文件、查看目录或文件、上传和拷贝文件到HDFS上、追加数据到HDFS上、从HDFS上下载文件到Linux本地、合并HDFS文件）

文章目录前言一、HDFS的相关命令1、在HDFS创建目录2、查看当前目录3、查看目录与子目录4、查看文件的内容5、创建文件6、上传和拷贝文件7、追加数据到HDFS文件中8、下载文件到Linux本地系统9、合并HDFS上多个小文件，并下载到本地10、删除HDFS上的指定目录下的文件1…

YARN(Yet Another Resource Negotiator）

简介概述 YARN(Yet Another Resource Negotiator - 迄今另一个资源调度器)，负责集群的任务管理和资源调度。YARN是Hadoop2.X开始出现的，也是Hadoop2.X中最重要的特性之一。也正是因为YARN的出现，导致Hadoop1.X和Hadoop2.X不兼容。 YARN产…

[数据湖iceberg]-hive集成数据湖读取数据的正确姿势

1 概述 Iceberg作为一种表格式管理规范，其数据分为元数据和表数据。元数据和表数据独立存储，元数据目前支持存储在本地文件系统、HMS、Hadoop、JDBC数据库、AWS Glue和自定义存储。表数据支持本地文件系统、HDFS、S3、MinIO、OBS、OSS等。元数据存储基于…

Hadoop 源码中使用ServiceLoader

java.util.ServiceLoader使用今天在看hadoop源代的时候发现，在FileSystem中用到了java.util.ServiceLoader这个类来从配置文件中加载子类或者接口的实现类。以前从来没有使用过这个类，进去大概看了一下具体的实现。主要是从META-INF/services这个目录下…

hive-分桶-索引(初篇)

hvie - 分桶创建分桶表之前要先设置hive允许进行强制分桶配置 set hive.enforce.bucketingtrue 创建分桶表 create table tmp_bucket(id int,name String) clustered by (id) into 4 buckets 建表其中x表示分几个桶进行抽样，y表示间隔几个桶进行一次分桶…

hive管理之ctl方式

hive管理之ctl方式 hivehive --service clictl命令行的命令 #清屏 Ctrl L #或者 ！ clear #查看数据仓库中的表 show tabls; #查看数据仓库中的内置函数 show functions;#查看表的结构 desc表名 #查看hdfs上的文件 dfs -ls 目录 #执行操作系统的命令 ！命令…

Hadoop、HDFS、Hive、Hbase区别及联系

Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。 Hadoop Hadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统…

深入浅出Hive性能优化策略

我们将从基础的HiveQL优化讲起，涵盖数据存储格式选择、数据模型设计、查询执行计划优化等多个方面。会的直接滑到最后看代码和语法。目录引言 Hive架构概览示例1：创建表并加载数据示例2：优化查询 Hive查询优化 1. 选择适当的文件格…

《大数据项目实战》分析及可视化

《大数据项目实战》分析及可视化实训步骤： 一、数据分析 1. 数据分析–需求环境已安装部署Hadoop伪分布或分布式集群环境Linux系统中已安装部署Mysql数据库已安装部署Hive数据仓库 2. 启动Hadoop和历史服务主节点上启动Hadoop [roothadoop01 ~]# start-all.…

Apache Paimon 使用 Kafka CDC 获取数据

a.依赖准备 flink-sql-connector-kafka-*.jarb.支持的文件格式 Flink提供了几种Kafka CDC格式：Canal、Debezium、Ogg和Maxwell JSON。如果Kafka的Topic中的消息是使用Change Data Capture（CDC）工具从另一个数据库捕获的change event&…

Hive SQL必刷练习题：连续问题间断连续（*****）

问题描述： 1） 连续问题：找出连续三天（或者连续几天的啥啥啥）。 2） 间断连续：统计各用户连续登录最长天数，间断一天也算连续，比如1、3、4、6也算登陆了6天问题分析&am…

Hadoop集群常用的两个脚本(查看所有服务器java进程+集群启停)

目录脚本存放的路径查看所有进程群起/群停脚本脚本存放的路径在一台常用的服务器上编写脚本同时希望该脚本能在任意位置执行那也就要配置环境变量了! 那我把bin目录创建出来在这里面写脚本这样的话就不需要我再手动配置环境变量了!! 查看所有进程 jps不是Hadoop的…

Hive 使用 LIMIT 指定偏移量返回数据

Hive 使用 LIMIT 指定偏移量返回数据 LIMIT 子句可用于限制SELECT语句返回的行数。 LIMIT 接受一个或两个数字参数，这两个参数必须都是非负整数常量。第一个参数指定要返回的第一行的偏移量（从Hive 2.0.0开始），第二个参数指定要返…

Hive 数据迁移与备份

迁移类型同时迁移表及其数据（使用import和export） 迁移步骤将表和数据从 Hive 导出到 HDFS将表和数据从 HDFS 导出到本地服务器将表和数据从本地服务器复制到目标服务器将表和数据从目标服务器上传到目标 HDFS将表和数据从目标 HDFS 上传到目标 Hiv…

大数据开发--02.环境准备

一.准备三台linux虚拟机 1.分别取名node1,node2,node3 2.配置静态ip 这里以node1为例，配置静态ip地址，其他node2.node3一样配置完成之后别忘记 systemctl restart network 3.在各自的/etc/hosts文件中编辑三个Ip地址三台都要配置， 4.然…

hive 3.1.3 搭建

部署准备一台机器，一个mysql数据库可以访问的 web 页面全部绑定了 127.0.0.1。禁止外部访问，需要访问可以使用 nginx 反向代理增加鉴权之后暴露出去。如果不需要可以替换 IP 。安装 Hive 安装包准备 hive 下载页面配置文件修改配置文件位于 …

第二章Iceberg简介

Iceberg数据类型 Iceberg数据类型是在Apache Iceberg这一开源大数据表格管理库中定义的一系列数据格式，它们用于描述和存储表格中的数据。Iceberg旨在提供可扩展且可靠的方式来管理海量数据表格，因此其数据类型设计也充分考虑了大数据处理的需求。以下…

Flink GateWay、HiveServer2 和 hive on spark

Flink SQL Gateway简介从官网的资料可以知道Flink SQL Gateway是一个服务，这个服务支持多个客户端并发的从远程提交任务。Flink SQL Gateway使任务的提交、元数据的查询、在线数据分析变得更简单。 Flink SQL Gateway的架构如下图，它由插件化的Endpoi…

伪分布式部署Hive

文章目录 1 Hadoop 伪分布式安装1 Hive下载2 Hive配置3 安装MySQL JDBC连接器4 连接Hive CLI4.1 初始化数据库4.2 连接Hive 1 Hadoop 伪分布式安装假设我们已经安装好hadoop伪分布式 1 Hive下载 Hive下载地址 2 Hive配置 Hive伪分布式需要在conf文件夹下修改两个文件&…

Hive常用函数之数值处理

Hive常用函数之数值处理以下是Hive中常用的数值处理函数，可用于执行各种数学运算和数值转换操作。 1. ABS()：返回一个数的绝对值。 SELECT ABS(-10); -- 输出: 102. ROUND()：对一个数进行四舍五入。 SELECT ROUND(10.56); -- 输出: 113.…

Hive正则表达式使用

当在Hive中使用正则表达式时，可以使用三个函数来执行不同的操作： 1. regexp regexp函数用于测试一个字符串是否匹配给定的正则表达式。它的语法如下： regexp(string source, string pattern)source: 要测试的源字符串。pattern: 要匹配的正则表达式模式。如果源字符串与指…

测试环境搭建整套大数据系统（十二：挂载磁盘到hadoop环境）

一：链接硬盘将硬盘连接到计算机的 SATA 接口或 USB 接口，并确保硬盘通电并处于可用状态。二：查看硬盘信息 sudo fdisk -l三：创建分区 gdisk /dev/vbd重新扫描磁盘 partprobe /dev/vdb格式化磁盘 mkfs.ext4 /dev/vdb2查看磁…

用DataGrip连接hive时报错：User: root is not allowed to impersonate plck5，解决方法

你可以尝试关闭主机校验修改hive安装目录下conf/hive-site.xml,将hive.server2.enable.doAs设置成false <property><name>hive.server2.enable.doAs</name><value>false</value><description>Setting this property to true will have H…

【Linux】Linux上的一些软件安装与环境配置（Centos7配置JDK、Hadoop）

文章目录安装JDK配置环境变量1. 卸载已安装的JDK查询已安装的 jdk 列表删除已经安装的 jdk 2. 上传安装包3. 创建 /usr/local/java 文件夹4. 将 jdk 压缩包解压到 /usr/local/java 目录下5. 配置 jdk 的环境变量6. 让配置文件生效7. 校验8.拍个快照吧，免得后面哪里…

Hadoop伪分布式配置--没有DataNode或NameNode

一、原因分析重复格式化NameNode 二、解决方法 1、输入格式化NameNode命令，找到data和name存放位置 ./bin/hdfs namenode -format 2、删除data或name（没有哪个删哪个） sudo rm -rf data 3、重新格式化NameNode 4、重新启动即可。

Apache Hive（三）

一、Apache Hive 1、ETL数据清洗数据问题问题1：当前数据中，有一些数据的字段为空，不是合法数据解决：where 过滤问题2：需求中，需要统计每天、每个小时的消息量，但是数据中没有天和小时字段…

安装CDH平台的服务器磁盘满了，磁盘清理过程记录

1.使用hdfs命令查看哪个文件占用最大 hdfs dfs -du -h /tmp 2.我的服务器上显示/tmp/hive/hive文件夹下的，一串字符串命名的文件特别大几乎把磁盘占满了网上查到/tmp文件是临时文件，由于hiveserver2任务运行异常导致缓存未删除，正常情况下…

Hive安装教程-Hadoop集成Hive

文章目录前言一、安装准备1. 安装条件2. 安装jdk3. 安装MySQL4. 安装Hadoop 二、安装Hive1. 下载并解压Hive2. 设置环境变量3. 修改配置文件3. 创建hive数据库4. 下载MySQL驱动5. 初始化hive数据库6. 进入Hive命令行界面7. 设置允许远程访问总结前言本文将介绍安装和配置H…

已解决org.apache.hadoop.hdfs.protocol.QuotaExceededException异常的正确解决方法，亲测有效！！！

已解决org.apache.hadoop.hdfs.protocol.QuotaExceededException异常的正确解决方法，亲测有效！！！ 目录问题分析报错原因解决思路解决方法总结博主v：XiaoMing_Java 问题分析在使用Hadoop分布式文件系统&a…

Hive函数 EXPLODE 和 POSEXPLODE 使用示例

Hive函数 EXPLODE 和 POSEXPLODE 使用示例在Hive中， explode 和 posexplode 是两个常用的函数，用于处理复杂数据类型，如数组和map。以下是它们的具体应用示例和介绍： 1. 创建了一个名为 students 的表，包括 group_n…

【大数据技术】Hive基本原理以及使用教程

Hive 的基本原理： 元数据存储：Hive 使用元数据来描述数据存储在Hadoop分布式存储系统中的方式。元数据包含表的schema（列名、数据类型等）、表的分区、表的位置等信息，这些元数据通常存储在关系型数据库中，如…

Hive在虚拟机中的部署

安装Mysql数据库 # 更新密钥 rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022 # 安装Mysql yum库 rpm -Uvh http://repo.mysql.com//mysql57-community-release-el7-7.noarch.rpm # yum安装Mysql yum -y install mysql-community-server # 启动Mysql设置开机启动…

Hive-技术补充-ANTLR语法编写

一、导读我们学习一门语言，或外语或编程语言，是不是都是要先学语法，想想这些语言有哪些相同点 1、中文、英语、日语......是不是都有主谓宾的规则 2、c、java、python、js......是不是都有数据类型、循环等语法或数据结构虽然人们在…

启动yarn时RM起不来解决办法

我玩3台虚拟机集群的时候，要起hdfs和yarn，用start-dfs.sh和start-yarn.sh启动的时候，hdfs能正常起，yarn的NM三台正常启，RM起不来，在103的log里查看了rm的日之后，它的报错信息是报错信息&#…

hadoop 查询hdfs资源信息的方式

hdfs dfsadmin -report ［-live］［-dead］［-decommissioning］

mapreduce输出数据保存到本地main函数代码

MapReduce是一种大数据处理框架，它可以将大规模的数据分成多个小块，并使用分布式计算系统中的多台机器并行处理这些小块数据。输出数据通常会被保存在分布式文件系统(如HDFS)中，但是也可以将其保存在本地文件系统中。如果你想将MapReduce输出…

Mark : Hadoop源码解析之: TextInputFormat如何处理跨split的行

https://blog.csdn.net/bluishglc/article/details/9380087我们知道hadoop将数据给到map进行处理前会使用InputFormat对数据进行两方面的预处理：对输入数据进行切分，生成一组split，一个split会分发给一个mapper进行处理。针对每个split&…

Hadoop容错恢复之纠删码

在HDFS中常见的容错恢复是副本机制，它会在部分文件丢失之后通过心跳机制发数据给NameNode然后寻找未丢失的副本，按照replication进行备份。这样的话会保证数据在绝大多数情况下不丢失。但是造成的问题就是这种机制使得Hadoop的空间利用率会很低。比如说在…

Hadoop之Yarn的基本原理

Yarn的基本架构与运行概述 Yarn（Yet Another Resource Negotiator）资源协调者，它是Hadoop生态圈中的三大组件之一，主要负责资源的调度。它与其他的两个组件相互独立也就是Yarn可以运行在其他的文件系统之上，其他的计…

Hadoop之MapReduce工作原理

Map阶段 ①输入分片（inputsplit），这个时候也就是输入数据的时候，这时会进行会通过内部计算对数据进行逻辑上的分片。默认情况下这里的分片与HDFS中文件的分块是一致的。每一个逻辑上的分片也就对应着一个mapper任务。 ②Mapper将…

Hadoop之HDFS基本原理

Hadoop之HDFS HDFS简介 HDFS是Hadoop的三大组件之一，用马士兵老师的话来说他就是一块分余展（分布式，冗余数据，可扩展）的大硬盘。它以数据节点的方式来存储数据，从逻辑上来说他分为NameNode和DataNode&…

报错：Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop102:10000

报错： Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop102:10000: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException)…

Hadoop_Yarn调度器和调度算法

目录 1.先进先出调度器（FIFO） 2.容量调度器（Capacity Scheduler） 3.公平调度器（Fair Scheduler） （1）特点 （2）缺额含义 （3） 队列资源分…

Hadoop_MapReduce_OutputFormat数据输出

目录 1.OutputFormat接口实现类 2. 自定义OutputFormat案例实操 1）需求 2）需求分析 3）代码 （1）编写LogMapper类 （2）编写LogReducer类 （3）自定义一个LogOutputF…

Hadoop_MapReduce_Shuffle机制

Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。理解： 1.Map方法得<k,v>数据，进行分区标记后存入环形缓冲区，图中环形缓冲区左边箭头是索引写入，右边箭头是数据写入，当环形缓冲区的容量达…

Hadoop大数据应用：Linux 部署 MapReduce 与 Yarn

目录一、实验 1.环境 2.Linux 部署 MapReduce 3.Linux 部署 Yarn 4.Linux 调用大数据集群分析数据二、问题 1.hadoop 的启动和停止命令 2.HDFS 使用命令一、实验 1.环境 （1）主机表1 主机主机架构软件版本IP备注hadoop NameNode &#xf…

Hive窗口函数面试题（带答案版本）

Hive笔试题实战短视频题目一：计算各个视频的平均完播率有用户-视频互动表tb_user_video_log： id uid video_id start_time end_time if_follow if_like if_retweet comment_id 1 101 2001 2021-10-01 10:00:00 2021-10-01 10:00:30 …

Hive常用函数_16个时间日期处理

在Hive中，常用的时间处理函数包括但不限于以下几种： 1. current_date(): 返回当前日期，不包含时间部分 SELECT current_date(); -- Output: 2024-09-152. current_timestamp(): 返回当前时间戳，包含日期和时间部分 SELECT curr…

【大数据存储】实验1 Hadoop伪分布式安装

实验1 Hadoop伪分布式安装下载安装虚拟机软件Vmware，下载Ubuntu镜像文件，安装Ubuntu虚拟机在Ubuntu系统中创建用户已有用户prx17 更新APT,安装vim 使用vim创建并编辑一个文件 vim hello.c （按o键进入编辑模式） 源程序 #i…

ubuntu-server部署hive-part1-安装jdk

参照 https://blog.csdn.net/qq_41946216/article/details/134345137 操作系统版本：ubuntu-server-22.04.3 虚拟机：virtualbox7.0 安装jdk 上传解压以root用户，将jdk上传至/opt目录下 tar zxvf jdk-8u271-linux-x64.tar.gz 配置环境变量…

windows无法使用hadoop报错：系统找不到路径

在windows下安装hadoop-3.1.4,进行环境变量配置后，打开window命令行窗口测试hadoop命令，报错，如图所示： 方案：由于JAVA_HOME路径有空格导致，可修改hadoop下\etc\hadoop\hadoop_env.cmd文档中set JAVA_HOME以…

hive词频统计---文件始终上传不来

目录准备工作： 文件内容： 创建数据库及表将文件上传到：上传到/user/hive/warehouse/db1.db/t_word目录下 hive里面查询，始终报错：（直接查询也是不行） 解决方案： 准备工作&am…

深入解析Hadoop生态核心组件：HDFS、MapReduce和YARN

这里写目录标题 01HDFS02Yarn03Hive04HBase1．特点2．存储 05Spark及Spark Streaming关于作者：推荐理由：作者直播推荐： 一篇讲明白 Hadoop 生态的三大部件进入大数据阶段就意味着进入NoSQL阶段，更多的是面向…

hadoop streaming及hadoop官方文档

由于hadoop的map reduce框架计算性能已经比较老旧，有很多新的框架性能有很大提升，已经很少有基于相关api进行开发的项目，但hadoop streaming工具能帮助开发者兼容任何语言地运行自己的分布式程序，下面来简单介绍。官方api文档地…

【大数据】安装hive-3.1.2

1、上传HIVE包到/opt/software目录并解压到/opt/modules/ tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/modules/ 2、修改路径 mv /opt/modules/apache-hive-3.1.2-bin/ /opt/modules/hive 3、将hIVE下的bin目录加入到/etc/profile中 export HIVE_HOME/opt/module…

[Spark SQL]Spark SQL读取Kudu，写入Hive

SparkUnit Function：用于获取Spark Session package com.example.unitlimport org.apache.spark.sql.SparkSessionobject SparkUnit {def getLocal(appName: String): SparkSession {SparkSession.builder().appName(appName).master("local[*]").getO…

Hadoop_API文件下载文件删除文件移动、更名

1、完整代码 package com.atguigu.hdfs;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.junit.After; import org.junit.Before; import org.junit.Test;import java.io.IOException; …

hdfs删除后空间不是释放，trash回收机制

一、现象 hdfs删除后，3天了还不删除，故排查排查问题二、排查过程及原理 Trash机制，叫做回收站或者垃圾桶，默认情况下是不开启的。启用 Trash 功能后，从 HDFS 中删除某些内容时，文件或目录不会立即被清除&a…

Hadoop系列文章SpringBoot编程实现HDFS读写文件、MapReduce程序

Hadoop系列文章 SpringBoot编程实现HDFS读写文件、MapReduce程序实现HDFS操作引入依赖winutils码代码读取HDFS中的文件写内容到文件中MapReduce操作MapReduce工作过程详解Mapper映射器Input的mapmap的outputmap的数量ReducershuffleSort(排序)二次排序reducePartitionerCounter…

Hadoop2.8.5 集群拓扑

Hadoop运行在多机集群上时，每台机器都成为集群的一个节点（Node），节点之间连成一个局域网，一般是二层交换机（Switch）,也可能是三层交换机。集群内的节点之间可以通过 IP 地址通信，也可…

Hadoop 运行 share/hadoop/mapreduce/hadoop-mapreduce-examples-xxx.jar 报错

今天在运行以下命令 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output dfs[a-z.] 因为之前我改了主机名为master1 报错 19/03/16 16:12:59 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics…

hadoop集群慢盘故障

问题描述:集群节点pbigdata1出现慢盘故障（系统每一秒执行一次iostat命令，监控磁盘I/O的系统指标，如果在60s内，svctm大于100ms的周期数大于30次则认为磁盘有问题，产生该告警。）平台为华为大数据平台本…

Hive专题-数据修复篇

相信使用过Hive的同学，一定会知道msck repair的用途（元数据修复）。那么不知道大家有没有好奇过Hive底层是怎么实现该机制的呢？这里带大家简单了解一下。一、基本解释在HMS(Hive MetaStore)中存储着每个表的分区列表&#xff0…

元数据管理-技术元数据解决方案

前言概念元数据是描述企业数据相关的数据，指在IT系统建设过程中所产生的有关数据定义，目标定义，转换规则等相关的关键数据，包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述元数据是数仓建设环节中不可缺少的…

Hadoop架构再探讨——愈加繁荣的生态（Pig、Tez、Spark、Kafka）

文章目录Pig——化繁为简，摆脱复杂Map/Reduce程序的编写Tez——不破不立，Map/Reduce的再拆分与再组装Spark——电光火石，基于内存的实时计算Kafka——百川归海，生态系统的交通枢纽Pig——化繁为简，摆脱复杂Map/Reduce程…

[转]HDFS+MapReduce+Hive+HBase十分钟快速入门

HDFS还从没部署过，算是把这篇文章暂留吧。 HDFSMapReduceHiveHBase十分钟快速入门易剑 2009-8-19 1. 前言本文的目的是让一个从未接触Hadoop的人，在很短的时间内快速上手，掌握编译、安装和简单的使用。 2. Hadoop家族截止2009-8-19日…

HBase技术简介

一、HBase简介 HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google BigTable的开源实现，类似Google BigTable利用GFS作为其文…

Hadoop+HBase+ZooKeeper分布式集群环境搭建

一、环境说明集群环境至少需要3个节点（也就是3台服务器设备）：1个Master，2个Slave，节点之间局域网连接，可以相互ping通，下面举例说明，配置节点IP分配如下： HostnameIPU…

【Hadoop】三分钟快速了解Hadoop

一Hadoop初见 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。Hadoop的核心是：分布式文件系统HDFS 分布式计算模型MapReduceHadoo…

HBase单机环境搭建

在搭建HBase单机环境之前，首先你要保证你已经搭建好Java环境： $ java -version java version "1.8.0_51" Java(TM) SE Runtime Environment (build 1.8.0_51-b16) Java HotSpot(TM) 64-Bit Server VM (build 25.51-b03, mixed mode) JAVA_HO…

大数据组件spark hadoop hive简单介绍

spark 单机启动 spark-shell 集群启动 /usr/local/spark-2.4.5-bin-hadoop2.7/sbin/start-all.sh提交任务 1.打包python环境: whereis python # /usr/local/python3/zip -r py_env.zip py_env 2.spark提交参考： pyspark打包依赖包&使用python虚拟环境 note…

Hadoop回收站trash

回收站简介在HDFS里，删除文件时，不会真正的删除，其实是放入回收站/trash 回收站里的文件可以快速恢复。可以设置一个时间阈值，当回收站里文件的存放时间超过这个阈值或是回收站被清空时，文件才会被彻底删除&#xff…

大数据之hive实践一(基础)

预知识数据仓库数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant &#…

大数据技术原理复习二 hdfs

分布式文件系统HDFS 3.1 分布式文件系统计算机集群结构：分布式文件系统把文件分布存储到多个计算机节点上，降低硬件开销分布式文件系统的结构：分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类…

爬虫nutch

爬虫，基本可以分三类：1.分布式爬虫：Nutch2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector3. 非JAVA单机爬虫：scrapyNutch:分布式爬虫nutch背景： Apache基金会主席Hadoop之父Doug Cutting，发起…

大数据技术原理与应用复习一大数据基础+hadoop

大数据概述 1.1 大数据时代第三次信息化浪潮 2010年前后解决信息爆炸的问题原因：存储设备容量不断增加、CPU处理能力大幅提升、网络宽带不断增加数据产生方式：运营式系统阶段->用户原创内容阶段（web2.0）->感知式系统阶…

【ES实战】ES-Hadoop中的配置项说明

文章目录Configuration 配置必要配置Dynamic/multi resource writesFormatting dynamic/multi resource writes基本配置NetworkQueryingOperationMapping (when writing to Elasticsearch)Field information (when reading from Elasticsearch)Metadata (when reading from Ela…

【ES实战】ES-Hadoop之关键特性、要求、安装、核心架构

文章目录Key featuresRequirementsJDKElasticsearchHadoopApache YARN / Hadoop 2.xApache HiveApache SparkApache Spark SQLInstallationMinimalistic binariesDevelopment BuildsUpgrading Your StackArchitectureMap/Reduce and ShardsApache Spark and ShardsReading from…

初学者不得不看看的大数据——HDFS

初学者不得不看看的大数据——HDFS 导读在现阶段，大数据将是我学习的方向欢迎热爱大数据或从事大数据先关工作的广大朋友指出我的不足一、认识集群与介绍集群结构普通的文件系统只需要单个计算机节点就可以完成文件的存储和处理，单个计算机节点由处…

Hadoop MapReduce -wordcount学习

（一）MapReduce简单介绍 MapReduce是一种分布式的计算模型，主要用于搜索领域，解决海量数据的计算问题它主要由两个阶段组成：Map和Reduce，用户只要实现map()和reduce()两个函数，就可以实现分布式…

大数据时代BI平台何去何从

信息化时代的高速发展，使得大数据的作用深入人心。大数据也成为当下几大热点词汇之一，企业每天产生数以万计的数据都需要对数据进行处理，数据处理的方法也在不断地与时俱进。就现如今的发展趋势而言，大数据技术的发展如火如荼。大…

分布式系统开发实战：分布式计算，分布式计算常用技术

分布式计算分布式计算就是将一个大的计算任务分解成多个小任务，然后分配给多台计算机分别计算，再上传运算结果后统一合并得出数据结论。本章详细介绍分布式计算。分布式计算概述在过去的20年里，互联网产生了大量的数据，比如…

Hadoop的Shuffle过程

概述为了让Reduce过程可以并行处理Map结果，必须对Map的输出进行一定的排序和分割，然后再交给对应的Reduce，而这个将Map输出进行进一步整理并交给Reduce的过程就成为了Shuffle。总的来说，shuffle过程包含在Map和Reduce两端中。…

使用元数据服务的方式访问Hive报Exception in thread “main“ org.apache.thrift.transport.TTransportException: Could n

目录参考链接参考链接 org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083.

TB级别分布式关系型数据库OceanBase理论详解

OceanBase是阿里开发的分布式关系型(SQL)数据库，其目标是支持数百TB的数据量以及数十万TPS、数百万QPS的访问量，无论是数据量还是访问量，即使采用非常昂贵的小型机甚至是大型机，单台关系数据库系统都无法承受。案例：O…

png 色彩模式_PNG的完整形式是什么？

png 色彩模式PNG：便携式网络图形 (PNG: Portable Network Graphics) PNG is an abbreviation of Portable Network Graphics. It is a way in which Portable Network Graphics is arranged for keeping in reserve the bit-mapped (raster) images on the computer…

计算机vpu处理器_计算机科学组织| 处理器内部通讯

计算机vpu处理器内部沟通 (Internal communication) CPU of the computer system communicates with the memory and the I/O devices in order to transfer data between them. However the method of communication of the CPU with memory and I/O devices in different. Th…

Hadoop之自定义Partitioner函数

在我的《Hadoop之wordcount源码分析和MapReduce流程分析》一文中，详细说明了MapReduce中的数据流向。 wordcount的例子中，只有一个Reduce Task。Hadoop的默认配置是只有1个Reduce Task来处理Map的输出的，但很多时候，我们需要多个…

Hadoop之wordcount源码分析和MapReduce流程分析

分析wordcount的源代码，研究MapReduce的运行过程和数据流向。 wordcount源代码 import java.io.IOException; import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Int…

HDFS的Shell操作与API操作

HDFS的Shell操作与API操作 1、HDFS的Shell操作 1.1、基本语法1.2、上传1.3、下载1.4、HDFS 直接操作 2、HDFS的API操作 2.1、获取文件系统2.2、javaAPI操作HDFS 1、HDFS的Shell操作 1.1、基本语法 hadoop fs 具体命令hdfs dfs 具体命令具体命令 [-appendToFile … ] [-ca…

hadoop 的命令

维护的命令 start-all.sh/stop-all.sh：启动/关闭所有，包括 nodeName、dataNode、secordaryNode、resourcManage(yarn)，不过，这两个命令已经废弃了，所谓长江后浪推前浪，下面来看一下新秀命令stop-dfs.sh/st…

zookeeper应用程序

zookeeper为分布式环境提供灵活的协调基础架构。zookeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论zookeeer的一些最显著的应用。雅虎 zookeeper框架最初是在"Yahoo!"中构建的。设计良好的分布式应用程序需要满足诸如数据透明度，更好的性…

YARN HA配置

文章目录YARN HA配置先把HDFS HA配置了官方配置文档位置（英语好去看看）配置yarn-site.xml运行YARNYARN HA配置先把HDFS HA配置了 HDFS HA教程地址官方配置文档位置（英语好去看看） https://hadoop.apache.org/docs/r2.7.2/had…

【橋本菜菜子】Linux上搭建Hadoop的常见问题

1.1 引言之前学云计算的时候只是单纯在实验室操作了一下，很多步骤都忘记了，找攻略的时候也很杂，于是记录最近在自己电脑上搭建Hadoop的时候遇到的一些问题以及相关的解决方案。在安装Hadoop的同时，我发现hadoop-3.x版本中的ha…

HBase架构中各组件功能及联系

文章目录1. 架构图2. 各组件功能作用1.Client2. zookeeper3. HMaster4. RegionServer5. Hlog6. Region7. Store8. MemStore9. StoreFile10. HFile1. 架构图 2. 各组件功能作用 1.Client 整个HBase集群的访问入口，并维护cache来加快对HBase的访问使用HBase RPC机制…

HiveSQL语法练习及答案（三）

文章目录Hive数据表练习建表语句SQL练习Hive数据表练习建表语句员工信息表emp： 字段：员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号英文名：EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO create table emp(EMPNO in…

flume安装部署及使用

文章目录前言一、Flume定义二、Flume安装部署1.上传压缩包2.解压、修改配置文件2.1解压2.2修改配置文件三、Flume简单使用3.1 使用 Flume 监听一个端口，收集该端口数据，并打印到控制台3.2 使用 Flume 监听本地目录，将目录下的文件上传hdfs前言…

搭建服务器集群的方法介绍

搭建服务器集群的方法介绍搭建本地服务器集群软硬件要求安装服务器网络配置搭建本地服务器集群软硬件要求一台电脑(系统不限，配置高一点更好) VirtualBox Centos7 VirtualBox 提供了各个系统的安装版本，下载完成后，直接点击软件包进行…

第二章 flink安装启动，完成批处理、流处理任务

2.1 搭建 maven 工程 FlinkTutorial 2.1.1 pom 文件 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation…

Oracle连接hadoop(转)

原文地址：http://blog.itpub.net/7607759/viewspace-761362/ 一、ORACLE连接HADOOP(1) - 做些准备二、ORACLE连接HADOOP(2) - HDFS专用SQL连接器ODCH 三、ORACLE连接HADOOP(3) - OLH加载HDFS数据一、ORACLE连接HADOOP(1) - 做些准备 &&&&&a…

在配置HDFS环境时遇到的一些坑

启动datanode、namenode时未启动使用jps命令查看，未启动datanode，切换到logs目录下，使用tail命令打开刚刚生成的日志查看错误一定要查看配置文件，看看有没有单词拼写错误！！！！克隆的…

HDFS中block的大小

block的大小与修改 Hadoop2.x/3.x版本中Block的默认大小为128M，早前版本中默认为64M，开发人员可以在hdfs-site.xml中添加如下标标签进行修改。  <property><name>dfs.blocksize</name>#value值代表blo…

头歌Educoder云计算与大数据——实验三分布式文件系统HDFS

实验三分布式文件系统HDFS第1关：HDFS的基本操作任务描述相关知识HDFS的设计分布式文件系统NameNode与DataNodeHDFS的常用命令编程要求测试说明代码实现第2关：HDFS-JAVA接口之读取文件任务描述相关知识FileSystem对象FSDataInputStream对象编程要求测试说…

使用MapReduce程序实现从hbase读写数据输出到hdfs分布式文件系统中

将hbase中的数据迁移到hdfs分布式文件系统中 package com.briup.hbase;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.client.Result; import org.apache.hadoo…

Hbase的API相关操作

hbase所需的相关maven依赖 <dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-client</artifactId><version>2.1.7</version></dependency><dependency><groupId>org.apache.hbase</groupId&…

MapReduce案例：Reduce端join操作

需求： 假如数据量巨大，两表的数据是以文件的形式存储在hdfs中，需要MapReduce程序来实现以下SQL查询运算 select a.id,a.date,b.name.b.category_id,b.price from t_ordet a left join t_product b on a.pid b.id商品表：id …

Hive基础之：图文详解hive分区、分桶

什么是分区、分桶下面我用一组图和一个情景先简单的介绍一下什么是分区、分桶： 小黄人要去医院打疫苗，于是格鲁把它们分成了几组让他们去不同的医院，用来分散医院的压力。如图所示，格鲁根据身高把它们分成了三组。来到医院后&a…

hdfs dfs -du -h 或者 hadoop fs -du -h 输出三列数据的含义

第一列表示该目录下总文件大小第二列表示该目录下所有文件在集群上的总存储大小与你的副本数相关，我的副本数是3 ， 所以第二列的是第一列的三倍 （第二列内容文件大小*副本数） 第三列表示你查询的目录

大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问

目录一、问题源起二、HDFS优雅的解决方案（1）分段加锁机制 + 内存双缓冲机制

Hadoop-MapReduce案例-倒排索引

1 需求有大量的文本（文档、网页），需要建立搜索索引 （1）数据输入 aa.txt hadoop spark hadoop java hadoop java hadoop scalabb.txt hadoop spark hadoop spark spark scala java scalacc.txt hadoop scala hadoop…

2018-3-30总结

hadoop由三个主要结点组成，nameNode、secondaryNameNode、dataNode。 nameNode的主要作用是保存元数据 secondaryNameNode的主要作用是辅助edit合并 dataNode的主要作用是存储文件hdfs存储文件，会把文件分割为一个个固定大小的block，每个bloc…

消费flume的数据无法上传到HDFS

问题：打开hadoop102:9870发现没有出现flume的数据检查采集flume这部分，在kafka里可以读取到数据，说明是消费flume这部分出错，检查日志信息。使用消费flume启动停止脚本，可以看到日志信息是在 /opt/module/flume/lo…

基于Flink实时数仓——DWS 层-商品主题宽表的计算（7）

代码实现： public class ProductStatsApp {public static void main(String[] args) throws Exception {//TODO 1.获取执行环境StreamExecutionEnvironment env StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);//1.1 设置CK&状…

人工智能系列之Hadoop平台介绍及应用1

1 前言 1.1 大数据的4V特征：容量、种类、速度和价值： 容量：1 PB 1024TB 10241024GB 102410241024MB 1024102410241024KB； 种类：结构化数据、非结构化数据和半结构化数据(如HTML和XML文档)； 价值&#x…

hive静态分区和动态分区

目录一：静态分区和动态分区介绍二：静态分区和动态分区区别三：样例四：动态分区参数一：静态分区和动态分区介绍 1、静态分区与动态分区的主要区别在于静态分区是手动指定，而动态分区是通过数据来进…

大数据--spark生态4--sparkSQL

目录一：sparkSQL介绍二：DataFrame 三：dataSet 四：rdd,dataframe,dataset之间的转换五：rdd,dataframe,dataset异同点 5.1 相同点 5.2 区别六：DataFrame的常用操作一：sparkSQL介绍 …

大数据开发必备技能

大数据必备技能详细因为笔者本身是偏Java应用方向的，所以整理的大数据必备技能详细，也是偏向于大数据工程师方向。总共分为五大部分，分别是： 大数据技术基础离线计算Hadoop 流式计算Storm 内存计算Spark 机器学习算法大数…

大数据入门必读好书推荐

身处于一个大数据时代，大数据无疑是近期最时髦的词汇了。不管是云计算、社交网络，还是物联网、移动互联网和智慧城市，都要与大数据搭上联系。随着云计算、移动互联网和物联网等新一代信息技术的创新和应用普及。学习大数据，除了…

非科班大数据开发学习路线

第一阶段：Java部分 Java基础、JVM、并发、数据库、缓存、设计模式、计算机网络、操作系统、Linux第二阶段：大数据框架 MapReduce、YARN、HDFS、HBase、Hive、Zookeeper、Spark、Storm、Flink、Kafka第三阶段：面试就业封装项目、面经、简历、…

大数据--hadoop生态13--查漏补缺

目录一：hdfs组成二：hdfs存储和高可用原理三：hdfs读写数据过程四：MapReduce体系结构和执行流程五：zookeeper介绍六：flume总结七：yarn介绍八：Kafka介绍一：hdf…

Hive on Spark的小文件设置参数

Hive on Spark的小文件设置参数参数调优了解完了Spark作业运行的基本原理之后，对资源相关的参数就容易理解了。所谓的Spark资源参数调优，其实主要就是对Spark运行过程中各个使用资源的地方，通过调节各种参数，来优化资源使用的效…

Scala学习系列（一）——Scala为什么是大数据第一高薪语言

为什么是Scala 虽然在大数据领域Java的使用更普及，Python也有后来居上的势头，但Scala一直有着不可动摇的地位。我们熟悉的Spark，Kafka，Flink都是由Scala完成了其核心代码的开发。所以掌握Scala不仅可以学习大数据组件的源码&am…

大数据案例 -- 互联网日志实时收集和实时计算的简单方案

作为互联网公司，网站监测日志当然是数据的最大来源。我们目前的规模也不大，每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成，之前，业务中对实时的要求并不高，最多也就是准实时（延迟半小时以…

您应该知道的101个大数据术语

由于每天都会产生大量的数据，因此了解大数据的复杂性变得至关重要。如果您打算进入大数据星球，则应该熟悉大数据术语。这些术语将帮助您深入了解大数据世界。因此，让我们从术语大数据本身开始- 由于业务专业人员，项目&#xff0c…

大数据与云计算之间的关系是怎样的？

如今，两种主流技术已成为IT领域关注的焦点-大数据和云计算。根本不同的是，大数据只涉及处理海量数据，而云计算则涉及基础架构。但是，大数据和云技术提供的简化功能是其被大量企业采用的主要原因。例如，亚马逊的“ Elas…

思维树

#include <iostream> #include <cstring> #include <vector> using namespace std; using ll long long ; const int M1e610; int n,x,dep[M],mx[M],dp[M];///dep深度，mx从该点到达的最深节点位置 vector<int> g[M]; void dfs(int x,int f…

大数据Hadoop环境中管理大数据存储八大技巧

随着IT互联网信息技术的飞速发展和进步。目前大数据行业也越来越火爆，从而导致国内大数据人才也极度缺乏，下面介绍一下关于Hadoop环境中管理大数据存储技巧。在现如今，随着IT互联网信息技术的飞速发展和进步。目前大数据行业也越来越火爆&a…

【ES实战】使用HDFS插件实现索引快照和恢复

文章目录Snapshot And RestoreHadoop HDFS Repository Plugin使用前提查看插件创建仓库查看仓库创建快照查看快照进度恢复快照查看快照的状态删除快照跨集群使用Snapshot And Restore 快照和恢复有以下作用数据的备份数据的迁移版本升级… 下面介绍利用HDFS实现快照和恢复 …

10分钟大数据Hadoop基础入门

前言目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。基础概念大数据的本质一、数据的存储：分布式文件系统（分布…

Hive SQL常用命令总结，大数据开发学习者按需收藏

Hive是基于Hadoop生态的一个重要组件，是对数据仓库进行管理和分析数据的工具。她提供了SQL查询方式来分析存储在HDFS分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。这种SQL就是Hive SQL&…

大数据学习计划

如果你毕业了， 去个什么公司，应聘个“大数据开发工程师”什么的，我们来看看职位要求是什么： 岗位职责： 1、负责数据分析、监控、安全、风控等平台设计与开发 2、责基于spark平台的用户行为分析、实时业务数据的开发…

hadoop总结

文章目录1.命令1.1 hadoop查看数据2.2 创建文件夹命令3.3 上传文件命令2.上传和下载2.1 上传2.2 下载3. 常用hadoop hdfs shell命令3.1 创建多级目录3.2 查看目录3.3 递归查看多级目录3.4 上传文件到HDFS3.5 查看文件内容(尽量不用)3.6 从HDFS下载文件到本地3.7 删除HDFS上的文…

Hive Metastore 表结构

Hive MetaStore 的ER 图如下。部分表结构和说明。 CTLGS(CATALOGS) catalogs 可以隔离元数据。默认只有1行。一个 CATALOG 可以有多个数据库。 mysql> DESC CTLGS; -------------------------------------------------------- | Field | Type | Null |…

技术文章 | Hadoop常见错误和处理方式

本文来源于阿里云-云栖社区，原文点击这里。常见问题及处理 mysql版本，必须是MYSQL5.1。查询办法mysqladmin version 在建立hive数据库的时候，最好是:create database hive; oozie的数据库，同样：create database oozi…

rsync+inotify实时同步实战

文章目录目标环境步骤CentOS6.9配置CentOS7.2配置测试目标利用rsyncinotify-tools将CentOS6.9 /data/ 目录下的内容实时同步到CentOS7.2的 /home/backup/ 目录下环境 hostipCentOS6.9192.168.64.200CentOS7.2192.168.64.100 步骤 CentOS6.9配置源码编译安装inotify-too…

大数据开发平台(Data Platform)在有赞的最佳实践

前言随着公司规模的增长，对大数据的离线应用开发的需求越来越多，这些需求包括但不限于离线数据同步(MySQL/Hive/Hbase/Elastic Search 等之间的离线同步)、离线计算(Hive/MapReduce/Spark 等)、定时调度、运行结果的查询以及失败场景的报警等等。在统…

怎样成为一名真正的数据科学家？这10本书就是答案

导读：社交、出行、办公、购物、娱乐……一个生活在2020年的人，每天要产生多少数据？这些数据将怎样改变我们的生活、工作和思维方式？将创造哪些价值？这些价值又该怎样挖掘？ 数据科学家被《哈佛商业评论》称…

零基础徒手搭建大数据监控主机系统Grafana

注：本文搭建需掌握Linux基本命令。成功后的截图实例如图，随着时间的增长会更加帅气！ 一. 需要的安装包 prometheus-2.9.2.linux-amd64.tar.gznode_exporter-0.17.0.linux-amd64.tar.gzgrafana-6.1.4.linux-amd64.tar.gz 注：安装…

kubernetes 集群_如何在本地创建kubernetes集群简单教程

kubernetes 集群如何在本地创建Kubernetes集群并部署与Kubernetes通信的简单前端应用 (How to create a Kubernetes cluster locally and deploy simple front-end apps that communicate with Kubernetes) As a software engineer at Capital One, I get to explore cutting e…

VMware克隆centos6虚拟机流程

查看网络IP和网关 1．查看虚拟网络编辑器，如图1-95所示图1-95 查看虚拟网络编辑器 2．修改ip地址，如图1-96所示图1-96 修改ip地址 3．查看网关，如图1-97所示图1-97 查看网关 4. 查看windows环境的中…

【hadoop——HDFS操作常用的Shell命令】

1.Hadoop分布式文件系统（Hadoop Distributed File System,HDFS）是Hadoop核心组件之一，我们已经安装好了Hadoop 2.7.1，其中已经包含了HDFS组件，不需要另外安装最基本的shell命令： HDFS既然是Hadoop的组件&…

通过JavaAPI访问HBase

先开始创建表 create emp001,member_id,address,info放入数据 put emp001,Rain,id,31 put emp001, Rain, info:birthday, 1990-05-01 put emp001, Rain, info:industry, architect put emp001, Rain, info:city, ShenZhen put emp001, Rain, info:country, China get emp001,…

python大数据开发学习路线

5个月，精通大数据的必备干货【技术点标记重点】，下方含全套自学视频源码资料，如果零基础入门数据开发行业的小伙伴从Python语言入手。Python语言简单易懂，适合零基础入门，在编程语言排名上升最快，能完成数…

大数据开发的前景和就业如何？该如何去学习它？

学习大数据可以从事很多工作，比如说：hadoop 研发工程师、大数据研发工程师、大数据分析工程师、数据库工程师、hadoop运维工程师、大数据运维工程师、java大数据工程师、spark工程师等等都是我们可以从事的工作岗位！不同的岗位，所…

k8s 基础环境配置

本文永久链接: https://www.xtplayer.cn/kubernetes/k8s-basic-environment-configuration/主机基础配置主机名配置因为 K8S 或者 FQDN 的规定，主机名仅支持包含 - 或/和 .(中横线和点)两种特殊符号，并且一个集群中主机名不能重复。HostsLinux 系统安装完…

Apache Flink v1.8 本地单机环境安装和运行Flink应用

Flink 运行环境 Flink 执行环境分为：本地单机环境和集群环境本地单机环境：主要是为了方便用户编写、调试代码使用。集群环境：用于正式环境，可以借助Hadoop YARN、Mesos、Kubernetes等不同的资源管理器部署自己的应用。搭建本…

Hadoop的配置与运行（2）之SSH免密码登录

二、配置SSH免密码登陆在Ubuntu系统下，假设用户名为u 1） 确认连接上互联网，然后输入命令 #sudo apt-get install ssh 2)配置为可以免密码登陆本机。首先查看在u用户下是否存在.ssh文件夹（注意ssh前面有“.”，这是…

ubuntu下使用vi命令修改文件并保存实例

关于 vi命令的使用，以前百度了半天也没找到详细的操作实例，都是抄来超区一些没有的东西。这里我提供一个使用vi命令修改文件并保存的详细实例教程，分享了！就以修改/opt/lampp/etc/extra/httpd-xampp.conf这个文件为例&#xff0…

Hadoop 文件上传超时原因分析

当一个HDFS系统同时处理许多个并行的put操作，往HDFS上传数据时，有时候会出现dfsclient 端发生socket 链接超时的报错，有的时候甚至会由于这种原因导致最终的put操作失败，造成数据上传不完整。log类似如下：All datanode…

Hadoop完全高可用集群启动流程

zookeeper作用：2个namenode做高可用故障转移使用 1、启动zk：1、2、3、4节点整体执行：[rootnode01 hadoop]zkServer.sh start 2、查看ZK服务状态: 整体执行：[rootnode01 hadoop]zkServer.sh status 注 a. 启动ZK服务: sh bin/zkS…

实验七 MapReduce编程进阶

实验七 MapReduce编程进阶答案在链接里https://blog.csdn.net/weixin_45818379/article/details/117790528

linux安装Zookeeper3.5.7详解

官网下载链接：Apache ZooKeeper 如下图可以下载历史版本然后找到3.5.7版本，直接下载即可然后将Zookeeper拷贝到一个文件夹下，这里我选择的是/opt/software文件夹然后将其解压到指定目录下 tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz -C …

Spark系列文章 Spark3部署，java实现Pi、WordCount程序，任务部署到yarn

Spark系列文章 java实现Pi、WordCount任务程序部署到yarnApache Spark 部署Spark下载上传，解压运行spark-shell配置Spark使用yarn做资源管理让我们先把yarn可调度的资源范围调大一些配置yarn对节点内存的管理范围配置spark与yarn的连接运行一个example检测配置的情况…

刚刚收到通知继续待家中：“我不想再收到假期延长的通知了”。

今年的2月，可以用一句话来概括—— 人在家中坐，假期从天上来。明明已经买好高铁票，也收拾完了行李，却冷不丁收到了公司发出的「假期延长通知」。不用说，铁路累计退票的1.5亿张肯定有你的几份功劳。而在家禁足的…

【Spark】Spark/SparkStreaming/SparkSQL知识点概述

文章目录Spark概述Spark生态系统Spark SQLSpark StreamingSpark的部署和应用方式补充：Scala语言Spark概述 ▍Spark初见 Spark诞生于美国加州大学伯克利分校Spark是基于内存计算的大数据并行、实时计算框架Spark最大的特点是基于内存的实时计算2013年Spark加入Apac…

Hadoop架构再探讨——HDFS的设计改进（HA高可用+Federation联盟）

文章目录总述HDFS HAHDFS Federation总述 ▍Hadoop1.0的局限与不足抽象层次低，需要人工编写大量代码表达能力有限开发者自己管理作业（Job）之间的依赖关系难以看到程序的整体逻辑延迟高，因此迭代效率低浪费资源（分为…

【MapReduce】MapReduce知识点总结及实例分析

初见 ▍ 分布式并行编程大名鼎鼎的摩尔定律告诉我们，CPU性能每18个月翻一番！然而，摩尔定律在21世纪初开始失效；雪上加霜的是，需要处理的数据量在呈几何倍数增长分布式的思想应运而生——将分布式程序运行在廉价的计…

【HDFS】分布式文件系统的常用HDFS操作

先理解 Shell命令行 ●.启动Hadoop cd /usr/local/hadoop ./sbin/start-dfs.sh⑴.将本地的house.txt文件上传到HDFS的mydir目录下 ./bin/hdfs dfs -put ./house.txt mydir⑵.将HDFS的dir目录下的house.txt下载到本地 ./bin/hdfs dfs -get mydir/house.txt file:///usr/loc…

大数据Spark企业级实战与Hadoop实战 | PDF PPT

今天给大家分享的是《大数据Spark企业级实战》与《Hadoop实战》等销量排行前10名的大数据技术书籍（文末领取PDF版）。这些书籍具有以下几个优点：易读、实践性强，对解决工作中遇到的业务问题具有一定启发性。本书完全从企业处理大数…

SparkSQL 基本可以取代 hive 了！

Apache Spark 社区是全球最大的开源社区。而借由快速、易于使用的特点，Spark 成为时下最流行的分布式内存大数据处理引擎，可以帮助解决各种复杂的数据问题，无论是半结构化、结构化、流式，或机器学习、数据科学。而作为一名国内的 …

MapReduce 三个经典案例（倒排索引、TopN、找共同好友）

文章目录1. 倒排索引案例1.1 需求1.2 需求分析1.3 代码实现1.3.1 第一次处理1.3.2 第二次处理2. TopN 案例2.1 需求2.2 代码实现3. 找共同好友案例3.1 需求3.2 需求分析3.3 代码实现3.3.1 第一次处理3.3.2 第二次处理1. 倒排索引案例 1.1 需求有大量的文本（文档、…

Zookeeper 教程（超详细）

文章目录1. Zookeeper 入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景2. Zookeeper 安装2.1 下载地址2.2 本地模式安装部署2.3 分布式安装部署2.4 配置参数解读3. Zookeeper 内部原理3.1 选举机制3.2 节点类型3.3 Stat 结构体3.4 监听器原理3.5 写数据流程4. Zookeeper 实战4.1…

HDFS 教程（超详细）

文章目录1. HDFS 介绍1.1 HDFS 背景及定义1.2 HDFS 的优缺点1.3 HDFS 组成架构1.4 HDFS 文件块大小2. HDFS 的 Shell 操作3. HDFS 客户端操作3.1 HDFS 客户端环境准备3.2 HDFS 的 API 操作3.2.1 HDFS 文件上传、下载、删除、更名3.2.2 HDFS 文件详情查看3.2.3 HDFS 文件和文件夹…

Hadoop 入门教程（超详细）

文章目录1 Hadoop 介绍1.1 Hadoop 是什么1.2 Hadoop 的发展历史1.3 Hadoop 三大发行版本1.4 Hadoop 的优势1.5 Hadoop 的组成1.6 大数据技术生态体系2 Hadoop 环境搭建2.1 虚拟机环境准备2.2 安装 jdk2.3 安装 Hadoop3 Hadoop 的运行模式3.1 本地运行模式3.1.1 官方 Grep 案例3…

MapReduce之job配置信息介绍

一.job hadoop中的MapReduce可以使用Java进行MapReduce的逻辑撰写。其中就需要job进行相关配置。job作为MapReduce的配置信息以及启动项直接打包成jar包，hadoop可以运行这个jar包实现mapreduce的功能。本文主要从源码中，将job的配置项信息提取出来&…

海量数据分布式存储技术-作业三

1.HDFS的名称节点和数据节点的具体功能； 2.HDFS如何减轻中心节点的负担； 3.HDFS设置唯一一个名称节点的局限性表现在哪些方面； 4.HDFS如何探测错误发生以及如何进行恢复； 5.HDFS不发生故障的情况下读文件的过程； …

大数据：学Hadoop好还是Spark好？

相信看这篇文章的你们，都和我一样对Hadoop和Apache Spark的选择有一定的疑惑，今天查了不少资料，我们就来谈谈这两种平台的比较与选择吧，看看对于工作和发展，到底哪个更好。一、Hadoop与Spark 1.Spark Spark是一个用…

分布式并行软件平台 Dryad Hadoop HPCC

1.为了能够方便记忆， 总结一下。 2. 并行软件平台，不是一个。 （1）这个特别熟悉的以 hadoop 为平台的生态系统 （2）还有以微软的并行软件平台生态系统 (3) 还有LexisNexis公司的基于 C 开发的 …

Hadoop大数据技术有什么市场价值？2019年Hadoop大数据技术7大应用领域

由于国家对大数据、AI等等技术的关注，在多次发展规划中都提高了大数据技术，因此大数据技术对于这个时代的发展来说至关重要，大数据也正处于发展期、巩固期，基于已有的技术去完善和不断的发展大数据技术产品，满足互联网…

yarn的资源调度器

资源调度器目前，Hadoop作业调度器主要有三种： FIFO：【只有一个队列】； Capacity Scheduler：Hadoop2.7.2默认的资源调度器是Capacity Scheduler【有多个队列，可以增加资源调度的并行度，各队列资…

$java.io.IOException: Could not locate executable ...\bin\winutils.exe in the Hadoop binaries.$

java.io.IOException: Could not locate executable ...\bin\winutils.exe in the Hadoop binaries.

windows下运行hadoop的程序报错java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 这是因为windows环境变量不兼容的原因解决办法： 下载winutils地址https://github.com/srccodes/hadoop-common-2.2.0-bin下载解…

大数据入门学习之环境搭建

一：环境搭建：VM、CentOS7安装及网络配置大数据入门首先需要搭建环境，接下来的三篇文章均是环境搭建部分的内容。首先我们要安装虚拟机及linux系统一、安装虚拟机VM 官网下载VM虚拟机：这里下载的VMware-workstation-full-10…

《hadoop权威指南》学习笔记

第一章初识hadoop 大量的数据胜于好的算法。一、数据存储与分析实现多个磁盘的并行读写，需要解决的问题： 1、硬件故障，一旦使用多个硬件，任一硬件发生故障的概率很高，避免数据丢失的办法就是进行数据备份。 R…

Android环境下hanlp汉字转拼音功能的使用介绍

由于项目需要在Android手机设备上实现汉字转拼音功能（支持多音字），于是首先想到了Pinyin4j多音字映射对照表的实现方案，并在项目中试用了一段时间，发现数据量大时，其耗时非常严重。后来寻找其他方案&#x…

离线表数据敏感字段自动id化处理

一、背景对于一些表数据包含的铭感字段需要id 化处理，比如说：用户搜索了某个关键词，或者用户的购物地址是某个城市，这种都需要进行模糊化处理，但是直接模糊化处理不利于使用，比如说：在三四线城…

Hive 任务调优实践总结

一、背景： 最近由于要回刷数据调优前： map数：30000 单个map 运行7-8分钟 reduce数:50 单个reduce 运行了20h 还没完成，还经常失败整体耗时20多个小时还没有完成并且失败了，明显数据倾斜reduce 某个节点跑很久出…

大数据调优经验

1.Mapreduce 调优根据maps/reduces个数、对应的avg time调整mapreduce.job.maps、mapreduce.job.reduces，控制平均时间在30分钟左右（比如maps 数调小一半，avg time增加一倍） 因为设置太多maps/reduces了，每个map/re…

Hadoop MR 任务运行时日志分析

1.任务状态，只有map 节点 2.实际日志分析

Spark练习题

永恒之月 hdfs基础操作删除数据hdfs上的数据删除文件 hadoop fs -rm /user/root/test.txt 删除目录 hadoop fs -rm -f -r /user/root/test.txt 查看hdfs上的文件 hadoop fs -ls /user/root 练习题1.0 1、将文件上传到hdfs上 [roothadoop05lyq50 opt]# hdfs dfs -put resu…

HDFS 使用Java api实现上传/下载/删除文件

package Hadoop; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class HDFSTest01 { /** * 文件上传 * param src …

通过java实现上传文件到hadoop

（1）首先创建java project 选择eclipse菜单上File->New->Java　Project。并命名为UploadFile。 （2）添加必要的hadoop jar包右键选择JRE System Library，选择Build Path下的Configure Build Path。然后选择Add …

Hadoop2-YARN 伪分布模式筹建

1. 系统环境 Memory: 3G CentOS6.3 x86-64 jdk-6u37-linux-x64.bin hadoop-2.0.2-alpha.tar.gz 并配置好Java环境变量。 2. 配置hosts、IP及SSH认证 [kevinlinux-fdc ~]$ cat /etc/hosts 127.0.0.1 localhost localhost.localdomain ::1 localh…

HDFS的命令行操作

在成功部署Hadoop的基础上创建目录语法：hadoop fs -mkdir <目录名/路径> hadoop fs -mkdir /user/hadoop hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2查看列表文件语法：hadoop fs -ls <参数> hadoop fs -ls /user/hadoop…

深入了解Hdfs和Yarn架构

目录 Hdfs 1.元数据节点和数据节点 2.合并流程 3.数据的分发遵循就近原则 Yarn 1主从架构<

Kudu用法详尽剖析

最近在招聘要求下突然看到了Apache kudu 于是花了几天时间研究了下，下面简单的给大家介绍下记得收藏。一、Kudu 介绍 1.1、背景介绍在KUDU之前，大数据主要以两种方式存储； 【1】：静态数据以 HDFS 引擎作为存储引擎&#xf…

Datax与Sqoop的对比

Sqoop主要特点 1、可以将关系型数据库中的数据导入hdfs、hive或者hbase等hadoop组件中，也可将hadoop组件中的数据导入到关系型数据库中； 2、sqoop在导入导出数据时，充分采用了map-reduce计算框架，根据输入条件生成一个map-reduc…

MongoDB主从复制

一三种角色主要成员(Primary)：主要接收所有写操作。就是主节点。副本成员(Replicate)：从主节点通过复制操作以维护相同的数据集，即备份数据，不可写操作，但可以读操作(但需要配置)。是默认的一种从节点类型。仲裁者(A…

玩转大数据开发套件--（2）

目前大数据工具林林总总，能解决的问题各方各面，但是在真正落地到企业的时候却往往因使用问题遇到障碍。为此星环针对使用体验上的需求打造大数据开发套件Transwarp Studio，深化大数据技术的应用，在数字化浪潮下推动大数据技术对产…

淘宝，滴滴，美团各大厂是如何搭建大数据平台架构的？

今天我们来看一下淘宝、美团和滴滴的大数据平台，一方面进一步学习大厂大数据平台的架构，另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图，你就会发现，不但这些知名大厂的大数据平台设计方案大同小异，架…

大数据开发：Flink入门（三）——环境与部署

flink是一款开源的大数据流式处理框架，他可以同时批处理和流处理，具有容错性、高吞吐、低延迟等优势，本文简述flink在windows和linux中安装步骤，和示例程序的运行，包括本地调试环境，集群环境。另外介绍Flin…

hadoop 调度器 capacityTaskScheduler

贴两个不错的链接： http://blog.csdn.net/azhao_dn/article/details/7070327 http://blog.csdn.net/xhh198781/article/details/7573842 在项目中一共起了四个队列，调度来自oozie 统计，搭建物理模型，etl服务的请求；各设…

Pytorch使用MNIST数据集实现CGAN和生成指定的数字

CGAN的全拼是Conditional Generative Adversarial Networks，条件生成对抗网络，在初始GAN的基础上增加了图片的相应信息。这里用传统的卷积方式实现CGAN。 import torchfrom torch.utils.data import DataLoaderfrom torchvision.datasets import MNISTf…

python中安装配置pyspark库教程需要配合spark+hadoop使用

单独安装pyspark库在单机上是没法运行的，需要有相应的分布式软件，这里可以是sparkhadoop，配置安装教程链接：spark2.3在window10当中来搭建python3的使用环境pyspark 配置pyspark库之前在安装spark的时候，提到过pyspar…

大数据基础知识：Hadoop分布式系统介绍

随着智能化、万物互联时代的快速发展，数据量开始暴增，一方面我们需要开始思考如何高效可靠地存储海量的数据，另一方面我们还需要对这些数据进行分析处理，以获得更多有价值的信息。这时期我们就需要用到Hadoop了。 Hadoop是Apache软…

大数据就业的5大方向详解：工作职责+未来发展

今天我们来了解一下大数据的职业发展、岗位细分、以及工作内容。大数据总体可分为2大方向5大职业。 2大类分别为技术类和业务类，其中，技术方向侧重于怎样处理好数据，业务方向侧重于怎样用好数据； 技术方向技术类方向是大数据…

Linux使用Eclipse编写WordCount时没有out结果

创作不易，转载请注明出处文章目录一、报错信息二、原因分析三、解决方法另附一、报错信息 2020-12-05 18:22:17,680 WARN util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(62)) - Unable to load native-hadoop library for your platform... usi…

《聚焦人脸识别的大数据测试系统》赛题讲解

竞赛：21年浙江省服务外包竞赛，题目：《聚焦人脸识别的大数据测试系统》，获得奖项：二等奖一、赛题介绍此题目要以虹软公司人脸识别SDK产品为例，开展针对人脸识别产品的大数据测试。 （1&#…

《Hadoop技术内幕：深入解析Hadoop和HDFS》一、1.1什么是Hadoop

数据！数据！数据！ 今天，我们正被数据包围。全球 43 亿部电话、20 亿位互联网用户每秒都在不断地产生大量数据，人们发送短信给朋友、上传视频、用手机拍照、更新社交网站的信息、转发微博、点击广告等，使…

大数据基础架构

一、大数据两大核心技术： 分布式存储：HDFS、HBase、NoSQL、NewSQL 分布式处理：MapReduce 二、大数据计算模式： 三、代表性大数据技术： 1.Hadoop：ETL工具（extract、transform、load&#xff0…

Hive一分钟

分区和分桶 1.分区表是将大的表文件划分成多个小文件以利于查询，但是如果数据分布不均衡，也会影响查询效率。 2.桶表可以对数据进行哈希取模，目的是让数据能够均匀的分布在表的各个文件中。 3.物理上，每个桶就是表和分区目录里的…

hadoop编译后安装目录分析，安装包在哪？

1.Hadoop编译后的文件目录（这是3.1.1支持zstd压缩版本） hadoop安装包所在地： hadoop-3.1.1-src/hadoop-dist/target/下，如下图 2.hbase编译后的目录结构 hbase安装包所在地：hbase-1.4.10\hbase-assembly\target下&a…

HDFS 高可用分布式环境搭建

HDFS 高可用分布式环境搭建作者：Grey 原文地址： 博客园：HDFS 高可用分布式环境搭建 CSDN：HDFS 高可用分布式环境搭建首先，一定要先完成分布式环境搭建并验证成功然后在 node01 上执行stop-dfs.sh 重新规划每…

HDFS 伪分布式环境搭建

HDFS 伪分布式环境搭建作者：Grey 原文地址： 博客园：HDFS 伪分布式环境搭建 CSDN：HDFS 伪分布式环境搭建相关软件版本 Hadoop 2.6.5 CentOS 7 Oracle JDK 1.8 安装步骤在CentOS 下安装 Oracle JDK 1.8 下载地址将下…

hadoop学习笔记（八）MapReduce应用程序执行过程及java程序编写

MapReduce应用程序执行过执行的MapReduce的程序会被部署到集群中去，Master负责作业调度，worker负责执行执行Map和Reduce任务从集群中选出执行Map任务的空闲机器，进行分片处理，然后进行mapmap任务读取输入数据，得到输出…

HBase 2.x ---- 整合 Phoenix

HBase 2.x ---- 整合 Phoenix1. Phoenix简介1. Phoenix定义2. 为什么使用 Phoenix2. Phoenix 快速入门1. 安装2. Phoenix Shell 操作1. table1. Phoenix简介 1. Phoenix定义 Phoenix 是 HBase 的开源 SQL 皮肤。可以使用标准 JDBC API 代替 Base 客户端 API 来创建表&#xf…

hadoop学习笔记（四）HBase的安装

Hbase和Hadoop的版本兼容性安装Hbase Hbase是hadoop生态圈的一个组件，是一个分布式数据。我用的是Hadoop2.6.0和Hbase1.1.2进行安装的，这是完全兼容的。去Hbase官网下载历史版本即可。和安装hadoop类似，不做过多阐述。 sudo tar -zxf ~/下…

HBase 2.x ---- HBase 优化

HBase 2.x ---- HBase 优化1. RowKey 设计1. 实现需求12. 实现需求23. 添加预分区优化2. 参数优化3. JVM 调优4. HBase 使用经验法则1. RowKey 设计一条数据的唯一标识就是 rowkey，那么这条数据存储与哪个分区，取决于 rowkey 处于哪个一个预分区的区间…

HBase 2.x ---- HBase进阶

HBase 2.x ---- HBase进阶1. Master详细架构2. RegionServer架构3. 写流程4. MemStore Flush5. 读流程1. HFile 结构2. 读流程3. 合并读取数据优化6. StoreFile Compaction7. Region Split1. 预分区（自定义分区）2. 系统拆分1. Master详细架构 Meta表格介…

knn两个

先考虑训练集很大，测试集很小的情况将测试集设置为全局文件，由于测试集很小，所以用hdfs的方法，在每一个map节点都会计算出它与每一个测试集的距离，输出：Key测试集ID，Value标签，距离…

专利引用关系数据集分析

专利引用关系数据集分析这次实验的两个题目，一个可以由词频统计代码改编，一个由倒排索引改编，改编的重点是将每一排的两个输入分开。输出专利被引用次数统计结果： 根据题目要求需要输出被引用的专利和它的次数，在word…

专利去重重

package wordcount; //导入必要的package import java.io.IOException; //报错类 import java.util.HashSet; import java.util.Iterator;//迭代器，与string和next有关 import java.util.Set; import java.util.StringTokenizer; //StringTokenizer类，用…

Ubuntu16.04下Hadoop的本地安装与配置

Ubuntu16.04下Hadoop的本地安装与配置一、系统环境 os : Ubuntu 16.04 LTS 64bit jdk : 1.8.0_161 hadoop : 3.3.1 二、安装步骤 1、安装并配置ssh 1.1 安装ssh 输入命令： $ sudo apt-get install openssh-server ，安装完成后使用命令 $ ssh localhost …

Hadoop 3.x（生产调优手册）----【HDFS--集群扩容及缩容】

Hadoop 3.x（生产调优手册）----【HDFS--集群扩容及缩容】1. 添加白名单2. 服役新服务器3. 节点间数据均衡4. 黑名单退役服务器1. 添加白名单白名单：表示在白名单的注解 IP 地址可以用来存储数据。企业中：配置白名单，…

Hadoop 3.x（生产调优手册）----【HDFS--多目录】

Hadoop 3.x（生产调优手册）----【HDFS--多目录】1. NameNode多目录配置2. DataNode多目录配置3. 集群数据均衡之磁盘间数据均衡1. NameNode多目录配置 NameNode 的本地目录可以配置成多个，且每个目录存放内容相同，增加了可靠性具…

Hadoop 3.x（MapReduce）----【MapReduce 框架原理三】

Hadoop 3.x（MapReduce）----【MapReduce 框架原理三】1. OutputFormat接口实现类2. 自定义OutputFormat案例实操1. 需求2. 需求分析3. 案例实操4. 测试输出结果1. OutputFormat接口实现类 OutputFormat 是 MapReduce 输出的基类，所有实现 Ma…

20201221linux 启动hbase 脚本

一般，我们启动hbase的步骤是： (1) ./hadoop-2.9.2/sbin/start-all.sh(2) 启动hbase和yarn（先将终端切换到hbase）(其实不需要启动yarn) ./hbase-1.6.0/./bin/start-hbase.sh（3）启动hbase shell ./hbase-1…

Hadoop入门(10)_通过java代码实现从本地的文件上传到Hadoop的文件系统

第一步：首先搭建java的编译环境。创建一个Java Project工程，名为upload。第二步：选中所需的Jar包。选中JRE System Library 选择BuildPath Configure Build Path 选择hadoop相应的jar包。通过Add External JARS --〉Hadoop-0.2…

大数据之Hadoop技术入门汇总

今天，小编对Hadoop入门学习知识进行了汇总，帮助大家更好地入手大数据。小编关于Hadoop入门总共发写了12篇原创文章，文章是参照尚硅谷大数据视频教程来进行撰写的。今天，小编带你解锁正确的阅读顺序。按这个顺序阅读并去实操&…

产品升级｜9月产品升级，精彩不间断！

9月，在上海举办的“云智技术论坛”智能大数据专场，百度智能云带来了云智一体的大数据产品架构全景图，为企业提供从构建新型数据基础设施、深度挖掘数据价值，到保障数据安全的全流程大数据解决方案。百度持续的高频率的产品发布与更…

每秒创建百万文件，百度沧海·文件存储CFS推出新一代Namespace架构

随着移动互联网、物联网、AI 计算等技术和市场的迅速发展，数据规模指数级膨胀，对于分布式文件系统作为大规模数据场景的存储底座提出了更高的要求。已有分布式文件系统解决方案存在着短板，只能适应有限的场景：>> 新型分布式…

3.Hadoop运行模式-完全分布式(重点)—xsync集群分发脚本、集群配置、SSH无密登录、启动集群

本文目录如下：4 完全分布式运行模式（开发重点）4.1 虚拟机准备4.2 scp(secure copy)安全拷贝4.3 rsync 远程同步工具4.4 **xsync集群分发脚本**4.4.1 需求分析：4.4.2 脚本实现4.4.3 xsync相关错误4.5 集群配置4.5.1 集群部署规划4.…

2.Hadoop运行模式-本地式、伪分布式 (仅用于测试) | 历史服务器、日志聚集

本文目录如下：Hadoop运行模式-本地式、伪分布式2.本地运行模式2.1 官方Grep案例2.2 官方WordCount案例3 伪分布式运行模式 (仅用于测试)3.1 启动HDFS并运行MapReduce程序3.1.1 配置集群3.1.2 启动集群3.1.3 查看集群3.1.4 操作集群3.2 启动YARN并运行MapReduce程序3…

大数据学习框架综述-Hadoop组成、大数据生态、推荐系统技术框架

本文目录如下：大数据学习框架综述大数据学习框架综述 Hadoop的组成注：YARN之上调用的是MapReduce计算框架，也可调用其它计算框架的资源，如Spark、Flink。大数据技术生态体系图中涉及的技术名词解释如下： Sqoop&…

2.HDFS文件读写过程、元数据管理-Fslmage和Edits详解、SecondaryNameNode详解

本文目录如下：3 HDFS的文件写入过程4 HDFS的文件读取过程5 HDFS的元数据管理5.1 Fslmage和Edits详解5.1.1 fsimage中的文件信息查看5.1.2 edits中的文件信息查看5.2 SecondaryNameNode详解5.2.1SecondaryNameNode如何辅助管理fsimage与edits文件?。5.3 NameNode故障…

如何在秋招春招拿到数据分析/大数据分析/大数据工程师等数据类岗位？

目录前言 1、秋招准备 1.1 前期准备 1.1.1 摸清自己 1.1.2 认清岗位 1.1.3 简历制作 1.2 笔试/面试准备 1.3 复盘 2、投递简历 3、学习资料分析 4、总结前言首先声明一下：本文分享，仅供参考。本博文将分享作者如何在秋招找到一份数据类岗…

python写mappreduce

python写mr比java要省事的多下面介绍个简单的例子这个就是要的mapper import sys,urlparse,os from subscribe_clean import * from subscribe_ad import *cleansubScribeClean(subscribeMonitorCompany()) for line in sys.stdin:try:rs clean.analyzeData(line)if rsNone …

hadoop hdfs读写

hadoop hdfs读写 hdfs读取文件 1.FSDataInputStream，open创建输入流，建立与nameNode的连接 2.调用getBlockLoction获得hdfs文件的数据块位置 3.FSDataInputStream, read根据数据块位置，建立与datanode的连接，读取数据块 4.在读取到…

产品升级｜1月解锁50多项新功能

又到每月产品盘点时刻，回顾1月，又是满满的收获！50多项新功能上线和升级优化，在不断的技术创新过程中，进一步加速产业智能化升级。下面和小编一起来了解下本次更新详情吧！人工智能满足更多智能场景应用- 文…

什么是hive？什么是hbase？它们有什么区别与联系。

Hive和HBase是两个在大数据领域中常用的开源项目，它们有不同的功能和用途： Hive（Apache Hive）： Hive是一个基于Hadoop的数据仓库基础架构，它提供了一种类似于SQL的查询语言（HiveQL）来…

智能运维 |海量事件数据存储与计算——高可用建设

前文《面对海量事件数据，我来告诉你怎么办！》中我们介绍了百度线上业务运维场景下海量事件数据存储与计算平台EventDB的系统架构、集群规划及未来发展方向，本文将介绍我们在EventDB高可用方向面临的问题、建设经验及后续计划，希望…

ABC Storage私有云全闪对象存储解决方案，AI时代数字经济的核动力

“水大鱼大”是北京大学国家发展研究院周其仁教授对吴晓波“对于2008-2017过往的十年，如果用一个词来形容，您的答案是什么？”这一问题的回答，也是《激荡十年，水大鱼大》一书的书名。相信经历了过往十年中国经济巨大的价…

docker拉取hadoop镜像做集群

该文docker常用命令 docker search imagename：搜索查找镜像 docker pull imagename：拉取镜像到本地仓库 docker images：查看本地镜像 docker ps：查看正在运行的容器 docker ps -a：查看所有容器 docker run --name mast…

GoGrid推大数据解决方案让云计算更轻松

云计算平台GoGrid推出大数据预测分析平台解决方案。它增加了一些新功能，结合了云计算、混合云的灵活性以及前端处理这三者的优势。所有的操作都通过GoGrid的网站管理门户进行，相比Amazon和其他需要更多组件支持的平台，GoGrid的综合性更强。 G…

即将改变世界的6大革新技术

在过去的五六年时间里，我们见证了智能手机、平板电脑、触摸屏、互联网电视、免费Wi-Fi、Facebook、Twitter等新兴事物的崛起。那未来几年呢，会有哪些具有划时代意义的技术出现？这些技术又将给我们的生活带来什么样的变化？ 正如手机…

利用Java实现HDFS文件上传下载

文章目录利用Java实现HDFS文件上传下载1、pom.xml配置2、创建与删除3、文件上传4、文件下载利用Java实现HDFS文件上传下载 1、pom.xml配置  <properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><maven.c…

HDFS的NameNode节点信息管理（元数据）

文章目录HDFS的NameNode信息1、NameNode的信息存放地址2、NameNode节点数据查看3、fsimage文件4、edits文件HDFS的NameNode信息 1、NameNode的信息存放地址 NameNode存储DataNode的元数据，NameNode主要是用于维护DataNode信息。它存储在hadoop文件夹下data/dfs/na…

Linux文件目录梗概介绍

Linux文件目录梗概介绍 /bin 是Binary的缩写, 这个目录存放着最经常使用的命令 /sbin s就是Super User的意思，这里存放的是系统管理员使用的系统管理程序。 /home 存放普通用户的主目录，在Linux中每个用户都有一个自己的目录，一般该目录名…

Atlas2.1.0实战：安装、配置、导入hive元数据、编译排坑

背景随着公司数据仓库的建设，数仓hive表愈来愈多，如何管理这些表？ 经调研，Atlas成为了我们的选择对象，本文是Atlas实战记录，感谢尚硅谷的学习视频 1.Atlas概述 1.1 Apache Atlas 的主要功能元数据管理和…

Hadoop硬件合理配置及raid方面的调研

文章目录前言一、Hadoop硬件合理配置HDFSMapReduceHBase二、Hadoop架构配置建议1.管理节点NameNode2.数据节点DataNode3.JBOD vs. RAID4. SSD与Hadoop3.raid方面总结前言最近公司在Hadoop服务器未来规划，所以调研了各个方面，有点杂乱，这里记…

hadoop 2.6遇到的DataNode无法启动问题

一、问题描述当我们多次格式化文件系统（hadoop namenode -format）时，会出现DataNode无法启动。多次启动中发现有NameNode节点，并没有DataNode节点如图所示： 二、查看问题回头看启动过程注意如下&#x…

基于Java讲述HBase连接池技术

先看官方文档的总体描述： hbase有两种获得connection的方法，分别是如下两种：Connection connection ConnectionFactory.createConnection(conf);Connection connection HConnectionManager.createConnection(conf);这两种方法还有重载方法&…

hadoop官网最新稳定版安装包下载（高效，无毒，简便）

Hadoop是大数据的核心武器，下面来介绍在Windows环境下Hadoop的安装和配置 1.进入下载Hadoop官网 http://www.apache.org/dyn/closer.cgi/hadoop/common2点击链接 3、点击你要下载的版本 4、在etc文件夹进行配置文件配置，开启服务，然后使用。

hadoop100: hadoop100: Name or service not known

如果出现 hadoop100: hadoop100: Name or service not known报错查看 vim /etc/hosts文件中的内容标黄的地方是不是你再环境变量中配置的虚拟机的名称 vim hosts

hadoop学习笔记（五）HBase的原理及概念模型

数据模型 Hbase采用表来组织数据，采用行和列，行为行键，列为列族通过{“行键”，“列族” ，“列限定符”，“时间戳”}来确定一个单元格。概念模型行键按照字典序列进行排序用列anchor:cnnsi.com , anc…

Call From master.hadoop/192.168.31.149 to master.hadoop:8020 failed on connection exception: java.ne

学习hadoop新手易犯错误：Call From master.hadoop/192.168.31.149 to master.hadoop:8020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused 产生此错误的原因是had…

二次开发seatunnel/waterdrop实现在filter中正则替换所有列

1.背景我在使用seatunnel实现从mysql导入到hive的时候，遇到mysql中存在回车换行符“\n\r”时，到hive中会出现在换行符处切分，导致换行前的一条记录后面的列都是空，而换行后的一条记录的前面的列都是空，严重干扰了结果的准确性，所以需要解决这个问题。本身seatunnel的…

统计hive-hdfs文件大小日常腾出磁盘

1 home目录下 klist -kt hdfs.keytab 2 kinit -kt hdfs.keytab hdfs/p-nc1mutapp02.jemincare.comNC1MUTAPP.JEMINCARE.COM 3 hdfs dfs -du -h /user/jmkx_data/hive_db/jmkx_data.db/ > ./a.txt 全量大小 4 hdfs dfs -du -s -h /user/jmkx_data/hive_db/jmkx_data.db/*/…

hive的连接方式

beeline -u "jdbc:hive2://192.168.1.210:10000/;principalhive/mater.test.comBLUE.COM" beeline -u jdbc:hive2://192.168.1.210:10000 -n hive -p admin

linux安装hadoop和hbase之后jps无datanode的原因及解决办法

1.出现状况安装hadoop和hbase之后不能启动datanode，同时浏览器也不能访问hbase，在浏览器中输入localhost:16010显示web页面无效，在hbase shell 下不能正常的使用hbase下面的shell命令，导致不能建表等问题。2.分析原因因为我门…

1.Linux里搭建Java环境

1.在根目录下建立一个export文件，然后再export下建立三个文件software（软件），servers（服务），data（数据） Software：存放安装包 Servers：存放解压…

Chapter7 Hadoop架构架构演进与生态组件

7.1 Hadoop的优化与发展 7.1.1 Hadoop的局限和不足 Hadoop在刚刚推出时，存在很多不足。存在的不足如下： 抽象层次低，需人工编码。很多工作没有办法从高层撰写逻辑代码，必须从最底层进行逻辑编码。即使是很简单的任务都要编写完…

Chapter3 分布式文件系统HDFS

3.1分布式文件系统计算机集群结构： 分布式文件系统把文件分布存储导多个计算机节点上，成千上万的计算机节点构成计算机集群。与之前使用多个处理器和专业高级硬件的并行化处理装置不同的是，目前的分布式文件系统采用的计算机集群都是由普通…

Sqoop的安装、配置与使用

本文目录如下：Sqoop的安装、配置与使用1.虚拟机环境准备2.Linux环境下安装Sqoop环境2.1 安装Sqoop3.使用Sqoop进行数据导入导出3.1 Sqoop 与 HDFS 之间的导入导出3.2 Sqoop 与 Hive 导入导出Sqoop的安装、配置与使用 1.虚拟机环境准备 (1) 虚拟机准备虚拟机的创建…

☀️☀️基于 Hive 的 SparkSQL 启动流程—Hadoop、MySQL、Hive、Spark

本文目录如下：第1章基于 Hive 的 SparkSQL 启动流程1.1 启动 Hadoop 集群 (HDFS)1.2 启动 MySQL 服务1.3 启动 Hive 服务1.4 启动 Zookeeper 服务, 配置高可用 (伪分布式模式时启动)1.5 启动 Spark 集群1.6 Hive On Spark 项目实战第1章基于 Hive 的 SparkSQL 启动…

2.MapReduce序列化—实现序列化接口、序列化案例实战

本文目录如下：第二章 MapReduce序列化案例2.1 自定义FloBean对象实现序列化接口（Writable）2.2 序列化案例实操2.3.1 需求2.3.2 需求分析2.3.3 编写MapReduce程序第二章 MapReduce序列化案例 2.1 自定义FloBean对象实现序列化接口&#xff08…

大数据之数据采集项目总结——hadoop，hive，openresty，frcp，nginx，flume

1、前期准备 2、数据收集 1、开启openresty，nginx和frcp内网穿透 2、编辑并启动定时器 3、查看是否收集到了数据数据收集阶段结束，进入下一个阶段 2、将收集到的切分好的数据上传到hdfs 使用的工具：flume flume像一个管道一样&#xff0c…

1.MapReduce入门-MapReduce进程、常用序列化类型、WordCount实例

本文目录如下：第1章 MapReduce概述1.1 MapReduce进程1.2 常用数据序列化类型1.3 MapReduce编程规范1.3.1 Mapper阶段1.3.2 Reducer阶段1.3.3 Driver阶段1.4 WordCount实例1.4.1 创建一个Maven工程MapReduce-0100-WordCount1.4.2 导入相应依赖1.4.3 配置日志信息1.4.…

CentOS6.8初始配置（3个文件）

初始化CentOS6.8需要配置静态IP，主机名等内容，需要配置以下3个文件内容： 1. 在这里修改网卡的名称：eth0和网卡的物理地址 sudo vi /etc/udev/rules.d/70-persistent-net.rules2. 在这里修改静态IP，主要修改以下内容&…

5.DataNode工作机制、数据完整性、数据结点服役退役

本文目录如下：第9章 DataNode（面试开发重点）9.1 DataNode工作机制9.2 数据完整性9.3 掉线时限参数设置9.4 服役新数据节点9.4.1 环境准备9.4.2 服役新节点具体步骤9.5 退役旧数据节点9.5.1 添加白名单9.5.2 如果数据不均衡，可以用…

Hadoop 环境搭建

Hadoop 环境的几种模式 Single Node Cluster 或称单机（本地）模式，这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。在单机模式（standalone）中不会存在守护…

3.HDFS的客户端操作—环境准备（Windows10上安装与配置 Hadoop3.2 环境）、API操作、I/O流操作

本文目录如下：3.HDFS的客户端操作—环境准备、API操作、I/O流操作3.1 HDFS客户端环境准备3.1.1 在Win10上安装Hadoop并配置环境变量3.1.2 创建一个Maven工程Hdfs-0100-HelloWorld3.1.3 导入相应的依赖、配置日志文件3.1.4 创建包名：com.xqzhao.hdfs3.1.5…

在Web端查看各节点状态(总结)

本文目录如下：5 在Web端查看各节点状态(总结)5.1 Web端查看HDFS的NameNode5.2 Web端查看HDFS的DataNode5.3 Web端查看HDFS的SecondaryNameNode5.4 Web端查看YARN的ResourceManage5.5 查看HDFS上传的文件5.6 查看历史服务器信息5.7 查看日志聚集信息5 在Web端查看各节…

贫苦家庭与野生公有云之间的 WireGuard Mesh 组网策略

大家好，我是米开朗基杨。熟悉我的小伙伴都知道我是一名与时俱进的 WireGuard 舔狗，我早就把所有的跨云组网都换成了 WireGuard。WireGuard 利用内核空间处理来提升性能（更高吞吐和更低延迟），同时避免了不必要的内核和用…

大数据工具使用纪实

1.hadoop 主从式hadoop配置主要包含： 1.环境准备：java环境，免密登陆，主机名映射（可选），环境变量 2.配置文件： core-site.xmlhdfs-site.xmlslaves 3.操作 hdfs namenode –forma…

Hive中表分类概念介绍

表分类 – 由Hive全权管理的表所谓的管理表指的是hive是否具备数据的管理权限，如果该表是管理表，当用户删除表的同时hive也会将表内对应的数据删除，因此在生产环境下，为了防止误操作，带来数据损失，一般考…

hadoop 报错 org.apache.hadoop.mapred.TaskTracker: Process Thread Dump: lost task

项目最近报错，形如： org.apache.hadoop.mapred.TaskTracker: Process Thread Dump: lost task Thread 2958 (process reaper):State: RUNNABLEBlocked count: 0Waited count: 0Stack:java.lang.UNIXProcess.waitForProcessExit(Native Method)java.lang.…

hadoop oozie 报错

1.oozie报异常泄露预警关闭oozie，需要将tomcat的server.xml的jvm监听关闭 2.oozie返回执行状态bug 需要添加配置 <property><name>mapreduce.fileoutputcommitter.marksuccesfuljobs</name><value>false</value> </property> …

Hadoop中怎么解决Starting secondary namenodes [0.0.0.0]

对于Ubtuntu安装的Hadoop的补充，安装教程见博客：https://blog.csdn.net/qq_44176343/article/details/106824922 我在安装过程中遇到一个这么的错误，这个问题怎么解决呢？ 解决办法： 1.打开用于设置HDFS分布式文件系统…

hadoop 命令

hadoop 命令 hdfs: 查看hdfs hadoop fs -ls / hadoop fs -lsr / 创建目录 hadoop fs -mkdir /user/hive 删除目录文件 hadoop fs -rm /user/hive/file hadoop fs -rmr /user/hive 上传文件 hadoop fs -put /home/admin/newfile /user/hive/createfile 下载文件 hadoop fs -get …

hadoop pig入门总结

在这里贴一个pig源码的分析，做pig很长时间没做笔记，不包含任何细节，以后有机会再说吧 http://blackproof.iteye.com/blog/1769219 hadoop pig入门总结 pig简介pig数据类型pig latin语法pig udf自定义pig derived衍生推荐书籍 programming pig…

pig 源码分析

先贴几张pig的部分类图： pig logicalPlan转换为physicalPlan的类图 logicalPlan生成mapreducePlan类图 pig的主要流程使用antlr生成语法树， 对照规则rule生成logicalPlan，每个logicalPlan聚合多个operator，operator就是pig的一个…

hadoop 源码分析

先贴一张hadoop的部分类图如图所示，组要的过程都在LocalJobRunable的内部类Job中，主要当然是map/reduce（MapTask和ReduceTask）。 1.TaskSplitMetaInfo 把job分解为几个task，并返回task头信息 2.MapTask中计算map ta…

Hadoop并非完美：8个代替 HDFS 的绝佳方案

HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，坦白说HDFS是一个不错的分布式文件系统，它有很多的优点，但也存在有一些缺点，包括&#xff1…

IT企业利用云计算平台Hadoop的10种方式

如果你是世界上广大Hadoop用户的一员，你肯定知道Google曾经靠着分布式计算技术（Hadoop），在搜索引擎和广告方面取得了举世瞩目的成就。现在的Hadoop不仅是当年的老二Yahoo的专用产品了，从Hadoop长长的用户名单中&#x…

Hadoop的格式化和启动

在未配置环境变量的情况下，先进入到Hadoop文件中，Hadoop的其余配置已经完成 1.格式化 bin/hdfs namenode -format 进行格式化如果想要格式化失败或者想要重新格式化，请删除配置文件中配置的 hadoop_repo 整个文件夹 2.启动在Hadoop文件…

实验七：Spark初级编程实践

由于CSDN上传md文件总是会使图片失效完整的实验文档地址如下： https://download.csdn.net/download/qq_36428822/85814468 1、实验环境： 设备名称 LAPTOP-9KJS8HO6 处理器 Intel Core™ i5-10300H CPU 2.50GHz 2.50 GHz 机带 RAM 16.0 GB (15.8 GB 可…

实验六：熟悉Hive的基本操作

由于CSDN上传md文件总是会使图片失效完整的实验文档地址如下： https://download.csdn.net/download/qq_36428822/85709631?spm1001.2014.3001.5501 “大数据技术原理与应用”课程实验报告题目：实验六：熟悉Hive的基本操作姓名&#xff1a…

实验5：MapReduce 初级编程实践

由于CSDN上传md文件总是会使图片失效完整的实验文档地址如下： https://download.csdn.net/download/qq_36428822/85709497 实验内容与完成情况： （一）编程实现文件合并和去重操作对于两个输入文件，即文件 A 和文件 B&…

Hbase基本命令以及和Hive的对比

文章目录Hbase基本命令基本命令实际代码展示Hive 与 HBase的对比总结两者分别是什么？两者的特点限制应用场景总结Hbase基本命令基本命令命令说明hbase shell进入客户端list列出Hbase中存在的所有表alter修改列簇(column family)模式count统计表中行的数量create…

Apache APISIX Ingress Controller 首个 GA 版本 v1.0 正式发布！

关于 Apache APISIX Ingress ControllerApache APISIX Ingress Controller 是一个使用 Apache APISIX 作为数据面承载流量的云原生 Ingress Controller 实现，采用 CRD 的方式对 Kubernetes 进行了扩展。可支持使用包括 ApisixRoute、ApisixUpstream 等自定义资源&am…

Hbase安装和配置

文章目录Hbase安装和配置安装Hbase配置配置hbase-env.sh 文件配置hbase-site.sh 文件配置环境变量启动1、开启Hbase进程2、进入Hbase数据库Hbase安装和配置安装Hbase 提前准备好压缩文件并上传到linux系统内输入命令解压： tar -zxvf hbase-1.2.0-cdh5.14.2.ta…

Hive的安装和配置

文章目录Hive的安装和配置安装HIVE配置先创建用户(备用)修改环境变量配置hive-site.xml文件配置hive-env.sh文件添加MySQL的jar包启动hive总结Hive的安装和配置安装HIVE 提前准备好安装包上传到linux系统内输入解压命令： tar -zxvf hive-1.1.0-cdh5.14.2.tar.…

Hadoop基础知识梳理

文章目录Hadoop基础知识梳理一、hadoop核心框架1、什么叫大数据？有什么特点？2、hadoop大数据开源框架二、hdfs1、什么是hdfs2、写文件的流程：3、读文件的流程：4、常用命令：5、Namenode、datanode、secondaryNamenode 三…

ntp的时间同步配置

ntp的时间同步配置当搭建完成hadoop的集群搭建之后，我们先来做时区同步在三台虚拟机上都使用以下命令安装 ntp yum -y install ntp然后在三台机器上都用以下命令设置ntp开机自启 chkconfig ntpd on下面修改主机的ntp.conf文件 vi /etc/ntp.conf如图取消注释 r…

$Error: JAVA_HOME is incorrectly set. Please update F:\hadoop\conf\hadoop-env.cmd解决方法$

Error: JAVA_HOME is incorrectly set. Please update F:\hadoop\conf\hadoop-env.cmd解决方法

在控制台中输入hdfs后提示Error: JAVA_HOME is incorrectly set. Please update F:\hadoop\conf\hadoop-env.cmd错误如下图如果你的JAVA_HOME环境变量配置也没问题，在控制台中输入java -version得到如下输出则说明没问题： 打开E:\hadoop-2.7.3\etc\had…

hadoop高可用架构搭建

文章目录hadoop高可用架构搭建准备环境HDFS-HA 集群配置配置 core-site.xml 文件配置 hdfs-site.xml配置 yarn-site.xml启动 HDFS-HA 集群1、启动zookeeper集群2、启动journalnode3、格式化HDFS（仅第一次启动执行）4、格式化ZKFC（仅第一次启动…

hbase基础操作命令

目录 1.开启hbase进程 2.检查hbase状态 3.新建表格 4.表格查询 5.添加或删除列表 6.表内添加数据 7.表内更新数据 8.增加与删除列族 9．删除表组 10.退出 1.开启hbase进程在有Hadoop的前提之下，开启hbase服务，并查看所有进程 [ro…

Hadoop文件基础操作命令

1.查看进程jps 2.进入配置文件（可能路径不同，具体路径以格式化后通知的文件储存路径为主） [rootmaster ~]# cd /tmp/hadoop-root/dfs/name/current/ 3.改变文件格式，使之可以查看 hdfs oiv -i fsimage_000000000000000000 -o f…

Chapter2 大数据处理架构Hadoop

2.1 Hadoop简介和版本演变 2.1.1 Hadoop简介 Hadoop是Apache软件基金会旗下开源软件，为用户提供高层接口，为用户提供了底层细节透明的分布式基础架构。 Hadoop是基于java语言开发的，具有很好的跨平台性，但是它支持多种语言&…

Chapter1 大数据概述

1.1 大数据时代 1.1.1第三次信息化浪潮 2010年前后，以云计算、大数据、物联网的首发为标志迎来第三次信息化浪潮。 IT发展史历经的信息化浪潮如下： 1.1.2 大数据时代的到来需要技术支撑主要表现为： 存储设备容量不断增加CPU处理能力大…

Hadoop2.x学习笔记-1（Hadoop架构+NTP集群时间同步配置）

一、前言本人认为，学习一门技术首先需要系统的了解技术整个框架，才能让自己对这门技术的理解更进一步。同时，先有理论，后有技术的出现。这代表着，我们需要在学习好理论基础的前提上完成实践的操作，这样才能…

2.Spark基础—Linux环境下安装Spark环境、本地模式、独立部署模式、配置历史服务器、配置高可用

本文目录如下：第2章 Linux环境下安装Spark环境2.1 虚拟机环境准备2.2 安装Spark2.2.1 进入到Spark安装包路径下2.3.2 解压安装文件到/opt/module下面2.2.3 查看是否解压成功2.3 运行模式-本地模式2.3.1 执行WorkCount案例2.3.2 提交应用2.4 运行模式—独立部署模式(…

Hadoop基本架构

说说你对集群概念的理解? 集群是多个服务器组成的一个群体，这些服务器做相同类型任务。好比饭店做饭一个厨师忙不过来，又请了个厨师，两个厨师都能炒一样的菜，这两个厨师的关系是集群；切菜，备菜&#xff0…

关于Hadoop之Linux配置的几个知识点

配置/etc/hosts 的作用? /etc/ hosts是主机名查询静态表，里面是lp和主机名称映射关系，我只要配了这个IP，就能通过主机名找到对应的机器，来打开服务器的浏览的页面。注意：在修改HOSTS文件时候，还常常遇到…

hadoop搭建机群datanode出现问题解决办法

重写搬砖搞这两个文档(注意pdf里面的顺序) 重新配置好 vi hdfs-site.xml vi core-site.xml 然后找到core-site.xml中hadoop.tmp.dir的路径/opt/apps/tmp,把该路径下的东西删除干净,重新hdfs namenode -format

hadoop集群启动之后safe mode is on问题解决_2020-09-16

问题描述当启动hadoop集群的时候，没有报错，进入hadoop:50070端口也正常，但是在Summary中，安全模式提示为on。不知为何。。。。当启动hive的时候，会报错：namenode safemode is on 然后看其他博客说是因为…

Big Data 及 Hadoop

什么是hadoop Hadoop是一款开源框架，可以在多台具有基本计算节点组成的集群构成的分布式环境上处理大数据。它既可以在单服务节点，也可以在多服务节点上运行，每个节点都会提供局部计算和存储功能。本部分主要会介绍大数据 Big Data 什么是…

Hadoop基本介绍

1、Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成，其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS（Hadoop Distributed File System）来执行MapReduce程序的MapReduce引擎。 &…

HDFS小文件问题分析与解决方案（面试层面~）

会造成的影响 （1）存储层面： 在HDFS中，每个block，文件或者目录在内存中均以对象的形式存储 1个文件块，占用namenode多大内存150字节 1亿个小文件*150字节 1个文件块 * 150字节这样会使namenode内存容量严…

HAHadoop架构分析（高可用 Hadoop架构）

1.NameNode单点故障概念：如果NN主机宕机，导致整个HDFS集群中所有节点全部停止工作。解决思路：为NameNode主机提供一个NameNode备机。方法： 1.实时监控NameNode11宕机 2.发现NameNode11宕机，触发一段操作。启动Nam…

阿里宣布拆中台，首当其冲就是优化数据中台架构？

你被大数据杀过熟吗？当今企业对数据的重视度越来越高，在大数据系统架构设计层面，大数据架构师需要完成技术决策、技术选型，还需要根据不同时期的业务场景，不断优化和演进软件架构，最终攻克技术难点、化解技…

Hive 死期将至?

众所周知，大数据技术正被广泛应用于电商、交通、工业、医疗等行业，大数据工程师已成为互联网行业炙手可热的岗位。另一方面，像月薪 20k 以上的大数据工程师，技能要求就很高，除了要熟练各种大数据框架，还要会…

启动Hadoop时报错JAVA_HOME is not set and could not be found

问题出现原因是Hadoop无法获取到jdk 解决方法： 去Hadoop中/etc/hadoop/hadoop-env.sh里进行设置这里的配置由原先的export JAVA_HOME${JAVA_HOME} 改为export JAVA_HOME/opt/install/jdk1.8 （应当使用绝对路径。） 与你在环境变量中配置的…

【大数据技术】实验3：熟悉常用的Hive操作

文章目录一、实验环境二、实验内容安装Hive环境HiveQL练习词频统计出现的问题一、实验环境操作系统：Linux（与实验1保持一致）；Hadoop版本：3.3.1；JDK版本：1.8；Hive版本：3…

大数据踩坑合集（三）

大数据踩坑合集（三）之swp交换文件今天在练习shell脚本时，需要vim一个脚本，修改其中的一个配置，结果vim时出现了下面这种结果： 像我这种身兼几十种强迫症的人怎么可以忍得了呢？ 排查之后发现这…

windows下Kettle9.1连接oracle数据库报错

因为此时 kettle 的版本是最新的，所以理所应当要跟oracle的最新版 ojdbc.jar包配合使用。步骤：oracle官网下载最新版 instantclient-basic-windows.x64-19.9.0.0.0dbru.zip ，解压得到 ojdbc8.jar，放到 kettle 的 data-integrati…

hadoop知识总结-思维导图(包含hive、hbase、zookeeper)

Hive（一）

一、DDL 1、数据库操作 1）、创建数据库语法： CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_nameproperty_value, ...)]; 案例： （1&…

【HDFS】BlockSender发送数据源码详解

本文包含如下内容： 1、BlockSend在发送数据之前读数据文件和meta文件生成的Packet的结构。 2、BlockSender的核心方法：sendBlock和sendPacket。前言： BlockSender#sendBlock有几处调用场景，分别是： 1、copyBlock，用于balancing； 2、DataTransfer#run，用于pipeline恢复…

Windows运行Spark所需的Hadoop安装

解压文件复制bin目录找到winutils-master文件hadoop对应的bin目录版本全部复制替换掉hadoop的bin目录文件复制hadoop.dll文件将bin目录下的hadoop.dll文件复制到System32目录下配置环境变量修改hadoop-env.cmd配置文件注意jdk装在非C盘则完全没问题，如果装在…

启动hive遇到Exception in thread main java. lang. Lega LArgumentException:java . net . UnknownHost Excep

Exception in thread main java. lang. Lega LArgumentException:java . net . UnknownHost Exception: master 克隆原集群中的master 作为高性能的单点机器,配置好hdfs ,yarn ,hive文件后单点集群正常启动,但是hive报错, 解决: 在隐射后面 192.168.226.104 standalone 后面再…

腾讯云大数据团队主导Apache社区新一代分布式存储系统Ozone 1.0.0发布

刚刚获悉，由腾讯云大数据团队主导的Ozone 1.0.0版本在Apache Hadoop社区正式发布。据了解，经过2年多的社区持续开发和内部1000节点的实际落地验证，Ozone 1.0.0已经具备了在大规模生产环境下实际部署的能力。 Ozone 是Apache Hadoop社区推出的…

【从0开始离线数仓项目】——数据仓库的环境搭建（1）

目录一、服务器环境准备 1.2 编写集群分发脚本xsync 1.3 SSH无密登录配置 1.4 JDK准备 1.5 环境变量配置说明二、集群所有进程查看脚本三、Zookeeper安装 3.1 分布式安装部署 3.2 ZK集群启动停止脚本 3.3 客户端命令行操作一、服务器环境准备 CentOS 7 怎么从命…

hive 中最常用日期处理函数

hive 常用日期处理函数在工作中，日期函数是提取数据计算数据必须要用到的环节。哪怕是提取某个时间段下的明细数据也得用到日期函数。今天和大家分享一下常用的日期函数。为什么说常用呢？其实这些函数在数据运营同学手上是几乎每天都在使用的。技术交…

Hive SQL 优化大全（参数配置、语法优化）

文章目录参数配置优化yarn-site.xml 配置文件优化mapred-site.xml 配置文件优化分组聚合优化 —— Map-Side优化参数解析优化案例服务器环境说明机器名称内网IP内存CPU承载服务master192.168.10.1084NodeManager、DataNode、NameNode、JobHistoryServer、Hive、HiveServer…

Hive SQL 优化大全（参数配置、语法优化）

文章目录参数配置优化yarn-site.xml 配置文件优化mapred-site.xml 配置文件优化分组聚合优化 —— Map-Side优化参数解析优化案例服务器环境说明机器名称内网IP内存CPU承载服务master192.168.10.1084NodeManager、DataNode、NameNode、JobHistoryServer、Hive、HiveServer…

Sqoop实操案例-互联网招聘数据迁移

🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 个人主页：beixi 本文章收录于专栏（点击传送）：【大数据学习】 💓💓持续更新中，感谢各位前辈朋友们支持…

hadoop wind主机不能访问虚拟机部署的hadoop

1.查看hadoop是否启动成功：通过jps我们能够看到hadoop启动正常 2.虚拟机里面能否正常访问：9870端口，虚拟机能够通过localhost:9870正常访问 3.查看虚拟机与主机能否ping,telnet通 wind主机能够ping通 telnet 192.168.0.7 9870 发现不能够链…

Ubuntu18.04安装并配置Hadoop集群

文章目录一、Hadoop安装配置二、Hadoop集群配置三、Ubuntu静态ip设置一、Hadoop安装配置安装配置二、Hadoop集群配置集群配置教程三、Ubuntu静态ip设置静态IP

hive高频使用的拼接函数及“避坑”

hive高频使用的拼接函数及“避坑” 说到拼接函数应用场景和使用频次还是非常高，比如一个员工在公司充当多个角色，我们在底层存数的时候往往是多行，但是应用的时候我们通常会只需要一行，角色字段进行拼接，这样join其他…

06-hadoop集群搭建(root用户)

搭建Hadoop集群流程环境准备 1、基础环境的搭建（内网封火墙关闭、主机名、规划好静态ip、hosts映射、时间同步ntp、jdk、ssh免密等） 2、Hadoop源码编译（为了适应不同操作系统间适配本地库、本地环境等） 3、Hadoop配置文件的修…

为什么hive会出现_HIVE_DEFAULT_PARTITION分区

问题： 为什么hive表中出现_HIVE_DEFAULT_PARTITION分区？ 解答： 因为在业务sql中使用的是动态分区，并且hive启用动态分区时，对于指定的分区键如果存在空值时，会对空值部分创建一个默认分区用于存储该部分…

Python 3 使用Hadoop 3之MapReduce总结

MapReduce 运行原理 MapReduce简介 MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。 MapReduce分成两个部分：Map（映射）和Reduce（归纳）。…

基于Hadoop的表级监管

现状大数据平台中，采用hadoop的方式存储数据，hdfs本质上是文件系统，而文件系统对数据的监管能力有限，但是数据安全领域问题日渐凸显，现目前，大数据平台一般以分层结构进行授权，但是对于一线开发人员而言，是能够接触到整个大数据平台中的所有表的，那么如何实现这样一…

【HDFS】BlockReceiver#flushOrSync方法

此方法的功能就是把块数据和元数据文件从datanode缓冲区flush到操作系统缓冲区，如果isSync为true的话，还会做fsync系统调用把文件数据和元数据持久化到磁盘上。参数： boolean isSync ：是否进行同步（涉及到的底层系统调用是fsync）long seqno ：packet的序列号（在本方法…

Docker快速部署Hadoop环境

Docker安装部署Hadoop环境，通过三个容器来模拟三个节点，最后只保留Master节点实现搭建。安装环境 Ubuntu 22.04.1 LTS 和Docker 23.0.1 安装过程拉取镜像 docker pull registry.cn-hangzhou.aliyuncs.com/hadoop_test/hadoop_base在Docker中创建网…

iceberg系列之 hadoop catalog 小文件合并实战

背景 flink1.15 hadoop3.0pom文件 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://mave…

YARN资源调度策略

YARN资源调度策略 1.FIFO 进先出按照任务提交的顺序，先来先服务不支持多队列 2.容量调度器支持多队列，并且支持并行处理任务每个队列采用fifo调度器进行分配，如果优先级相同则按照先进先出顺序执行否则按照优先级执行避免用户死锁循环 …

分布式搭建(hadoop+hive+spark)

地址规划 hadoop-master 192.168.43.141 hadoop-slave1 192.168.43.142 hadoop-slave2 192.168.43.143 核心软件包下载链接链接：https://pan.baidu.com/s/1OwKLvZAaw8AtVaO_c6mvtw?pwd1234 提取码：1234 MYSQL5.6：wget http://repo.mysql…

Hive底层数据存储格式

前言在大数据领域，Hive是一种常用的数据仓库工具，用于管理和处理大规模数据集。Hive底层支持多种数据存储格式，这些格式对于数据存储、查询性能和压缩效率等方面有不同的优缺点。本文将介绍Hive底层的三种主要数据存储格式：文本文件格式、Parquet格式和ORC格式。一、三…

Hadoop学习：深入解析MapReduce的大数据魔力之数据压缩（四）

Hadoop学习：深入解析MapReduce的大数据魔力之数据压缩（四） 4.1 概述1）压缩的好处和坏处2）压缩原则 4.2 MR 支持的压缩编码4.3 压缩方式选择4.3.1 Gzip 压缩4.3.2 Bzip2 压缩4.3.3 Lzo 压缩4.3.4 Snappy 压缩4.3.5 压缩…

正中优配：散户也算股东吗？能不能参加股东大会？

股市上，常有散户自称韭菜，长一波被股市收割一波，不可谓不惨。但要较真的话，散户仍是有必定身份的，最少他是所持股的股东。有人会好奇，原来散户也算股东吗？那他能不能参与公司的股东大会&#xf…

Hive字符串数组json类型取某字段再列转行

一、原始数据 acctcontent1232313[{"name":"张三","code":"上海浦东新区89492jfkdaj\r\n福建的卡"...},{"name":"狂徒","code":"select * from table where aa1\r\n and a12"...},{...}]...…

Hadoop入门机安装hadoop

0目录 1.Hadoop入门 2.linux安装hadoop 1.Hadoop入门定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。优势高可靠性：Hadoop底层维护多…

HQL解决连续三天登陆问题

1.背景统计连续登录天数超过3天的用户，输出信息包括：用户id，登录天数，起始时间，结束时间； 2.准备数据 -- 建表 create table if not exists user_login_3days(user_id STRING,login_date date );--插入…

从零开始的Hadoop学习（二）| Hadoop介绍、优势、组成、HDFS架构

1. Hadoop 是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决，海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念—Hadoop生态圈。 2. Hadoop 的优势高可靠性：Hadoop底层维护多…

【HDFS】BlockReceiver#receivePacket方法详解

BlockReceiver#receivePacket：接收并处理一个packet，这个packet可能包含多个chunks。返回值是packet的数据字节数。 receivePacket这个方法的代码有250+行。非常长。需要我们去一点一点拆解： private int receivePacket() throws IOException {// 从输入流in里读下一个p…

1 Hadoop入门

1.Hadoop是什么？ (1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 (2)主要解决，海量数据的存储和海量数据的分析计算问题。 (3)广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈 2.Hadoop的优势 3 Hadoop组成 4 HDF…

hive-列转行

转成 select customer_code,product_type from temp.temp_xx LATERAL VIEW explode(SPLIT(product_types,,)) table_tmp AS product_type where customer_code K100515182

【Hadoop】HDFS读写流程和客户端命令使用

🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的…

【大数据】图解 Hadoop 生态系统及其组件

图解 Hadoop 生态系统及其组件 1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.Mahout7.HBase8.Zookeeper9.Sqoop10.Flume11.Oozie12.Ambari13.Spark 在了解 Hadoop 生态系统及其组件之前，我们首先了解一下 Hadoop 的三大组件，即 HDFS、MapReduce、YARN&#xff0…

YARN资源管理框架论述

一、简介为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性，并消除早期MapReduce框架中的JobTracker性能瓶颈，开源社区引入了统一的资源管理框架YARN。 YARN是将JobTracker的两个主要功能（资源管理和作业调度/监控）分离&…

小研究 - J2EE 应用服务器的软件老化测试研究

软件老化现象是影响软件可靠性的重要因素，长期运行的软件系统存在软件老化现象，这将影响整个业务系统的正常运行，给企事业单位带来无可估量的经济损失。软件老化出现的主要原因是操作系统资源消耗殆尽，导致应用系统的性能下降甚至…

HDFS读写数据流程和NameNode工作机制

HDFS文件系统写数据 1.步骤文件上传步骤： 向NameNode请求上传文件文件路径(验证请求身份，写权限)响应可以上传文件请求上传第一个Block(0-128M), 请返回DataNode返回dn1,dn2,dn3节点，表示采用这三个节点存储数据 NameNode节点选择存储节…

大数据项目实战（Sqoop安装）

一，搭建大数据集群环境 1.4 Sqoop安装 1.sqoop安装 （1）上传安装包 （2）解压安装包 tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /export/servers （3）重命名 mv sqoop-1.4.6.b…

hadoop 国内镜像极速下载

文章目录国内镜像汇总-极速下载【JavaPub版】 lucene国内镜像 https://mirrors.cloud.tencent.com/apache/hadoop/common/ 国内镜像汇总-极速下载【JavaPub版】

hadoop-HDFS

1.HDFS简介 2.1 Hadoop分布式文件系统-HDFS架构 2.2 HDFS组成角色及其功能 （1）Client：客户端 （2）NameNode (NN)：元数据节点管理文件系统的Namespace元数据一个HDFS集群只有一个Active的NN &#xff…

利用fsimage分析HDFS小文件

一、Hive 小文件概述在Hive中，所谓的小文件是指文件大小远小于HDFS块大小的文件，通常小于128 MB，甚至更少。这些小文件可能是Hive表的一部分，每个小文件都包含一个或几个表的记录，它们以文本格式存储。 Hive通常用于…

Docker安装Hadoop分布式集群

一、准备环境 docker search hadoop docker pull sequenceiq/hadoop-docker docker images二、Hadoop集群搭建 1. 运行hadoop102容器 docker run --name hadoop102 -d -h hadoop102 -p 9870:9870 -p 19888:19888 -v /opt/data/hadoop:/opt/data/hadoop sequenceiq/hadoop-do…

Ubuntu18.04搭建Haoop2.7.7单机及伪分布式

看了零零散散的一系列安装教程后，终于磕磕绊绊勉强完成了Ubuntu搭建Haoop 实在是太不希望看零零散散的乱七八糟的教程所以我决定自己亲手写一份保姆级别的安装配置教程文章目录准备工具环境苦难之旅安装vim和配置静态IP创建一个hadoop用户安装SSH、配置SSH无密码登…

写给我越来越看不懂的网易云音乐。

网易云音乐改版了，版本8.0，听见创造力。酷炫的开场动画，创建音乐视频列表，人人都是播客，想唱就唱直接K歌，还有自定义首页。可以说功能强大，业务宽广。但当我进入APP后，发现这不是我熟…

hadoop 学习：mapreduce 入门案例三：顾客信息与订单信息相关联（联表）

这里的知识点在于如何合并两张表，事实上这种业务场景我们很熟悉了，这就是我们在学习 MySQL 的时候接触到的内连接，左连接，而现在我们要学习 mapreduce 中的做法这里我们可以选择在 map 阶段和reduce阶段去做数据： …

【HDFS】ResponseProcessor线程详解以及客户端backoff反压

ResponseProcessor如何处理datanode侧发过来的packet ack的客户端侧backoff逻辑。ResponseProcessor：主要功能是处理来自datanode的响应。当一个packet的响应到达时，会把这个packet从ackQueue里移除。 @Overridepublic void run() {// 设置 ResponseProcessor 线程的名字setN…

hadoop的hdfs中避免因节点掉线产生网络风暴

hadoop的hdfs中避免因节点掉线产生网络风暴控制节点掉线RPC风暴的参数三个参数都是hdfs-site.xml中参数，具体可以参考apache hadoop官网，其实块的复制速度有两个方面决定，一是namenode分发任务的速度，二则是datanode之间进行复…

一百五十九、Kettle——Kettle9.2通过配置Hadoop clusters连接Hadoop3.1.3（踩坑亲测、附流程截图）

一、目的由于kettle的任务需要用到Hadoop（HDFS），所以就要连接Hadoop服务。之前使用的是kettle9.3，由于在kettle新官网以及博客百度等渠道实在找不到shims的驱动包，无奈换成了kettle9.2，kettle9.2的安装…

Hadoop的DataNode无法启动的解决方案

Hadoop重启一次，里面的数据需要重新导入，发现无法导入数据，查看jps发现是DataNode没有启动，重新启动发现也无法启动，原因是前面重新启动NameNode，里面的文件格式化一次，DataNode的文件不一致&am…

从零开始的Hadoop学习（四）| SSH无密登录配置、集群配置

1. SSH 无密登录配置 1.1 配置 ssh （1）基本语法 ssh 另一台电脑的IP地址 （2）ssh 连接时出现 Host key verification failed 的解决方法 [atguiguhadoop102 ~]$ ssh hadoop103（3）回退到 hadoop102 [at…

基于SSM的物资管理系统的设计与实现(论文+源码)_kaic

【摘要】此物资管理系统是针对生产型企业开发的。通过分析企业的实际管理工作中存在的问题，与管理系统开发的详细步骤及系统开发的原理，并利用计算机的运算速度快、存储容量大、处理逻辑问题强等优点，将管理工作与计算机结合起来。根据管理工…

阿里云服务器部署安装hadoop与elasticsearch踩坑笔记

2023-09-12 14:00——2023.09.13 20:06 目录 00、软件版本 01、阿里云服务器部署hadoop 1.1、修改四个配置文件 1.1.1、core-site.xml 1.1.2、hdfs-site.xml 1.1.3、mapred-site.xml 1.1.4、yarn-site.xml 1.2、修改系统/etc/hosts文件与系统变量 1.2.1、修改主机名解…

hive创建hbase表映射

将hbase中的表映射至hive中，便于表的操作 create external table student_info(id string,student_name string,gender string,pwd string,school_name string,location string ) stored by org.apache.hadoop.hive.hbase.HBaseStorageHandler withserdeproperties…

hive电子商务消费行为分析

hive电子商务消费行为分析 1. 掌握Zeppelin的使用 2. 了解数据结构 3．数据清洗 4. 基于Hive的数据分析 1.物料准备 （1）Customer表 customer_details details customer_id Int, 1 - 500 first_name string last_name string email s…

[Hadoop] start-dfs.sh ssh报错

Permission denied (publickey 决解方案相关命令 cd ~/.sshssh-keygen -t rsa -p""cat id_rsa.pub >> authorized_keyschmod 0600 authorized_keys 相关链接Hadoop: start-dfs.sh permission denied - Stack Overflow Java HotSpot(TM) Server VM warning…

Hadoop 集群小文件归档 HAR、小文件优化 Uber 模式

文章目录小文件归档 HAR小文件优化 Uber 模式小文件归档 HAR 小文件归档是指将大量小文件合并成较大的文件，从而减少存储开销、元数据管理的开销以及处理时的任务调度开销。这里我们通过 Hadoop Archive (HAR) 来进行实现，它是一种归档格式&#xf…

HDFS文件删除后,HIVE元数据还存在的问题

一.背景手动在hdfs上删除了一个表的分区数据(inc_day2023-08-30)，当查询这个表这个分区的数据时报错文件不存在二.原因即HDFS数据删除了，但是hive metastore元数据却没有更新，使用show partitions tablename 发现该分区还存在三.解决办法…

Hadoop生态圈中的Flume数据日志采集工具

Hadoop生态圈中的Flume数据日志采集工具一、数据采集的问题二、数据采集一般使用的技术三、扩展：通过爬虫技术采集第三方网站数据四、Flume日志采集工具概述五、Flume采集数据的时候，核心是编写Flume的采集脚本xxx.conf六、Flume案例实操1、采集一个网络…

Hadoop分布式集群搭建教程

目录前言环境准备一、创建虚拟机二、虚拟机网络配置三、克隆虚拟机四、Linux系统配置五、Hadoop的部署配置六、Hadoop集群的启动前言大数据课程需要搭建Hadoop分布式集群，在这里记录一下搭建过程环境准备搭建Haoop分布式集群所需环境： VMware&a…

【运维】hadoop3.0.3集群安装（二）横向新增节点和删除节点

文章目录一. 新增节点1.配置、安装1.1. 所有节点配置新节点主机映射1.2. 上传安装包1.3. 配置环境变量1.4. 配置workers1.5. 清理之前集群的数据目录（如有） 2. 新增节点启动3. 平衡DataNode节点二. 删除节点1. namenode节点操作1.1. 添加excludes文件1…

DataX 概述、部署、数据同步运用示例

文章目录什么是 DataX？DataX 设计框架DataX 核心架构DataX 部署DataX 数据同步 MySQL —> HDFSDataX 数据同步 HDFS —> MySQLDataX 优化同步 MySQL 中 NULL 值数据到 HDFS 出现错误配置文件变量传参什么是 DataX？ DataX 是阿里巴巴集团开源的、…

分布式集群——搭建Hadoop环境以及相关的Hadoop介绍

系列文章目录分布式集群——jdk配置与zookeeper环境搭建分布式集群——搭建Hadoop环境以及相关的Hadoop介绍文章目录前言一 hadoop的相关概念 1.1 Hadoop概念补充：块的存储 1.2 HDFS是什么 1.3 三种节点的功能 I、NameNode节点 II、fsimage与edits…

正中优配：A股早盘三大股指微涨华为概念表现活跃

周三（8月30日），到上午收盘，三大股指团体收涨。其间上证指数涨0.06%，报3137.72点；深证成指和创业板指别离涨0.33%、0.12%；沪深两市合计成交额6423.91亿元，总体来看，两市个…

hive表向es集群同步数据20230830

背景：实际开发中遇到一个需求，就是需要将hive表中的数据同步到es集群中，之前没有做过，查看一些帖子，发现有一种方案挺不错的，记录一下。我的电脑环境如下软件名称版本Hadoop3.3.0hive3.1.3jdk1.8Elasti…

我的私人笔记（安装hive）

1.hive下载：Index of /dist/hive/hive-1.2.1 或者上传安装包至/opt/software：rz或winscp上传 2.解压 cd /opt/software tar -xzvf apache-hive-1.2.1-bin.tar.gz -C /opt/servers/ 3.重命名 mv apache-hive-1.2.1-bin hive 4.配置环境变量 vi /etc/…

普通用户使用spark的client无法更新Ranger策略

普通用户使用spark的client无法更新Ranger策略报错图片： WARN org.apache.ranger.admin.client.RangerAdminRESTClient: Error getting Roles. secureModetrue, usercaojianxiangUCDIPA.VIATRIS.CC (auth:KERBEROS)，responsef"httpStatusCode&quo…

Hadoop 3.2.4 集群搭建详细图文教程

目录一、集群简介二、Hadoop 集群部署方式三、集群安装 3.1 集群角色规划 3.2 服务器基础环境准备 3.2.1 环境初始化 3.2.2 ssh 免密登录（在 hadoop01 上执行） 3.2.3 各个节点上安装 JDK 1.8 环境 3.3 安装 Hadoop 3.4 Hadoop 安装包目…

hive 基础知识

一 hive 是什么在本节前我们需要明确 hive 是什么上面两个代码块，左边的是 mapreduce 的代码块，右边的是hive 的代码块很容易看出来，右边的 hive 写起来要更容易更快些，而执行效率，右边的 hive 只比左边多一个翻译…

大数据技术之Hadoop：使用命令操作HDFS（四）

目录一、创建文件夹二、查看指定目录下的内容三、上传文件到HDFS指定目录下四、查看HDFS文件内容五、下载HDFS文件六、拷贝HDFS文件七、HDFS数据移动操作八、HDFS数据删除操作九、HDFS的其他命令十、hdfs web查看目录十一、HDFS客户端工具 11.1 下载插件…

尚硅谷大数据项目《在线教育之离线数仓》笔记007

视频地址：尚硅谷大数据项目《在线教育之离线数仓》_哔哩哔哩_bilibili 目录第12章报表数据导出 P112 01、创建数据表 02、修改datax的jar包 03、ads_traffic_stats_by_source.json文件 P113 P114 P115 P116 P117 P118 P119 P120 P121 P122【122_在…

大数据技术之Hadoop：Yarn集群部署（七）

目录一、部署说明二、集群规划三、开始配置 3.1 MapReduce配置文件 3.2 YARN配置文件 3.3 分发配置文件四、集群启停 4.1 命令介绍 4.2 演示 4.3 查看YARN的WEB UI页面一、部署说明 Hadoop HDFS分布式文件系统，我们会启动： NameNode进…

大数据学习(2)Hadoop-分布式资源计算hive(1)

&&大数据学习&& 🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门 💖如果觉得博主的文章还不错的话，请点赞👍收藏⭐️留言📝支持一下博>主哦&#x…

Hadoop-2.5.2平台环境搭建遇到的问题

文章目录一、集群环境二、MySQL2.1 MySQL初始化失败2.2 MySQL启动报错2.3 启动时报不能打开日志错2.4 mysql启动时pid报错二、Hive2.1 mr shuffle不存在2.1.2 查看yarn任务：2.1.3 问题描述：2.1.4 参考文档一、集群环境 java-1.8.0-openjdk-1.8.0.181…

hive add columns 后查询不到新字段数据的问题

分区表add columns 查询不到新增字段数据的问题； 5.1元数据管理 （1）基本架构 Hive的2个重要组件：hiveService2 和metastore,一个负责转成MR进行执行，一个负责元数据服务管理 beeline-->hiveService2/spar…

hive数据表创建

目录分隔符分区表二级分区分桶表外部表分隔符 CREATE TABLE emp( userid bigint, emp_name array<string>, emp_date map<string,date>, other_info struct<deptname:string, gender:string>) ROW FORMAT DELIMITED FIELDS TERMINATED BY \t COL…

【踩坑】hive脚本笛卡尔积严重降低查询效率问题

前一阵子查看我们公司的大数据平台的离线脚本运行情况, 结果发现有一个任务居然跑了一天多, 要知道这还只是几千万量级的表, 且这个任务是每天需要执行的于是我把hive脚本捞出来看了下, 发现无非多join了几个复杂的子查询, 应该不至于这么久, 包括我又检查了是不是没有加上每…

Hadoop使用hdfs指令查看hdfs目录的根目录显示被拒

背景分布式部署hadoop,服务机只有namenode节点,主机包含其他所有节点主机关机后,没有停止所有节点,导致服务机namenode继续保存再次开启主机hadoop,使用hdfs查看hdfs根目录的时候显示访问被拒解决方案 1.主机再次开启hadoop并继续执行关闭 2.服务器再次开启hadoop并继…

Hadoop 安装教程 (Mac m1/m2版)

安装JDK1.8 这里最好是安装1.8版本的jdk 1. 进入官网Java Downloads | Oracle Hong Kong SAR, PRC,下滑到中间区域找到JDK8 2.选择mac os,下载ARM64 DMG Installer对应版本注：这里下载需要注册oracle账号，不过很简单，只需要提供邮箱即可&…

Hadoop生态圈中的数据同步工具SQOOP

Hadoop生态圈中的数据同步工具SQOOP 一、sqoop的概念二、sqoop的核心功能1、数据导入import2、数据导出export 三、sqoop的底层实现四、sqoop的安装和部署五、sqoop的基本操作1、sqoop查看RDBMS中有哪些数据库2、sqoop查看某一个数据库下有哪些数据表3、通过sqoop执行sql语句 …

Hadoop3教程（二）：HDFS的定义及概述

文章目录 （40）HDFS产生的背景和定义（41）HDFS的优缺点（42）HDFS组成架构（43）HDFS文件块大小（面试重点）参考文献 （40）HDFS产生的背景和定…

尚硅谷大数据项目《在线教育之离线数仓》笔记003

视频地址：尚硅谷大数据项目《在线教育之离线数仓》_哔哩哔哩_bilibili 目录第8章数仓开发之DIM层 P039 P040 P041 P042 P043 P044 P045 P046 P047 P048 第8章数仓开发之DIM层 P039 第8章数仓开发之DIM层 DIM层设计要点： （1&a…

流计算概述（林子雨慕课课程）

文章目录 11. 流计算概述11.1 流计算概述11.1.1 数据的处理模型11.1.2 流计算概念与典型框架 11.2 流计算处理流程11.3 流计算的应用11.4 开源流计算框架Storm11.4.1 Storm 简介11.4.2 Storm设计思想11.4.3 Storm框架设计 11.5 Spark Spark Streaming Samza以及三种流计算框架比…

hive 创建 s3 外表

背景有个比较大的技术侧需求: 将数据从 HDFS 迁移到 s3。当然在真正迁移之前，还需要验证迁移到 s3 的数据，和上层查询器（hive、presto 之间的兼容性） 这里我们对一张业务表的数据做个简单的迁移测试验证数据迁移为了让 h…

Apache Hive 入门

目录一、Apache Hive概述 1.1 什么是Hive 1.2 为什么使用 Hive 1.3 Hive 和 Hadoop 关系二、场景设计：如何模拟实现Hive功能 2.1 如何模拟实现 Apache Hive 的功能 2.2 映射信息记录 2.3 SQL 语法解析、编译 2.4 最终效果三、Apache Hive 架…

【Spark】win10配置IDEA、saprk、hadoop和scala

终于，要对并行计算下手了哈哈哈。一直讲大数据大数据，我单次数据处理量大概在1t上下，是过亿级的轨迹数据。用python调用multiprogress编写的代码，用多线程也要一个多月跑完。我对这个效率不太满意，希望能快一点再快…

hive、spark、presto 中的增强聚合-grouping sets、rollup、cube

目录 1、什么是增强聚合和多维分析函数？ 2、grouping sets - 指定维度组合 3、with rollup - 上卷维度组合 4、with cube - 全维度组合 5、Grouping__ID、grouping() 的使用场景 6、使用增强聚合会不会对查询性能有提升呢？ 7、对grouping sets、…

hadoop测试环境sqoop使用

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 Sqoop看这篇文章就够了_must contain $conditions in where clause._SoWhat1412的博客-CSDN博客大数据环境 C:\Windows\System32\drivers\etc 修改ip和hostname的对应关系 1…

hive3.X的HiveServer2 内存泄漏问题定位与优化方案（bug）

参考文档： https://juejin.cn/post/7141331245627080735?searchId20230920140418F85636A0735C03971F71 官网社区： https://issues.apache.org/jira/browse/HIVE-22275 In the case that multiple statements are run by a single Session before bein…

Hadoop3教程（三）：HDFS文件系统常用命令一览

文章目录语法格式（44） HDFS的文件系统命令（开发重点）参考文献语法格式 hdfs命令的完整形式： hdfs [options] subcommand [subcommand options]其中subcommand有三种形式： admin commandsclient comman…

Hive 的函数介绍

目录编辑一、内置运算符 1.1 关系运算符 1.2算术运算符 1.3逻辑运算符 1.4复杂类型函数 1.5对复杂类型函数操作二、内置函数 2.1数学函数 2.2收集函数 2.3类型转换函数 2.4日期函数 2.5条件函数 2.6字符函数三、内置的聚合函数四、内置表生成函数五、…

【HDFS】cachingStrategy的设置

org.apache.hadoop.hdfs.client.impl.BlockReaderFactory#getRemoteBlockReader： private BlockReader getRemoteBlockReader(Peer peer) throws IOException {int networkDistance = clientContext.getNetworkDistance(datanode);return BlockReaderRemote

Hive 的权限管理

目录编辑一、Hive权限简介 1.1 hive中的用户与组 1.1.1 用户 1.1.2 组 1.1.3 角色 1.2 使用场景 1.2.1 hive cli 1.2.2 hiveserver2 1.2.3 hcatalog api 1.3 权限模型 1.3.1 Storage Based Authorization in the Metastore Server 1.3.2 SQL Standards Based …

Hive集群高可用配置与impala集群高可用配置

Hive 高可用配置与impala高可用 1. HiveServer2高可用及Metastore高可用使用Zookeeper实现了HiveServer2的HA功能（ZooKeeper Service Discovery），Client端可以通过指定一个nameSpace来连接HiveServer2，而不是指定某一个host和p…

大数据从入门到精通(超详细版)之Hive的案例实战，ETL数据清洗！！！

前言嗨，各位小伙伴，恭喜大家学习到这里，不知道关于大数据前面的知识遗忘程度怎么样了，又或者是对大数据后面的知识是否感兴趣，本文是《大数据从入门到精通（超详细版）》的一部分，小…

「大数据-2.0」安装Hadoop和部署HDFS集群

目录一、下载Hadoop安装包二、安装Hadoop 0. 安装Hadoop前的必要准备 1. 以root用户登录主节点虚拟机 2. 上传Hadoop安装包到主节点 3. 解压缩安装包到/export/server/目录中 4. 构建软链接三、部署HDFS集群 0. 集群部署规划 1. 进入hadoop安装包内 2 进入etc目录下的hadoop…

【大数据开发技术】实验04-HDFS文件创建与写入

文章目录一、实验目标二、实验要求三、实验内容四、实验步骤一、实验目标熟练掌握hadoop操作指令及HDFS命令行接口掌握HDFS原理熟练掌握HDFS的API使用方法掌握单个本地文件写入到HDFS文件的方法掌握多个本地文件批量写入到HDFS文件的方法二、实验要求给出主要实验步骤成…

Flink的部署模式：Local模式、Standalone模式、Flink On Yarn模式

Flink常见的部署模式 Flink部署、执行模式Flink的部署模式Flink的执行模式 Local本地模式下载安装启动、停止Flink提交测试任务停止作业 Standalone独立模式会话模式单作业模式应用模式 YARN运行模式会话模式启动Hadoop集群申请一个YARN会话查看Yarn、Flink提交作业查看、测试作…

datax同步数据翻倍，.hive-staging 导致的问题分析

一、背景有同事反馈 Datax 从 Hive 表同步数据到 Mysql 数据翻倍了。通过查看 Datax 任务日志发现，翻倍的原因是多读取了 .hive-staging_xx 开头的文件。接下里就是有关 .hive-staging 的分析。二、环境 Hive 版本 2.1.1 三、分析 3.1 .hive-staging_hive 产…

我的私人笔记（安装hbase）

在安装前需要安装好JDK、Hadoop以及Zookeeper，JDK版本为1.8、Hadoop版本为2.7.4以及Zookeeper的版本为3.4.10。 4.1.下载下载地址：Index of /dist/hbase 本次学习版本为： hbase-1.2.1-bin.tar.gz 4.2.安装步骤上传安装包至hadoop01节点…

Zookeeper 集群安装(linux )

1、规划节点名称安装软件hadoop01jdk1.8 zookeeper3.4.6hadoop02jdk1.8 zookeeper3.4.6hadoop03jdk1.8 zookeeper3.4.62、下载jdk 和 zookeeper 3、上传jdk和zookeeper 到3台机器上解压目录：/opt/software/ tar -zxvf jdk1.8.0_191.tar.gz tar -zxvf zookeeper-3.4.6…

Hive-命令行CDH访问开启kerberos的hive

1.通过hive用户访问切换用户为hive [rootslave conf]# su - hive 上一次登录：五 4月 12 13:59:19 CST 2019pts/1 上 [hiveslave ~]$命令行直接输入hive就可以进入hive [hiveslave ~]$ hive log4j:WARN No such property [maxFileSize] in org.apache.log4j.Dail…

hive 分隔符

在 Hive 中，分隔符用于指定数据文件中字段之间的分隔符。当你创建外部表或加载数据文件时，你可以指定分隔符，以便 Hive 正确地解析文件中的数据。 1. 创建外部表时指定分隔符：当你创建外部表时，可以使用 ROW FORMAT 子句来指定数据文件中字段的分隔符。例如，如果你的数…

pyspark 检测任务输出目录是否空，避免读取报错

前言在跑调度任务时候，有时候子任务需要依赖前置任务的输出，但类似读取 Parquet 或者 Orc 文件时，如果不判断目录是否为空，在输出为空时会报错，所以需要 check 一下，此外Hadoop通常在写入数据时会在目录中…

一百八十四、大数据离线数仓完整流程——步骤三、在Hive中建基础库维度表并加载MySQL中的维度表数据

一、目的经过6个月的奋斗，项目的离线数仓部分终于可以上线了，因此整理一下离线数仓的整个流程，既是大家提供一个案例经验，也是对自己近半年的工作进行一个总结。二、数仓实施步骤 （三）步骤三、在Hive中…

解决java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.的错误

文章目录 1. 复现错误2. 分析错误3. 解决问题3.1 下载Hadoop3.2 配置Hadoop3.3 下载winutils3.4 配置winutils 1. 复现错误今天在运行同事给我的项目，但在项目启动时，报出如下错误： java.io.FileNotFoundException: java.io.FileNotFoundEx…

Hadoop启动后jps发现没有DateNode解决办法

多次使用 Hadoop namenode -format 格式化节点后DateNode丢失找到hadoop配置文件core-site.xml查找tmp路径进入该路径，使用rm -rf data删除data文件再次使用Hadoop namenode -format 格式化后jps后出现DateNode节点

Python数据攻略-Hadoop集群中PySpark数据处理

Hadoop是一个开源的分布式存储和计算框架。它让我们可以在多台机器上存储大量的数据，并且进行高效的数据处理。简而言之，Hadoop就像一个巨大的仓库，可以存放海量的数据，并且有高效的工具来处理这些数据。文章目录 PySparkPySpark的基础操作创建RDDRDD转换操作（map, filt…

搭建伪分布式Hadoop

文章目录一、Hadoop部署模式（一）独立模式（二）伪分布式模式（三）完全分布式模式二、搭建伪分布式Hadoop（一）登录虚拟机（二）上传安装包（三&#xf…

hive往es映射表写数据报错

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转…

Hive安装配置 - 内嵌模式

文章目录一、Hive运行模式二、安装配置内嵌模式Hive（一）下载hive安装包（二）上传hive安装包（三）解压缩hive安装包（四）配置hive环境变量（五）关联Hadoop&#x…

Hive 中级练习题（40题待更新）

前言最近快一周没更了，主要原因是最近在忙另一件事情（关于JavaFX桌面软件开发），眼看大三上一半时间就要过去了，抓紧先学Hive，完了把 Spark 剩下的补了，还有 Kafka、Flume，任务还是…

0基础学习PyFlink——模拟Hadoop流程

学习大数据还是绕不开始祖级别的技术hadoop。我们不用了解其太多，只要理解其大体流程，然后用python代码模拟主要流程来熟悉其思想。还是以单词统计为例，如果使用hadoop流程实现，则如下图。为什么要搞这么复杂呢？ 顾…

在win10上安装配置Hadoop的环境变量

一、背景在windows10系统中运行seatunnel 二、安装部署 2.1. 下载 Hadoop包从 Apache Hadoop 官网下载最新版本的 Hadoop，版本号保持与服务端的Hadoop版本一致。 https://hadoop.apache.org/releases.htmlIndex of /apache/hadoop/core/hadoop-3.2.3/ 2.2. 解…

多次重新初始化hadoop namenode -format后，DataNode或NameNode没有启动

多次重新初始化hadoop namenode -format后，DataNode或NameNode没有启动在搭建完hadoop集群后，需要对主节点进行初始化（格式化） 其本质是清理和做一些准备工作，因为此时的HDFS在物理上还是存在的。而且主节点格式化…

Hadoop3教程（二十六）：（生产调优篇）NameNode核心参数配置与回收站的启用

文章目录 （143）NameNode内存配置（144）NN心跳并发配置（145）开启回收站参考文献 （143）NameNode内存配置每个文件块（的元数据等）在内存中大概占用150byte&…

大数据技术学习笔记（二）—— Hadoop运行环境的搭建

目录 1 模版虚拟机准备1.1 修改主机名1.2 修改hosts文件1.3 修改IP地址1.3.1 查看网络IP和网关1.3.2 修改IP地址 1.4 关闭防火墙1.5 创建普通用户1.6 创建所需目录1.7 卸载虚拟机自带的open JDK1.8 重启虚拟机 2 克隆虚拟机3 在hadoop101上安装JDK3.1 传输安装包并解压3.2 配置…

Hadoop面试题（HDFS篇）

1.HDFS写流程?以及参与的组件？ ----------------------流程图--------------------------- A(Client) -- 发送写请求 --> B(NameNode) B -- 返回可用DataNodes列表 --> A A -- 选择主节点 --> C(主节点Primary DataNode) C -- 建立连接 --> A A -- 发…

Hadoop之HDFS

目录 1.HDFS概述 1.1HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小 2. HDFS的Shell操作 2.1 基本语法 2.2 命令大全 2.3 常用命令实操 2.3.1 准备工作 2.3.2 上传 2.3.3 下载 2.3.4 HDFS直接操作 3. HDFS的API操作 3.1 客户端环境准备…

hive针对带有特殊字符非法json数据解析

一、背景有的时候前端或者后端进行埋点日志，会把json里面的数据再加上双引号，或者特殊字符，在落日志的时候，组装的格式就不是正常的json数据了，我们就需要将带有特殊字符的json数据解析成正常的json数据。二、正则…

HIVE-17824,删除hdfs分区信息,清理metastore元数据

当手动删除HDFS 分区数据时,但是并没有清理 Hive 中的分区元数据,删除操作无法自动更新hive分区表元数据。也就是从hdfs中删除大量分区数据,并没有执行如下命令: alter table drop partition commad 从hive 3.0.0开始可以使用MSCK的方法发现新分区或删除丢失的分区; MSCK [REPA…

大数据中的分布式文件系统HDFS的选择题

一. 单选题（共10题，50分） (单选题)分布式文件系统指的是什么? A. 把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群 B. 用于在Hadoop与传统数据库之间进行数据传递 C. 一个高可用的,高可靠的,分布式的海量日志采集、聚…

Hadoop3教程（三十五）：（生产调优篇）HDFS小文件优化与MR集群简单压测

文章目录 （168）HDFS小文件优化方法（169）MapReduce集群压测参考文献 （168）HDFS小文件优化方法小文件的弊端，之前也讲过，一是大量占用NameNode的空间，二是会使得寻址速度…

CentOS7安装部署CDH6.2.1

文章目录 CentOS7安装部署CDH6.2.1一、前言1.简介2.架构3.环境二、环境准备1.部署服务器2.安装包准备3.修改机器名4.关闭防火墙5.关闭 SELinux6.Hosts文件7.limits文件8.设置swap空间9.关闭透明巨页内存10.免密登录三、安装CM管理端1.安装第三方依赖包2.安装Oracle的JDK3.安装…

【项目实战】在win10上安装配置Hadoop的环境变量

一、说明注意：该教程适用于：远程连接Linux上的Hadoop集群，因此本步骤是不需要在本地再下载hadoop的在win10操作系统上，运行Hadoop以及其相关依赖包（比如Hbase依赖包）时，我遇到的情况是&#x…

【大数据】Hadoop

文章目录概述Hadoop组成HDFSMapReduce写MapReduce程序（Hadoop streaming） YARNHadoop 启动工作方式Hadoop的主从工作方式Hadoop的守护进程运行模式本地运行模式伪分布式运行模式完全分布式运行模式 Hadoop高可用的解决方案ZooKeeper quorumZKFC 环境搭…

HDFS集群NameNode高可用改造

文章目录背景高可用改造方案实施环境准备配置文件修改应用配置集群状态验证高可用验证背景假定目前有3台zookeeper服务器，分别为zk-01/02/03，DataNode服务器若干； 目前HDFS集群的Namenode没有高可用配置，Namenode和Secondary…

Hadoop学习总结（搭建Hadoop集群(伪分布式模式)）

如果前面有搭建过Hadoop集群完全分布式模式，现在搭建Hadoop伪分布式模式可以选择直接克隆完全分布式模式中的主节点(hadoop001)。以下是在搭建过完全分布式模式下的Hadoop集群的情况进行伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。一、克隆…

HDFS工作流程和机制

HDFS写数据流程（上传文件） 核心概念--Pipeline管道 HDFS在上传文件写数据过程中采用的一种传输方式。线性传输：客户端将数据写入第一个数据节点，第一个数据节点保存数据之后再将快复制到第二个节点，第二节点复制给…

记一次Hbase2.1.x历史数据数据迁移方案

查看待迁移的表 list_namespace_tables vaas_dwm2. 制作待迁移表“DWM_TRIP_PART”的快照 snapshot vaas_dwm:DWM_TRIP_PART,dwm_trip_part_snapshot3. 统计待迁移表数据总数 hbase org.apache.hadoop.hbase.mapreduce.RowCounter vaas_dwm:DWM_TRIP_PART

Hive创建分区表并插入数据

业务中经常会遇到这种需求：数据每天全量更新，但是要求月底将数据单独保存一份以供后期查询某月节点的信息。这时就要考虑用到Hive的分区表实现，即按照月份创建分区表，相当于新的月份数据保存在新表，进而实现保存了历史…

Hadoop3.0大数据处理学习2（HDFS）

一、简介 HDFS：Hadoop Distributed File System。Hadoop分布式存储系统一种允许文件通过网络在多台主机上分享的文件系统，可以让多机器上的用户分享文件和存储空间。两大特性：通透性、容错性分布式文件管理系统的实现很多，HD…

hadoop权威指南第四版

第一部分 HaDOOP基础知识 1.1 面临的问题存储越来越大，读写跟不上。并行读多个磁盘。问题1 磁盘损坏 – 备份数据HDFS 问题2 读取多个磁盘用于分析，数据容易出错 --MR 编程模型 1.2 衍生品 1 在线访问的组件是hbase 。一种使用hdfs底层存储的模型。…

安装hadoop，并配置hue

0、说明对于大数据学习的初始阶段，我也曾尝试搭建相应的集群环境。通过搭建环境了解组件的一些功能、配置、原理。在实际学习过程中，我更多的还是使用docker来快速搭建环境。这里记录一下我搭建hadoop的过程。 1、下载hadoop 下载地址：…

Flume 快速入门【概述、安装、拦截器】

文章目录什么是 Flume？Flume 组成Flume 安装Flume 配置任务文件应用示例启动 Flume 采集任务 Flume 拦截器编写 Flume 拦截器拦截器应用什么是 Flume？ Flume 是一个开源的数据采集工具，最初由 Apache 软件基金会开发和维护。它的主要目的是…

基于Linux安装Hive

Hive安装包下载地址 Index of /dist/hive 上传解压 [rootmaster opt]# cd /usr/local/ [rootmaster local]# tar -zxvf /opt/apache-hive-3.1.2-bin.tar.gz重命名及更改权限 mv apache-hive-3.1.2-bin hivechown -R hadoop:hadoop hive配置环境变量 #编辑配置 vi /etc/pro…

数据库：Hive转Presto（五）

此篇将所有代码都补充完了，之前发现有的代码写错了，以这篇为准，以下为完整代码，如果发现我有什么考虑不周的地方，可以评论提建议，感谢。代码是想哪写哪，可能比较繁琐，还需要优化。 …

Hadoop3教程（九）：MapReduce框架原理概述

文章目录简介参考文献简介这属于整个MR中最核心的一块，后续小节会展开描述。整个MR处理流程，是分为Map阶段和Reduce阶段。一般，我们称Map阶段的进程是MapTask，称Reduce阶段是ReduceTask。其完整的工作流程如图&#xff…

Hadoop3教程（十）：MapReduce中的InputFormat

文章目录 （87）切片机制与MapTask并行度决定机制（90） 切片源码总结（91）FileInputFormat切片机制（92）TextInputFormat及其他实现类一览（93） CombineTextInputFo…

实录分享 | Alluxio 在网易大数据的应用与优化

欢迎来到【微直播间】，2min纵览大咖观点本次分享主要包括四个方面： 背景介绍；对象存储场景优化；Impala 引擎适配；通用功能增强。一、背景介绍网易有数大数据基础平台NDH：NDH 是网易对标 Cloudera C…

hive anti join 的几种写法

t_a 表的记录如下 c1 | :———— | a | b | c | 生成 SQL 如下： create table t_a(c1 string); insert into t_a values("a"),("b"),("c");t_b 表的记录如下 c1bm 生成 SQL 如下： create table t_b(c1 string); in…

Hadoop3教程（十九）：MapReduce之ETL清洗案例

文章目录 （121）ETL数据清洗案例参考文献 （121）ETL数据清洗案例 ETL，即Extract-Transform-Load的缩写，用来描述数据从源端，经过抽取（Extract）、转换（transfor…

【数据仓库】hadoop生态圈与数据仓库

文章目录 1.大数据定义2. Hadoop与数据仓库3. 关系数据库的可扩展性瓶颈4. CAP理论5. Hadoop数据仓库工具5.1. RDS和TDS5.2. 抽取过程5.3. 转换与装载过程5.4. 过程管理和自动化调度5.5．数据目录（或者称为元数据管理）5.6．查询引擎…

hdfs笔记

1.HDFS shell 1.0查看帮助 hadoop fs -help <cmd> 1.1上传 hadoop fs -put <linux上文件> <hdfs上的路径> 1.2查看文件内容 hadoop fs -cat <hdfs上的路径> 1.3查看文件列表 hadoop fs -ls / 1.4…

大数据集群（Hadoop生态）安装部署

目录 1. 简介 2. 前置要求 3. Hadoop集群角色 4. 角色和节点分配 5. 调整虚拟机内存 6. Zookeeper集群部署 7. Hadoop集群部署 7.1 下载Hadoop安装包、解压、配置软链接 7.2 修改配置文件：hadoop-env.sh 7.3 修改配置文件：core-site…

超详细Linux搭建Hadoop集群

一、给计算机集群起别名——互通总纲： 1、准备3台客户机（关闭防火墙、静态IP、主机名称都设置好） 2、安装JDK（可点击） 3、配置环境变量 4、安装Hadoop 5、配置hadoop的环境变量 6、配置集群 7、群起测试 1.1、环境准备…

一、Hadoop初始化配置(final+ubuntu保姆级教程)

1、配置虚拟机三台虚拟机，分别为node1、node2、node3，内存分别为4G、2G、2G，现存最好为（>40G），如下： 2、修改主机名分别打开三台虚拟机，root用户输入一下命令： no…

大数据毕业设计选题推荐-设备环境监测平台-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

HDFS系统权限详解

一，HDFS超级用户启动namenode的用户就是HDFS中的超级用户如图所示 HDFS中，也是有权限控制的，其控制逻辑和Linux文件系统的完全一致但是不同的是，两个系统的Supergroup不同(超级用户不同) Linux的操作用户是root HDFS文件系统的…

HDFS系统操作命令大全

一，前言 HDFS作为分布式存储的文件系统，有其对数据的路径表达方式 HDFS同linux系统一样，均是以/作为根目录的组织形式 linux：/usr/local/hello.txt HDFS：/usr/local/hello.txt 二，如何区分呢？ L…

大数据毕业设计选题推荐-市天气预警实时监控平台-Hadoop-Spark-Hive

✨作者主页：IT研究室✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

[Hive] CTE 通用表达式 WITH关键字

在Hive中，CTE代表的是Common Table Expression（通用表达式），这是一种SQL语句结构，使用WITH关键字定义的子句。 CTE CTE提供了一种在查询中定义临时结果集的方式，以便后续查询可以引用这些临时结果集&…

大数据毕业设计选题推荐-消防监控平台-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

Linux Hadoop平台伪分布式安装(Hive on Spark)

📔Linux Hadoop 伪分布式安装(Hive on Spark) 安装目录 1. JDK2. Hadoop3. MysqlHive3.1 Mysql8安装3.2 Hive安装 4. Spark4.1 Maven安装4.2 Scala安装4.3 Spark编译并安装 5. Zookeeper6. HBase 版本概要： jdk： jdk-8u391-linux-x64.tar.gz…

Hadoop入门——数据分析基本步骤

文章目录 1.概述2.分析步骤2.1第一步明确分析目的和思路2.2第二步数据收集2.3第三步数据处理2.4第四步数据分析2.5第五步数据展现2.6第六步报告撰写 3.总结 1.概述 2.分析步骤 2.1第一步明确分析目的和思路 2.2第二步数据收集 2.3第三步数据处理 2.4第四步数据分析 …

2023.11.12 hive中分区表,分桶表与区别

1.分区表分区表的本质就是在分目录当Hive表对应的数据量大、文件多时，为了避免查询时全表扫描数据。比如把一整年的数据根据月份划分12个月（12个分区），后续就可以查询指定月份分区的数据，尽可能避免了全表扫描查询。…

hive里因为列名用了关键字导致建表失败

代码现象 ParseException line 6:4 cannot recognize input near percent String COMMENT in column name or primary key or foreign key 23/11/13 11:52:57 ERROR org.apache.hadoop.hive.ql.Driver: FAILED: ParseException line 6:4 cannot recognize input near percent …

2023.11.14-hive的类SQL表操作之,4个by区别

目录 1.表操作之4个by,分别是 2.Order by:全局排序 3.Cluster by 4.Distribute by :分区 5. Sort by :每个Reduce内部排序 6.操作练习步骤一.创建表步骤二.加载数据步骤三.验证数据 1.表操作之4个by,分别是 order by 排序字段名 cluster by 分桶并排序字段名 dis…

Hadoop-HDFS架构与设计

HDFS架构与设计一、背景和起源二、HDFS概述1.设计原则1.1 硬件错误1.2 流水访问1.3 海量数据1.4 简单一致性模型1.5 移动计算而不是移动数据1.6 平台兼容性 2.HDFS适用场景3.HDFS不适用场景三、HDFS架构图1.架构图2.Namenode3.Datanode 四、HDFS数据存储1.数据块存储2.副本机…

Hive使用max case when over partition by 实现单个窗口取两个窗口的值（单个开窗函数，实际取两个窗口）

一、Hive开窗函数根据特定条件取上一条最接近时间的数据（单个开窗函数，实际取两个窗口） 针对于就诊业务，一次就诊，多个处方，处方结算时间可能不一致，然后会有多个AI助手推荐用药，会…

Hive 查询优化

Hive 查询优化 -- 本地 set mapreduce.framework.namelocal; set hive.exec.mode.local.autotrue; set mapperd.job.trackerlocal; -- yarn set mapreduce.framework.nameyarn; set hive.exec.mode.local.autofalse; set mapperd.job.trackeryarn-- 向量模式 set hive.vectori…

【论文】基于Hadoop的铁路货运大数据平台设计与应用

点我完整下载：基于Hadoop的铁路货运大数据平台设计与应用.docx 基于Hadoop的铁路货运大数据平台设计与应用 Design and Application of Railway Freight Big Data Platform based on Hadoop 目录目录 2 摘要 3 关键词 4 第一章绪论 4 1.1 研究背景 4 1.2 研究目的…

2023.11.16 hivesql之条件函数,case when then

目录一.Conditional Functions条件函数二.空值相关函数三：使用注意事项 3.1 then后面不能接子查询 3.2 then后面只能是结果值 3.3 then后面能不能接两列四.用于建表新增字段使用场景一.Conditional Functions条件函数 -- 演示条件函数 -- if(条件判断,t…

sqoop和flume简单安装配置使用

1. Sqoop 1.1 Sqoop介绍 Sqoop 是一个在结构化数据和 Hadoop 之间进行批量数据迁移的工具结构化数据可以是MySQL、Oracle等关系型数据库把关系型数据库的数据导入到 Hadoop 与其相关的系统把数据从 Hadoop 系统里抽取并导出到关系型数据库里底层用 MapReduce 实现数据 …

Hadoop的概述

1、Hadoop的发展史： Google首先发布三篇文章：GFS(Google File System)、Mapreduce（计算引擎）、Bigtable ，随着时间的推移： hadoop1.0与2.0 的区别是在2.0的版本中出现了yarn，主要是负责资源的调…

ubuntu22.04下hadoop3.3.6+hbase2.5.6+phoenix5.1.3开发环境搭建

一、涉及软件包资源清单 1、java 这里使用的是openjdk 2、hadoop-3.3.6.tar.gz 3、hbase-2.5.6-hadoop3-bin.tar.gz 4、phoenix-hbase-2.5-5.13-bin.tar.gz 5、apache-zookeeper-3.8.3-bin.tar.gz 6、openssl-3.0.12.tar.gz 二、安装 1、操作系统环境准备换源 sudo vim /et…

2023.11.16 hivesql高阶函数之json

目录 1.数据准备 2.操作 -- 方式1: 逐个(字段)处理, get_json_object UDF函数最大弊端是一次只能解析提取一个字段 -- 方式2: 逐条处理. json_tuple 这是一个UDTF函数可以一次解析提取多个字段 -- 方式3: 在建表时候, 直接处理json, row format SerDe 能处理Json的SerDe类…

3. hdfs概述与高可用原理

简述 HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本。 HDFS适用于…

1. hadoop环境准备

环境准备准备三台虚拟机，配置最好是 2C 4G 以上本文准备三台机器的内网ip分别为 172.17.0.10 172.17.0.11 172.17.0.12本机配置/etc/hosts cat >> /etc/hosts<<EOF 172.17.0.10 hadoop01 172.17.0.11 hadoop02 172.17.0.12 hadoop03 EOF本机设置与…

大数据毕业设计选题推荐-机房信息大数据平台-Hadoop-Spark-Hive

✨作者主页：IT研究室✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

2. zk集群部署

简介上一篇文章我们已经把环境准备好了，jdk也配置好了，下面我们开始把zk部署起来 hadoop环境准备创建zk用户 useradd zk -d /home/zk echo "1q1w1e1r" | passwd --stdin zk上传zk包拷贝zk包到/home/zk目录,这里的zk版本为 3.6.3 scp…

大数据之Hive:regexp_extract函数案例

目录一、正则的通配符简介1、正则表达式的符号及意义2、各种操作符的运算优先级： 二、案例数据要求分析实现一、正则的通配符简介 1、正则表达式的符号及意义符号含义实列/做为转意，即通常在"/"后面的字符不按原来意义解释如" * “匹…

Hive 剖析

Hive 分区表分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的分区设计可以极大提高查询速度和性能。 Hive 分桶表分区提…

大数据技能大赛平台搭建（容器环境）

大数据技能大赛平台搭建（容器环境） 一、Hadoop3.X 完成分布式安装部署1、 JDK安装1、解压jdk2、修改配置文件3、免密登录 2、hadoop集群环境搭建1、配置文件2、配置环境变量3、给slave1和slave2分发配置文件4、启动Hadoop集群 3、配置完成！ 二…

Hadoop PseudoDistributed Mode 伪分布式

Hadoop PseudoDistributed Mode 伪分布式加粗样式 hadoop101hadoop102hadoop103192.168.171.101192.168.171.102192.168.171.103namenodesecondary namenoderecource managerdatanodedatanodedatanodenodemanagernodemanagernodemanagerjob historyjob logjob logjob log 1. …

四、hdfs文件系统基础操作-保姆级教程

1、启动Hadoop集群想要使用hdfs文件系统，就先要启动Hadoop集群。启动集群: start-dfs.sh 关闭集群: stop-dfs.sh 2、文件系统构成 （1）基础介绍其实hdfs作为分布式存储的文件系统，其构成和Linux文件系统构成差不多一…

CentOS 搭建 Hadoop3 高可用集群

Hadoop FullyDistributed Mode 完全分布式 spark101spark102spark103192.168.171.101192.168.171.102192.168.171.103namenodenamenodejournalnodejournalnodejournalnodedatanodedatanodedatanodenodemanagernodemanagernodemanagerrecource managerrecource managerjob hist…