MR模板优化
public class WordCountUpMR extends Configured implements Tool;
int status ToolRunner.run(configuration,new WordCountUpMR(),args);import com.google.common.collect.Lists;
import org.apache.hadoop.conf.Configuration;import org.apache…
🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的…
1/运行mr程序出错
connecting to resoucemanager
retrying ....
retrying .....
原因是没有启动yarn或者启动失败,正常启动yarn后,又报下面的错误:
System times on machines may be out of sync,check system time and time zones
原…
两个hive表left join时,由于关联字段类型不同导致的数据错误(bigint、string),结果会多出来一批数据。
select a.id as id1
,b.id as id2
from table1 a
left join table2 b
on a.id b.id
where a.id 1257829907772824682
-- 1…
hadoop集群长期待机,过程中由于硬盘快用了,导致集群进入安全模式,再次启动hive的时候出现以下错误提示:
Cannot create directory /tmp/hive/usr100/58b61340-fdb6-434c-be24-2f8f23fc524e. Name node is in safe mode. Resource…
往往用了很久的函数却只知道其单一的应用场景,本文将不断完善所遇到的好用的hive内置函数。
1.聚合函数或者求最大最小值函数搭配开窗函数使用可以实现滑动窗口 例:
SELECT event,time,session_id,COLLECT_LIST(event) OVER (PARTITION BY session_id …
🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的…
start-dfs.sh错误 ERROR: Attempting to operate on hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation. Starting datanodes ERROR: Attempting to operate on hdfs datanode as root ERROR: but there is no HDFS_DATANODE_USER…
三、常见错误及解决方案
1)防火墙没关闭、或者没有启动YARN
INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误
3)IP地址配置错误
4)ssh没有配置好
5)roo…
基于字典将下列内容排序 a 1 a 3 a 5 a 4 b 9 b 7 b 3 规则: 1,第一列(word)按照字典顺序进行排序 2,第一列相同的时候,第二列(num)按照升序排列
步骤:1.准备一个sort.txt文件
sudo vi sort.txta 2
a 9
a…
什么是内部表,外部表?
比较专业的定义: 外部表需要转为内部表,执行删除操作才能真的删表结构删表数据。否则drop table仅是删除了表数据,表结构还是存在的。
alter table tb_name set TBLPROPERTIES(EXTERNALfalse);…
加粗样式 ZOOKEEPER启动遇到显示IT IS PROBABLY NOT RUNNING的问题解决 本人是启动三台虚拟机分别是hadoop01,hadoop02,hadoop03,我在主节点启动zookeeper的zkServer.sh start服务后,在通过status查看其状态,发现第三台hadoop03节…
在hadoop/bin目录下缺少了winutils.exe和hadoop.dll
Exception in thread "main" java.lang.RuntimeException: java.io.FileNotFoundException: Could not locate Hadoop executable: D:\sorftware\hadoop\hadoop-2.8.0\bin\winutils.exe -see https://wiki.apache…
获得技术资料内容,请访问Greenplum中文社区网站 Greenplum与Amazon Web Services通过合作已经可以轻松地实现Greenplum的部署和持续运维。这个功能非常有必要,但还不够。尤其是,我们已经投入资源使Greenplum实现真正的云原生化。这意味着&…
背景: 使用了格式化,导致首重了新的集群ID org.apache.hadoop.hdfs.server.common.InconsistentFSStateException: Directory /work1/home/hadoop/dfs/data/current/BP-1873526852-172.16.21.30-1692769875005 is in an inconsistent state: namespaceID is incompatible with …
Hadoop客户端
一、Big Data Tools工具 Pycharm专业版下载Big Data Tools工具。 获取hadoop.dll与winutils.exe文件放置于$HADOOP_HOME/Bin中。 配置系统环境变量:E:\hadoop-3.3.4 配置Big Data Tools,登录。 -- 如果需要走第二种路径配置登录, 需要修…
一、选择题
1. 以下哪一项不属于Hadoop可以运行的模式__C____。
A. 单机(本地)模式
B. 伪分布式模式
C. 互联模式
D. 分布式模式 C. 互联模式 不属于Hadoop可以运行的模式。 Hadoop主要有四种运行模式: A. 单机(本地…
🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的…
fs.copyToLocalFile(new Path("/study1/1.txt"), new Path("C:/Users/Administrator/Desktop/d2.txt"));
报错
log4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell).
log4j:WARN Please initialize the log4j system pro…
hadoop启动报错 2014-06-06 19:37:11,332 ERROR org.apache.hadoop.hdfs.server.namenode.FSNamesystem: FSNamesystem initialization failed.java.io.IOException:File system image contains an old layout version -18.An upgrade to version -32 is required. 解决方法&am…
Show相关的语句提供了一种查询Hive metastore的方法。可以帮助用户查询相关信息。
1 显示所有数据库 SCHEMAS和DATABASES的用法 功能一样
show databases;
show schemas; 2 显示当前数据库所有表/视图/物化视图/分区/索引
show tables;
SHOW TABLES [IN database_name]; --指…
Hive视图使用 Hive的逻辑视图使用视图的目的视图规则视图的问题Hive中的视图使用定义视图查询视图详细查询引用视图修改视图查询删除视图 Hive的逻辑视图
视图是在SQL标准协议中是一种信息模式,是根据定义模式的基础表定义的视图表。 The views of the Information…
HBase是一个领先的NoSQL数据库:是一个面向列存储的NoSQL数据库;是一个分布式Hash Map,底层数据是Key-Value格式;基于Google Big Table论文;使用HDFS作为存储并利用其可靠性HBase分布式环境部署①启动ZooKeeper②启动Hadoop (HDFS、YARN)上传、解压、配置环境变量并修…
hadoop使用put上传报错
WARN hdfs.DataStreamer: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /input/yxqzdata.COPYING could only be replicated to 0 nodes instead of minReplication (1). There are 0 datanode(s) runnin…
Caused by:org.apache.hadoop.ipc.RemoteException org.apache.hadoop.hdfs.protocol.NSQuotaExceededException The NameSpace quota (directories and files)of directorytest is exceeded:quota-100 file count-101 参考Spark运行任务时报错:org.apache.hadoop.h…
今天用sqoop从mysql数据库向hdfs中导入数据时,抛出下列异常:
Exception in thread “main” java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.JobContext, but class was expected?
原因:sqoop的版…
修改配置文件core-site.xml 为如下所示
vim /usr/local/hadoop/etc/hadoop/core-site.xmlxml文件改为
<configuration></configuration>如果将core-site.xml文件变动为原来的内容,则程序将不再去hdfs://localhost:9000下寻找input文件,而是…
现在搞hadoop的有很多java程序员。java程序员大多是windows使用者,linux只能算是初级中的初级。本人也一样。使用anbari安装hadoop过程中遇到了些问题。而配置本地源这种问题貌似linux高手不屑于写,我就在此记录一下以备后查。
环境 red hat 6.4服务器一…
配置网卡
[roothadoop101 桌面]# vim /etc/udev/rules.d/70-persistent-net.rules
[roothadoop101 桌面]# vim /etc/sysconfig/network-scripts/ifcfg-eth0
[roothadoop101 桌面]# vim /etc/sysconfig/networkcentos防火墙配置
开机不启动,使用chkconfig命令永久…
hadoop集群机架感知 -副本存储节点选择策略 http://hadoop.apache.org/docs/r3.1.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Data_Replication 官方解释
For the common case, when the replication factor is three, HDFS’s placement policy is to put one repli…
🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_Linux,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的帮助…
这个bug很搞笑,我做分布式搭建时,slaver1和slaver2都可以hadoop name -format,就是master不可以,配置都是一样的,这个第一时间也是想到了环境配置问题
打开环境配置文件编辑
sudo vim ~/.bashrc
添加以下代码&#…
这种问题肯定是某个地方有个权限判断导致的,我们导入源码后,ctrlh 全局搜索“Failed to set permissions”,肯定会有所发现。学习的时候在windows上面测试,那么这个权限开关就无关重要。 1:导入hadoop-1.1.2源码 core部…
在做数仓开发或指标开发时,是一个系统工程,要处理的问题非常多,经常使用到下面这些hive命令: 内部表转外部表
alter table ${tablename} set tblproperties (EXTERNALTrue); 外部表转内部表
alter table ${tablename} set tblpr…
关闭进程:
stop-dfs.sh
格式化:
hadoop namenode -format
出现报错信息:
23/10/03 22:27:04 WARN fs.FileUtil: Failed to delete file or dir [/usr/data/hadoop/tmp/dfs/name/current/fsimage_0000000000000000000.md5]: it still exi…
前言:配置好了yarn后,跑wordcount的例子,但是一直未完成。web页面查看任务状态为:ACCEPTED: waiting for AM container to be allocated, launched and register with RM. 在web页面查看其状态,如果active nodes为0&am…
背景:mac自带的brew 安装 brew install hadoop 默认3.3.6,安装后Hadoop version没反应。遂决定手动安装。
开始:避免最新版报错,此处安装3.2.4版本。
1.地址:
Index of /hadoop/common/hadoop-3.2.4 2.解压
tar -z…
ansi是什么编码ANSI:美国国家标准协会 (ANSI: American National Standards Institute) ANSI is an abbreviation of the "American National Standards Institute". ANSI是“美国国家标准协会”的缩写 。 It is a privately-owned non-profit organizat…
amc用什么打开AMC:年度维护合同/美国汽车公司 (AMC: Annual Maintenance Contract / American Motors Corporation) 1)AMC:年度维护合同 (1) AMC: Annual Maintenance Contract) AMC is an abbreviation of the Annual Maintenance Contract. It is also…
yarn伪分布式部署: 官网要求: YARN on Single Node You can run a MapReduce job on YARN in a pseudo-distributed mode by setting a few parameters and running ResourceManager daemon and NodeManager daemon in addition. The following instruct…
有时候join或者where两表时会报错: FAILED: SemanticException Cartesian products are disabled for safety reasons. If you know what you are doing, please sethive.strict.checks.cartesian.product to false and that hive.mapred.mode is not set to strict…
error while loading shared libraries: libssl.so.10: cannot open shared object file: No such file or
问题描述:
./mongod: error while loading shared libraries: libssl.so.10: cannot open shared object file: No such file or directory;启…
Apache Hive
在标题为“Information Platforms and the Rise of the Data Scientist”的文章一文中,Jeff Hammerbacher把“信息平台”描述为“企业摄取(ingest)、处理(process)、生成(generate)信息的行为”与“帮助加速从经验数据中学习”的“中心”。 在Facebook…
在使用bin/hdfs dfs -mkdir /user 创建目录时,会有一个警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 问题在哪里?有人说这是hadoop的预编译包…
Hive2.3.9部署
解压安装改名
tar -zxvf apache-hive-2.3.9-bin.tar.gz -C /opt
cd /opt/
mv apache-hive-2.3.9-bin/ hive
cd hive
cd conf/
mv hive-env.sh.template hive-env.sh
vim hive-env.sh添加以下内容
export HADOOP_HOME/opt/hadoop
export HIVE_CONF_DIR/opt/hiv…
Hadoop官方教程:Hadoop: Setting up a Single Node Cluster
1.环境
本文使用 Ubuntu 版本为 14.04 32位 ,请自行安装。Ubuntu需要安装JDK(JDK安装教程),因hadoop官方高版本只发布64位编译版,因此安装32位需要自行编译,编译过程可…
core-site.xml
<?xml version"1.0" encoding"UTF-8"?>
<?xml-stylesheet type"text/xsl" href"configuration.xsl"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may no…
一、运行一下算圆周率的测试代码,看下报错
cd /home/data_warehouse/module/hadoop-3.1.3/share/hadoop/mapreduce hadoop jar hadoop-mapreduce-examples-3.1.3.jar pi 1000 1000
后面2个数字参数的含义: 第1个1000指的是要运行1000次map任务 …
1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以不需要了解分布式底层细节的情况下,开发分布式程序。充分利用集群进行高速运算和存储。
2、下载Hadoop,我们在清华大学的镜像站下载
Index of /apache/hadoop/core/hadoop-3.3.6 (t…
原报错信息:
bin/beeline -u jdbc:hive2://hadoop05:10000 -n root
Connecting to jdbc:hive2://hadoop05:10000
23/07/14 08:15:00 [main]: WARN jdbc.HiveConnection: Failed to connect to hadoop05:10000
Could not open connection to the HS2 server. Please…
文章目录 第五单元单选题多选题判断题填空题 第五单元
单选题 下列说法正确的是? A. HDFS HA可用性不好 B. 第二名称节点是热备份 C. 第二名称节点无法解决单点故障问题 D. HDFS HA可以实现可扩展性、系统性能和隔离性 正确答案: C HDFS Federation设计…
文章目录 前言Operator Model And Iterator Model系统组成Connector数据模型查询执行模型StatementStageTaskSplitDriverOperatorExchangePipeLine 总结 前言
Presto(PrestoDB)是一个FaceBook开源的分布式MPP SQL引擎,旨在处理大规模数据的查…
今天搭建hbase的时候启动hbase的时候shell面板输入了一大堆日志,如下: stopping hbase.....................SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt/software/hadoop-3.1.3/share/hadoop/common/l…
第1关:Hive -- 索引 ---创建mydb数据库
create database if not exists mydb;
---使用mydb数据库
use mydb;
---------- Begin ----------
---创建staff表
create table staff(
id int,
name string,
sex string)
row format delimited fields terminated by ,
stored…
1.进入 hive 数据库: hive 2.查看hive中的所有数据库: show databases; 3.用 default 数据库 use default; 4.查看所有的表 show tables; 5.查询 book 表结构: desc book ; 6.查询 book 表数据 select * from book; 7.创建 shop 数据库 creat…
testa表(字段a)aaabbacccddddddaaatestb表(字段b)ab1. 使用likeconcat模糊配对
selecta.a
from testa a ,testb b
where a like concat(%,b.b,%)
group by a.a2. 使用locate函数
selecta.a
from testa a ,testb b
where locate(b.b,a.a)>0
group by a.a3. 使用instr函数
sel…
Apache Flume
一、概述
http://flume.apache.org/
Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data.
Flume分布式、可靠、高效的数据采集、聚合和传输工具。具备容错和故障恢复…
#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> 需求: 生成考勤日历表 CREATE TABLE year_date_all (id int primary key AUTO_INCREMENT COMMENT id,repDate date NOT NULL COMMENT 日期,repY…
1、spark history 和 yarn history 的区别?
Spark History Server 和 YARN History Server 是用于查看和分析Spark和YARN 应用程序的执行情况的两个不同的工具。
Spark历史服务器是专门用于Spark应用程序的工具,它提供了一个界面,可以查看S…
报错信息如下: Exception in thread "main" org.apache.hudi.exception.HoodieUpsertException: Failed to upsert for commit time 20231201203145254 at org.apache.hudi.table.action.commit.BaseWriteHelper.write(BaseWriteHelper.java:64) at org.apa…
单选题 题目1:下列哪个属性是hdfs-site.xml中的配置? 选项: A fs.defaultFS B dfs.replication C mapreduce.framework.name D yarn.resourcemanager.address 答案:B ------------------------------ 题目2:HDFS默认备份数量&…
文档介绍如下:
The dfs.datanode.max.transfer.threads parameter is used to specify the size of the thread pool for a DataNode to process read and write data streams. Default value: 4096. If the value of this parameter is small, the number of Xceiver thread…
单选题 题目1:安装Hadoop集群时,是在哪个文件指定哪些机器作为集群的从机? 选项: A datanode B slaves C yarn-site.xml D core-site.xml 答案:B ------------------------------ 题目2:Hadoop配置文件所在目录是哪…
package scala02object Scala07_typeCast {def main(args: Array[String]): Unit {// TODO 隐式转换// 自动转换val b: Byte 10var i: Int b 10val l: Long b 10 100Lval fl: Float b 10 100L 10.5fval d: Double b 10 100L 10.5f 20.00println(d.getClass…
Hive的安装配置、初始化元数据、启动
1、解压hive到指定目录/usr/local/src 改名,将mysql的驱动包拷贝到hive的lib目录下 2、环境变量
1) vi /etc/profile export HIVE_HOME/usr/local/src/hive export PATH P A T H : PATH: PATH:HIVE_HOME/bin
echo…
hive on tez使用./bin/hive启动后一直卡住,无法进入命令行 使用TEZ作为Hive默认执行引擎时,需要在调用Hive CLI的时候启动YARN应用,预分配资源,这需要花一些时间,而使用MapReduce作为执行引擎时是在执行语句的时候才会…
一、bigint类型
报错:
Unable to get value BigNumber(16) from database resultset显示kettle认为此应该是decimal类型(kettle中是TYPE_BIGNUMBER或称BigNumber),但实际hive数据库中是big类型。 修改kettle源码解决:
kettle中java.sql.Types到kettle…
Order By(全局排序)
Order By 用于结果集的排序。也可以称之为全局排序。对于 MR 任务来说,如果我们使用了 Order By 排序,意味着MR 任务只会有一个 Reducer 参与排序。,
在 Hive 中执行脚本时,我们可以通…
HiveServer2
基本概念介绍
1、HiveServer2基本介绍
HiveServer2 (HS2) is a server interface that enables remote clients to execute queries against Hive and retrieve the results (a more detailed intro here). The current implementation, based on Thrift RPC, i…
目录 hive官方函数解释示例实战 hive官方函数解释
hive官网函数大全地址:添加链接描述
Return TypeNameDescriptionstructstruct(val1, val2, val3, …)Creates a struct with the given field values. Struct field names will be col1, col2, …structnamed_str…
1.问题描述
使用yarn调度任务时,在CapacityScheduler页面上单击叶队列(或子队列)时,不会显示应用程序任务信息,root队列可以显示任务。此外,FairScheduler页面是正常的。
No matching records found2.原…
报错信息:
java.io.IOException: Got error, statusERROR, status message , ack with firstBadLink as 192.168.100.13:9866at org.apache.hadoop.hdfs.protocol.datatransfer.DataTransferProtoUtil.checkBlockOpStatus(DataTransferProtoUtil.java:134)at org.a…
6.1 创建新表 错误1:FAILED: SemanticException [Error 10006]: Line 1:63 Partition not found "20210919" 场景:在创建例行表时,报错。这种情况是先创建了多级分区表(date,product),…
目录 概述架构HDFS副本HDFS数据写入流程NN 工作原理DN 工作原理 结束 概述
官方文档快递
环境:hadoop 版本 3.3.6 相关文章速递
架构
HDFS HDFS 架构总结如下:
a master/slave architecture 一主多从架构a file is split into one or more blocks a…
I
限制外部表数据插入
set hive.insert.into.external.tablestrue;在Apache Hive中,通过INSERT INTO语句向外部表(External Table)插入数据时,有一些注意事项和限制。外部表是Hive中的一种特殊表,它与Hive管理的存储…
hive 编译
issue
Failed to execute goal com.github.os72:protoc-jar-maven-plugin:3.5.1.1:run (default) on project hive-standalone-metastore: Error resolving artifact: com.google.protobuf:protoc:2.5.0: The following artifacts could not be resolved: com.goog…
查看目录下有什么文件信息
//list查看当前目录下有什么文件 ls //list -list 通过详细内容形式查看目录下的文件内容 ls -l 或 ll //查看指定目录下文件名字信息 ls 目录 //以详细列表形式查看指定目录下文件名字信息 ls -l 目录 //list all 查看全部文件,包括隐藏…
There are 3 datanode(s) running and 3 node(s) are excluded in this operation { “dfs.nameservices”: “nameservice1”, “dfs.ha.namenodes.nameservice1”: “nn1,nn2”, “dfs.namenode.rpc-address.nameservice1.nn1”: “bigdata2:8020”, “dfs.namenode.rpc-addr…
第 6 章:查询
6.1 基本语法及执行顺序
1、查询语句语法
select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY col_list]]
[LIMIT n…
from hive_table;hive_table from hive_table where name xxx or name yyy from hive_table where name ["xxx", "yyy"] from hive_table where name LIKE *_xxx hive_db where name like "???dm?*" hive_column where table.name …
狭义的Hadoop VS 广义的Hadoop
广义的Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,hadoop是其中最重要最基础的一个部分,生态系统中每一子系统只解决某一个特定的问题域(甚至可能更窄)…
一、源码下载
下面是hadoop官方源码下载地址,我下载的是hadoop-3.2.4,那就一起来看下吧
Index of /dist/hadoop/core
二、脚本部分
1、start-yarn.sh
如果我们想单独启动Yarn会用到$HADOOP_HOME/sbin/start-yarn.sh,下面我们就看看start…
文章目录 1.数据准备2.双重group by实现 解决数据倾斜2.1 第一层加盐group by2.2 第二层去盐group by 1.数据准备
create table wordcount(a string) row format delimited fields terminated by ‘,’;
load data local inpath ‘opt/2.txt’ into table wordcount;
hive (…
一、源码下载
下面是hadoop官方源码下载地址,我下载的是hadoop-3.2.4,那就一起来看下吧
Index of /dist/hadoop/core
二、Mapper类
我们先看下我们写的map所继承的Mapper类
public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {/*** 传递…
Order By
order by 排序出来的数据是全局有序的,在hive mr引擎中将会只有1个reduce
Sort By
sort by 排序出来的数据是局部有序的,但是全局无序。即partition内部是有序的,但是partition与partition之间的数据是没有顺序关系的
distrib…
原文:[urlhttp://www.highscalability.com/google-architecture]Google Architecture[/url]Google是伸缩性的王者。Google一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。[b]平台[/b]
Linux
大量语言:Python,Java,…
一、源码下载
下面是hadoop官方源码下载地址,我下载的是hadoop-3.2.4,那就一起来看下吧
Index of /dist/hadoop/core
二、上下文
在我的<Hadoop-Yarn-启动篇>博客中已经简要的分析了NodeManager的启动过程,NodeManager是管理整个集…
再次吐槽公司的sb环境,不让上网不能插优盘,今天有事回家写一下笔记HBase region split 在管理集群时,最容易导致hbase节点发生故障的恐怕就是hbase region split和compact的了,日志有split时间太长;文件找不到…
软件工程部署图什么是部署图? (What is Deployment Diagram?) A deployment diagram is a UML diagram type of the system that represents the execution architecture of the components of a system of the objects, including nodes or modes such as hardwar…
K-V对的RDD遍历
val hashpartitionCounts: RDD[(String, Int)] = kvpartitionRDD.reduceByKey((x, y) => x + y)hashpartitionCounts.foreach{ line=>println("word="+line._1+" ,num="+line._2)
}
//下面的for和上面的一样结果
for (i <- hashp…
一般来说,spark on yarn是将spark程序的jar包上传至服务器,然后通过spark-submit的方式。
但是,相信很多人不是一次性就能写没有bug的spark代码,都有反复调试的需求,那么,上述方式的调试效率就很低了&…
一、删除数据库
注意:Hive 与 MySQL 再删除数据库时是有一点不一样的。 Hive再删除数据库操作时,要保证该库下没有任何数据表!
删除一个空数据库,如果数据库下面有数据表,那么就会报错 drop database…
Hive分组排序取topN的sql查询示例 要在Hive中实现分组排序并取每组的前N条记录,可以使用 ROW_NUMBER() 窗口函数结合 PARTITION BY 和 ORDER BY 子句。 以下是一个示例SQL查询,用于选择每个部门中工资最高的前3名员工:
SELECT department, e…
1.启动HDFS,命令如下: $ sbin/start-dfs.sh 遇到如下错误:14/10/29 16:49:01 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Starting nameno…
1.概述 在离线数仓处理通过HQL业务数据时,经常会遇到行转列或者列转行之类的操作,就像concat_ws之类的函数被广泛使用,今天这个也是经常要使用的拓展方法。
2.explode函数
2.1 函数语法
-- explode(a) - separates the elements of array …
简介
概述
MapReduce是Hadoop提供的一套用于进行分布式计算的模型,本身是Doug Cutting根据Google的<MapReduce: Simplified Data Processing on Large Clusters>仿照实现的。
MapReduce由两个阶段组成:Map(映射)阶段和Reduce(规约)阶段,用户只需要实现map以及reduc…
🌸博主主页:釉色清风🌸文章专栏:软件工程🌸 今日语录:What matters isn’t how others think of your ambitions but how fervently you cling to them. 软件工程系列,主要根据老师上课所讲提及…
目录
背景
1、 Exception in thread "main" java.lang.IllegalArgumentException: Invalid URI for NameNode address (check fs.defaultFS): file:/// has no authority.
2、 Exiting with status 1: org.apache.hadoop.hdfs.server.common.InconsistentFSStateE…
一、Hive基本概念
1.1 hive是什么
hive是基于hadoop的一个数仓分析工具,hive可以将hdfs上存储的结构化的数据,映射成一张表,然后让用户写HQL(类SQL)来分析数据 tel up down
1383838438 1345 1567
1…
本文包含如下内容: ① 通过图解+源码分析/A1/B1/node1和 /A1/B2/node2 这两个节点的网络距离怎么算出来的 ② 客户端读文件时,副本的优先级。(怎么排序的,排序规则都有哪些?) ③ 我们集群发现的一个问题。
客户端读时,通过调用getBlockLocations RPC 获取文件的各个块。…
常用的:
tar -zxvf *****.tar.gz -C /opt/**
(解压到指定目录)整理对应的命令 tar –xvf file.tar //解压 tar包 tar -xzvf file.tar.gz //解压tar.gz tar -xjvf file.tar.bz2 //解压 tar.bz2 tar –xZvf file.tar.Z //解压tar.Z unrar e file.rar //解压rar unzi…
问题集合
Q:终端启动hive时报错:/tmp/hive on HDFS should be writable? A:hdfs dfs -chmod 777 /tmp/hive
Q:hive: unable to create database path file…错误 A:在hive-site.xml里面添加以…
Hive运行卡死 再次强调 hive:小兄弟,没想到吧,咱可不是随便的人。😄 那么,这次又遇见了hadoop问题,问题描述是这样的。
hive> insert into test values(1, nucty, 男);
Query ID atguigu_202403241754…
hive中row_number() rank() dense_rank()的用法
一、函数说明
主要是配合over()窗口函数来使用的,通过over(partition by order by )来反映统计值的记录。
rank() over()是跳跃排序,有两个第二名时接下来就是第四名(同样是在各个分组内)dense_rank() …
部署准备
可以访问的 web 页面全部绑定了 127.0.0.1。禁止外部访问,需要访问可以使用 nginx 反向代理 增加鉴权之后暴露出去。如果不需要可以替换 IP 。
host配置
各个节点设置hostname,并且修改/etc/hosts or 设置 DNS 服务器增加 hostname 到 IP 的…
解决方案:
set hive.msck.repair.batch.size1;
set hive.msck.path.validationignore;
MSCK REPAIR TABLE table_name;如果不能设置值,会报错。 Error: Error while processing statement: Cannot modify hive.msck.path.validation at runtime. It is …
参考博客
Windows 10安装Hadoop 3.3.0教程 (kontext.tech)
Hadoop入门篇——伪分布模式安装 & WordCount词频统计 | Liu Baoshuai’s Blog
Hadoop安装教程 Linux版_linux和hadoop的安装_lnlnldczxy的博客-CSDN博客
hadoop启动出错 The value of property bind.address …
一 单项选择题 (单选题)下列哪个不属于Hadoop的特性? A. 成本高 B. 高可靠性 C. 高容错性 D. 运行在Linux平台上 正确答案: A:成本高; (单选题)Hadoop框架中最核心的设计是什么? A. 为海量数据提供存储的HDFS和对数据进行计算的MapReduce B. 提供整个HDFS文件系统的NameSpac…
Name or service not knownstname Hadoop 或 Spark 集群启动时 报错 Name or service not knownstname 原因时因为 workers 文件在windows 使用图形化工具打开过 操作系统类型不对引发的 在Linux系统上删除 workers 文件 使用 vim 重新编辑后分发即可
报错信息:
2023-12-19 14:28:25,893 INFO mapreduce.Job: Job job_1702967272525_0001 failed with state FAILED due to: Application application_1702967272525_0001 failed 2 times due to AM Container for appattempt_1702967272525_0001_000002 exited with…
目录 hive官方函数解释示例实战 hive官方函数解释
hive官网函数大全地址: hive官网函数大全地址
Return TypeNameDescriptionarrayarray(value1, value2, …)Creates an array with the given elements.booleanarray_contains(Array, value)Returns TRUE if the a…
Sqoop1最新版举例 1.环境说明2.import-all-tables3.query4.字段类型支持 1.环境说明
还是之前的环境:
# 不必要信息不再贴出
# JDK
[roottcloud ~]# java -version
java version "1.8.0_251"
# MySQL
[roottcloud ~]# mysql -V
mysql Ver 14.14 Distrib…
metatool 使用说明
usage: metatool-dryRun Perform a dry run ofupdateLocation changes.When runwith the dryRun optionupdateLocation changes aredisplayed but not persisted.dryRun is valid only with theupdateLocation option.-ex…
1. Insert 导出 1)将查询的结果导出到本地 hive (default)> insert overwrite local directory /opt/module/hive/data/export/student select * from student5;
Automatically selecting local only mode for query
Query ID atguigu_20211217153118_31119102-…
一、了解Sqoop
1、Sqoop产生的原因
A. 多数使用hadoop技术的处理大数据业务的企业,有大量的数据存储在关系型数据中。
B. 由于没有工具支持,对hadoop和关系型数据库之间数据传输是一个很困难的事。
以上是sqoop产生的主要原因,也因此Sqoop主要用于hadoop与关系型数据库之…
Spark简介
Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Sp…
文章目录一. jps查看各个节点后台进程二. 启停hadoop集群三. 群起zookeeper集群脚本zk.sh四. 同步文件五. 启动停止整个集群一. jps查看各个节点后台进程
我们经常需要查看各个节点的进程情况
vi jps.sh
#!/bin/bash
for i in hp5 hp6 hp7
do echo -------------------------…
Hive中的排序通常涉及到order by 、sort by、distribute by 、cluster by
一、语法 selectcolumn1,column2, ...
from table
[where 条件]
[group by column]
[order by column]
[cluster by column| [distribute by column] [sort by column]
[limit [offset,] rows];
…
1.CONCAT与CONCAT_WS函数
1.1 CONCAT函数
-- concat(str1, str2, ... strN) - returns the concatenation of str1, str2, ... strN or concat(bin1, bin2, ... binN) - returns the concatenation of bytes in binary data bin1, bin2, ... binN
Returns NULL if any argum…
1)防火墙没关闭、或者没有启动YARN
INFO client.RMProxy: Connecting to ResourceManager at hdp101/192.168.10.101:80322)主机名称配置错误
3)IP地址配置错误
4)ssh没有配置好
5)root用户和vagrant两个用户启动集…
格式化报错
权限问题
出现cannot creat directory或cannot creat file类型
如下报错信息:
cannot create directory Permission denied如果使用的是 user 用户,多数情况下是因为文件权限问题,hadoop3.3.1、big_data(存数据&am…
部署完hadoop单机版后,试下mapreduce是怎么分析处理数据的
Word Count
Word Count 就是"词语统计",这是 MapReduce 工作程序中最经典的一种。它的主要任务是对一个文本文件中的词语作归纳统计,统计出每个出现过的词语一共出现的次…
Hive行列转换应用 文章目录Hive行列转换应用多行转多列多行转单列多列转多行单列转多行多行转多列
通过条件转换CASE WHEN函数实现多行转多列,即取出对应的数据放在对应的位置。例1:
写法一:
SELECTid,CASEWHEN id < 2 THEN aWHEN id …
一、Hive基本概念1.1 hive是什么hive是基于hadoop的一个数仓分析工具,hive可以将hdfs上存储的结构化的数据,映射成一张表,然后让用户写HQL(类SQL)来分析数据tel up down
1383838438 1345 1567
138383…
关于 sql 语句的执行顺序网上有很多资料,但是大多都没进行验证,并且很多都有点小错误,尤其是对于 select 和 group by 执行的先后顺序,有说 select 先执行,有说 group by 先执行,到底它俩谁先执行呢&#x…
Failed to add storage directory [DISK]file hadoop启动后缺少DataNode进程报错out文件报错log文件解决 hadoop启动后缺少DataNode进程
jps查看hadoop进程缺少DataNode的进程
报错out文件
查看DataNode的out日志 DataNode启动报错
ulimit -a for user root
core file size…
1.数据库操作
1.1 创建数据库
create database test comment Just for test location /abcd
with dbproperties(aaabbb);
comment后面指的是注释;location后面是数据库存放路径;dbproperties代表了数据库的属性
ps.避免要创建的数据库已经存在错误&…
官方 说明
Sentry是一种用于在Hadoop集群中控制和管理访问权限的工具。因此,CDH的Sentry指的是Cloudera Distribution for Hadoop中集成的Sentry组件,用于管理Hadoop集群中的访问控制和权限管理。
作用
Sentry是一个用于管理Hadoop集群中的访问权限的…
搭建Hadoop3.3.5和Spark3.3.2 on Yarn集群模式,使用jdk17搭建Hadoop3.3.5和Spark3.3.2 on Yarn集群模式1. 创建一台虚拟机2. 安装jdk17(1)下载jdk17(2)安装jdk17(3)配置环境变量3. 虚拟机之间互…
一、hiveSQL执行顺序
from … where … mapjoin … on … select(筛选有用字段) … group by ||… join … on … select(筛选输出字段) … having … distinct … order by … limit … union/union all|| 前是map阶段执行&…
文章目录前言一、Spark的部署模式(一)Client模式1. Standalone集群下的Client模式2. Spark On Yarn集群下的Client模式(二)Cluster模式1. Standalone集群下的Cluster模式2. Spark On Yarn集群下的Cluster模式总结前言
#博学谷IT学…
HIVE SQL 实现Join和group by 具体原理
1、JOIN
在map的输出value中为不同表的数据打上tag标记,在reduce阶段根据tag判断数据来源。MapReduce的过程如下: 2、 GROUP BY HIVE SQL 实现Join和group by 的分区原理
1、JOIN
在join操作中,两个…
1、order by
hive中的order by 会对查询结果集执行一个全局排序,这也就是说所有的数据都通过一个reduce进行处理的过程,对于大数据集,这个过程将消耗很大的时间来执行。
2、sort by
hive的sort by 也就是执行一个局部排序过程。这可以…
hbase
1.解压HBase安装包
先 下载HBase压缩包,并解压安装文件,示例代码如下:
tar -zxvf hbase-2.0.1-bin.tar.gz2. 修改配置文件 编辑
conf目录下的
hbase-env.sh文件,示例代码如下:
cd conf
vi hbase-env.sh添加…
Node Label的介绍
官网对NodeLabel的介绍如下: Node label is a way to group nodes with similar characteristics and applications can specify where to run. 节点标签是一种对具有相似特征的节点进行分组的方法,应用程序可以指定在哪里运行。 那么标签到底是做…
奥地利符号计算研究所(Research Institute for Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法&…
1. Impala是哪种处理的查询分析?
A. 实时 B. 内存计算 C. 海量处理 D. 批处理 答案:A 解析:Impala是由Cloudera开发的一个开源并行处理查询工具,它能够在Apache Hadoop上进行实时查询分析。使用Impala,用户可以执行低…
hive udf中经常要做判断四边形是否为矩形,所以写了这个udf如下: public class RectangularIsNot extends UDF {private static final int LNG_LAT_LENGTH = 2;private static final String SEPARATOR_POINT = "|";private
[colorgreen][sizelarge]把eclipse中的hadoop项目,换了一个工作空间,再次启动任务时,发现报如下异常:[/size][/color]java.io.IOException: No FileSystem for scheme: hdfs at org.apache.hadoop.fs.FileSystem.getFileSy…
hive对库表的常用命令
查看数据库 :
show database;切换数据库:
use database_name;查看所有的表:
show tables;查询表结构:
desc table_name;创建数据库:
create database database_name;删除数据库
drop database if exists database_name;
dro…
spark中遇到的问题入门 (Getting Started) When did all the ‘big data’ hoopla start? By the very first definition, in a 1997 paper by scientists at NASA, a data set that is too big to fit on a local disk has officially graduated to big-data-dom. 所有的“大…
Linux中解压hadoop的压缩包报错: gzip: stdin: not in gzip formattar: Child returned status 1tar: Error is not recoverable: exiting now
原因是这个文件不是gzip格式 所以解压命令,不用加z。(不是所有的解压包都得用 -zxvf)…
1. 去重技巧—用group by替换distinct
取出user_trade中的全部支付用户
## 原有写法
SELECT distinct user_name
FROM user_trade
WHERE dt>0;## 优化写法
SELECT user_name
FROM user_trade
WHERE dt>0
GROUP BY user_name;在2019年购买又退款的用户
## 原有写法
SEL…
How to handle difficult old-style add-ons. 如何处理困难的旧式附件。 Sometimes an “old-style” add-on is distributed as foo.tar.gz and extracts to foo/, but the package is called bar. This can be a problem when using the plone.recipe.productdistros recipe…
目录一、下载安装包并解压二、配置环境变量三、安装Mysql四、配置hive-site.xml五、配置hive-env.sh六、初始化数据库并启动hive七、启动和停止脚本七、问题记录一、下载安装包并解压
在官网下载最新版的hive包,apache-hive-3.1.3-bin.tar.gz,并进行解压
tar -zvx…
目录报错信息解决方法1.下载apache-hadoop-3.1.0-winutils-master2.解压到宿主机3.添加环境变量4.重启IDEA或eclipse报错信息
java.lang.RuntimeException: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.
java…
java.lang.NoClassDefFoundError: Could not initialize class
背景说明
在 Flink 读取 hive 数据写到 kafka 的任务中,提交任务在客户端报错:
java.lang.NoClassDefFoundError: Could not initialize class org.apache.hadoop.security.UserGroupInformationat org.apach…
解决
1.首先查看虚拟机hadoop是否已经启动服务
2.查看虚拟机防火墙是否开启
systemctl status iptables出现:
Unit iptables.service could not be found.因为CentOS7没有iptables.service,安装一下即可:
yum install iptables-service…
Apache: 提示configure: error: APR not found(转) 原文地址:http://davis.zhang2004.blog.163.com/blog/static/2276015220128131455729/ #./configure --prefix……检查编辑环境时出现: checking for APR... no configure: error: APR not found . Ple…
1.出现IOException parsing XML document from class path resource [applicationContext.xml]; nested exception is java.io.FileNotFoundException: class path resource [applicationContext.xml] cannot be opened because it does not exist 上面这张图是我的目录&#…
为了降低大数据应用开发的门槛,简化开发过程,星环随Transwarp Data Hub 5.0开发出了大数据开发套件Transwarp Studio。Studio由一套PaaS产品构成,提供从提取、存储、计算、展示的全链路大数据开发服务,全面覆盖大数据开发流水线上…
okd 单机集群Updated: 7/29/2020更新时间:2020年7月29日 After listening to some feedback in the chat on a recent Twitch stream and the okd-wg mailing list I decided to create a guide for installing an OKD 4.5 SNC (single node cluster). This guide …
hadoop部署技巧Whether you are working on a personal project, collaborating with a couple people on an idea, or shipping production level code, deployment carries a inherit level of stress, anxiety, tricks, traps, bugs, errors, issues, landmines and nightma…
摘要
调试是学习代码流程,查找BUG,修复错误的重要方法,本文内容主要是讲述在前两篇内容的基础上如何配置Idea和hadoop以使其可以使用远程调试(打断点、逐行运行等)功能
Idea 设置
首先需要将hadoop源码的maven工程导…
本文所有代码可在https://github.com/alphg/zookeeper-hadoop-hbase-setup-tools查看 今天准备在自已电脑上使用5台虚拟机搭建一个zookeeperhadoophbase的一个完全分布模式的实验环境。每台机器都安装ubuntu server 12.04版本的linux系统,并正确安装ssh。 给5台机…
目录
背景
1、Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:3.0.2:protoc (compile-protoc) on project hadoop-common: org.apache.maven.plugin.MojoExecutionException: protoc --version did not return a version
2、 Failed to execute goal org.c…
安装源:yum install epel-release -y Q1: Starting namenodes on [localhost] ERROR: Attempting to launch hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting launch. 解决1: 是因为缺少用户定义造成的&…
1.案例一
原sql:
select count(case when a.id in (select id from b) then 1 esle 0) from a;结果总共数据:727 耗时:
2020-12-28 17:38:31 INFO Cost time is: 568.197s
改造后:
select count(case when b.id is not null then 1 els…
--压缩配置:
-- map/reduce 输出压缩(一般采用序列化文件存储)
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set mapred.output.compression.type=BLOCK;--任务中间压缩
set hive.exec.compress.i…
一般维度变更用拉链,度量值变更可以用快照
--获取0-99
WITH a AS (SELECT explode(split(0,1,2,3,4,5,6,7,8,9,,)))
select cast(a1.col + 10*a2.col as int) from a a1 JOIN a a2 ON 1=1 拉链表,做出一段日历表,每天拿去inner join不等关联拉链表获取出当天切片。这样就能…
orc事务分桶表
CREATE TABLE table_name (id int,name string
)
CLUSTERED BY (id) INTO 2 BUCKETS STORED AS ORC
TBLPROPERTIES ("transactional""true","compactor.mapreduce.map.memory.mb""2048", …
一、secondnamenode是做什么的 The Secondary Namenode is a helper to the primary Namenode.The Secondary is responsible for supporting periodic checkpointsof the HDFS metadata. The current design allows only one SecondaryNamenode per HDFs cluster.The Secondar…
1. 前言
前一篇介绍了 Spring Security 入门的基础准备。从这篇开始我们来一步步窥探它是如何工作的。我们又该如何驾驭它。本篇将通过 Spring Boot 2.x 来讲解 Spring Security 中的用户主体UserDetails。以及从中找点乐子。
2. Spring Boot 集成 Spring Security
这个简直…
YARN(Yet Another Resource Negotiator)是Hadoop生态系统中的资源管理和作业调度框架,负责集群资源的分配、作业的调度和任务的执行,使得在大规模集群上可以高效地运行各种计算框架,如MapReduce、Apache Spark等。YARN的调度器负责将集群资源分配给不同的应用程序,以确保…
查看除了sample_date以外的所有字段信息
set hive.support.quoted.identifiersnone; select (sample_date)?.
from test.table where sample_date20230713;查看除了sample_date 和 msgtype以外的所有字段信息
set hive.support.quoted.identifiersnone; select (sample_dat…
mr中不指定reduce时默认是1,而hive会自动调节reduce数量,hive的切片是256,多少切片多少reduce.
1.order by 全局排序,只会有一个reduce
2.reduce 内部排序
可以指定reduce个数(分区个数)
1.sort by
每个reduce的内部排序
2.distribute by
分区,默认hash规则
3.cluster …
Sqoop(SQL to Hadoop)是一个Apache软件基金会下的开源工具,用于在Hadoop和关系数据库服务器之间传输数据。它的主要目的是简化将数据从关系数据库(如MySQL、Oracle、SQL Server等)导入到Hadoop生态系统(如H…
文章目录 1 Hive概述2 Hive部署2.1 规划2.2 安装软件 3 Hive体验4 Hive客户端4.1 HiveServer2 服务4.2 DataGrip 5 问题集5.1 Could not open client transport with JDBC Uri 结语 1 Hive概述
Apache Hive是一个开源的数据仓库查询和分析工具,最初由Facebook开发&…
omnidata-hive-connector介绍
omnidata-hive-connector是一种将大数据组件Hive的算子下推到存储节点上的服务,从而实现近数据计算,减少网络带宽,提升Hive的查询性能。目前支持Hive on Tez。omnidata-hive-connector已在openEuler社区开源。 …
项目场景:
需求:需要在之前上线的分区报表中新增加一列。 实现方案:
1、创建分区测试表并插入测试数据
drop table test_1;
create table test_1
(id string,
score int,
name string
)
partitioned by (class string)
row format delimit…
/var/log/messages 和/var/log/dirsrv/slapd-testhadoop-COM 日志都出现以下日志: If replication stops, the consumer may need to be reinitialized.
[27/Jun/2023:05:15:09.469361922 0800] - ERR - NSMMReplicationPlugin - changelog program - repl_plugin_name_cl - a…
Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark…
最近数据分析的项目也即将告一段落了,中间也积累了很多知识,特此记录一下。其中用的最爽的Web组合开发就是Intellij IDEA Maven Spring Boot Velocity Boostrap jQuery了,关于后端的数据分析和处理的Hadoop模块,会放在Hadoop…
如果你使用的是CDH集群那就很是方便的 在Cloudera Manager中,进入HDFS Service 进入Instances标签页面,点击Add Role Instances按钮,如下图所示 点击Continue按钮,如下图所示 返回Instances页面,选择HttpFS角色…
刚装完的hadoop集群,在查看namenode的log时,散仙发现有如下的警告信息:2014-10-30 16:49:18,340 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 2 secs2014-10-30 16:49:18,340 INFO org.apache.hadoop.hdfs.Sta…
分治算法(Divide and Conquer Algorithm)是一种算法设计策略,它将一个大问题分割成多个相同或相似的子问题,然后递归地解决这些子问题,最后将它们的解合并在一起,得到原始问题的解。分治算法通常包含三个关…
首先jdk安装完毕 jdk安装文档参考: Linux 环境下安装JDK1.8并配置环境变量_linux安装jdk1.8并配置环境变量_Xi-Yuan的博客-CSDN博客 准备好hadoop的安装包
我的下载地址如下:
We Transfer Gratuit. Envoi scuris de gros fichiers.
将hadoop包上传到随…
文章目录 一.任务描述二. 解决 一.任务描述 Error while compiling statement: FAILED: HiveAccessControlException Permission denied: Principal [nameroot, typeUSER] does not have following privileges for operation CREATEFUNCTION [ADMIN PRIVILEGE on INPUT, ADMIN…
文章目录 第二单元单选题多选题填空题 第二单元
单选题 每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的: A. MapReduce B. GraphX C. Hive D. Streams 正确答案: B 每种大数据产品都有特定的应用场景,以下哪个产…
文章目录 第三单元单选题多选题 第三单元
单选题 HDFS的命名空间不包含: A. 块 B. 目录 C. 字节 D. 文件 正确答案: C 对HDFS描述错误的是: A. HDFS是一个开源框架 B. 2004年,Doug Cutting发布了第一个版本HDFS C. HDFS是 Hadoop大数据生态…
报错
FAILED: SemanticException [Error 10265]: This command is not allowed on an ACID table test.log_test with a non-ACID transaction manager. Failed command: select * from log_test
解决办法
客户端
SET hive.txn.managerorg.apache.hadoop.hive.ql.lockmgr.D…
今天hive在执行的时候出现了报错,内容如下:
Caused by: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-2040810143-192.168.144.145-1612269795515:blk_1077591653_3851069 file/hbase/data/default/cycle_middle_data/c4…
一、如何把csv文件导入Hive
(1) 在Hive中建立与csv相对应的表
create table if not exists tmp.tmp_wenxin_20231123
(redeem_code_id string comment
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ,
STORED AS TEXTFILE;创建了一张名为tmp_wenxin_20231123的hive表&am…
hadoop启动hdfs异常 util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
记录一下安装hadoop遇到的问题,以便后面再次遇到有个解决方式的记录,也方便其他人解决相同的问题…
点我完整下载:基于Hadoop的区块链海量数据存储的设计与实现.docx 基于Hadoop的区块链海量数据存储的设计与实现 Design and Implementation of Mass Data Storage for Blockchain based on Hadoop 目录 目录 2 摘要 3 关键词 4 第一章 引言 4 1.1 研究背景 4 1.2 研…
jdk文件百度云下载: 链接:https://pan.baidu.com/s/1MCiGRzOZY8rAFpRJwA3tdw 提取码:kphl hadoop的jar包:
最新版官网链接: Index of /dist/hadoop/core/stable (apache.org) 百度云下载,3.3.3版…
单选题 题目1:下列选项描述错误的是? 选项: A Hadoop HA即集群中包含Secondary NameNode作为备份节点存在。 B ResourceManager负责的是整个Yarn集群资源的监控、分配和管理工作 C NodeManager负责定时的向ResourceManager汇报所在节点的资源使用情况…
1、条件过滤
left join 中 on 后面加条件 where 和 and 的区别
1、 on条件是在生成临时表时使用的条件,它不管and中的条件是否为真,都会保留左边表中的全部记录。2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有le…
1 窗口函数语法 分析函数/专用窗口函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置) 常用的分析函数 常用的分析函数:sum()、max()、min()、avg()、count() 常用的专用窗口函数 专用窗口函数:row_number()、rank()、dens…
1. 累计窗口函数
sum(…) over(…)2018年每月支付总额和当年累积支付总额
SELECT a.month,a.pay_amount,sum(a.pay_amount) over(order by a.month)
FROM(SELECT month(dt) as month,sum(pay_amount) as pay_amountFROM user_tradeWHERE year(dt)2018GROUP BY month(dt)) as …
任务调度器之Azkaban的使用Azkaban概述安装Azkaban单服务模式准备解压安装启动solo-server访问Web使用两个服务器模式准备初始化数据库解压安装SSL安全认证安装Azkaban Web Server安装Azkaban Executor Server启动服务访问Web使用测试任务提交与执行Command类型定时任务HDFS操作…
Java操作HBase API
添加依赖 <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>org.apache.hadoop</g…
下载地址
Index of /dist
ubuntu安装hadoop集群
准备
IP地址主机名称192.168.1.21node1192.168.1.22node2192.168.1.23node3 上传
hadoop-3.3.5.tar.gz、jdk-8u391-linux-x64.tar.gz
JDK环境
node1、node2、node3三个节点
解压
tar -zxvf jdk-8u391-linux-x64.tar.gz…
文章目录代码代码 FileSystem fsFileSystem.get(new URI("hdfs://192.168.20.91:9000"), new Configuration(), "hdfs");ContentSummary in fs.getContentSummary(new Path("/apps/hbase/data/data/default"));报错原因:指定的hdfs端…
一、报错信息:hive> show databases;FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 解决办法:1.删除mysql中的元数据库(metastore࿰…
1 概述 2 创建数据库 create database if not exists test_database
comment "this is my first db"
with dbproperties (createdByAllen);3 描述数据库信息
describe 可以简写为desc extended 可以展示更多信息
describe database test_database;
describe databa…
基于Hadoop的智慧社区大数仓库系统设计与开发 Design and Development of a Smart Community Data Warehouse System based on Hadoop 目录 目录 2 摘要 3 关键词 4 第一章 绪论 4 1.1 研究背景 4 1.2 研究目的与意义 5 1.3 国内外研究现状 6 1.4 主要研究内容 8 1.5 研究方法与…
测试所用到的数据参考:
原文链接:https://blog.csdn.net/m0_52606060/article/details/135080511 本教程的计算环境为Hive on MR。计算资源的调整主要包括Yarn和MR。
CBO优化
优化说明
CBO是指Cost based Optimizer,即基于计算成本的优化…
Hive的四种排序方法
hive排序方法,hive的排序方式 hive有四种排序方法: ORDER BY 、SORT BY 、DISTRIBUTE BY 、CLUSTER BY
0. 测试数据准备
--数据准备
WITH t_emp_info AS (
SELECT * FROM (VALUES (1001, 研发部, 16000 ), (1002, 市场部, 17000 ), (1003, 销售部, 1100…
一、报错内容:
Unable to load step info from XML step nodeorg.pentaho.di.core.exception.KettleXMLException:
Unable to load step info from XMLat org.pentaho.commons.launcher.Launcher.main (Launcher.java:92)at java.lang.reflect.Method.invoke (Met…
一、源码下载
下面是hadoop官方源码下载地址,我下载的是hadoop-3.2.4,那就一起来看下吧
Index of /dist/hadoop/core
二、上下文
在上一篇<Hadoop-MapReduce-源码跟读-客户端篇>中已经将到:作业提交到ResourceManager,那…
Those of you who know me will be familiar with the fact that I am what could be called a ‘digital packrat’. After a few years of university my DVD/Blu-Ray collection has expanded to the point that it fills multiple shelves, and I have digitised the whole…
一、源码下载
下面是hadoop官方源码下载地址,我下载的是hadoop-3.2.4,那就一起来看下吧
Index of /dist/hadoop/core
二、上下文
在上一篇<Hadoop-MapReduce-MRAppMaster启动篇>中已经将到:MRAppMaster的启动,那么运行M…
一、源码下载
下面是hadoop官方源码下载地址,我下载的是hadoop-3.2.4,那就一起来看下吧
Index of /dist/hadoop/core
二、Reducer类
我们先看下我们写的reduce所继承的Reducer类 public class Reducer<KEYIN,VALUEIN,KEYOUT,VALUEOUT> {/*** 传…
HBase本身提供了很多种数据导入的方式,通常有两种常用方式:
使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase另一种方式就是使用HBase原生Client API
本文就是示范如何通过MapReduce作业从一个文件读取数据并…
一、源码下载
下面是hadoop官方源码下载地址,我下载的是hadoop-3.2.4,那就一起来看下吧
Index of /dist/hadoop/core
二、从WordCount进入源码
用idea将源码加载进来后,找到org.apache.hadoop.examples.WordCount类(快捷方法&…
作者:櫰木 1、节点选择 部署在两个namenode节点
cd /opt/bigdata
tar -xzvf ranger-2.3.0-hdfs-plugin.tar.gz -C /opt/
cd /opt/ranger-2.3.0-hdfs-plugin
vim install.properties
# Licensed to the Apache Software Foundation (ASF) under one or more
# c…
错误代码:
在启动Hive元数据时,遇到了以下错误信息:
Caused by: java.sql.SQLException: null, message from server: "Host 192.168.252.101 is blocked because of many connection errors, unblock with mysqladmin flush-hosts&qu…
一、源码下载
下面是hadoop官方源码下载地址,我下载的是hadoop-3.2.4,那就一起来看下吧
Index of /dist/hadoop/core
二、上下文
在我的博客<Hadoop-Yarn-NodeManager是如何启动容器的>中的ContainerLaunch prepareForLaunch()会触发Containe…
一、字符串截取函数:substr,substring
语法: substr(string A, int start),substring(string A, int start)
返回值: string
说明:返回字符串A从start位置到结尾的字符串
举例: hive> select substr(abcde,3); cde hive…
ploneBecause plone.org should run the latest Plone 因为plone.org应该运行最新的Plone You may be wondering why plone.org is not running the latest version of Plone. Well wonder no more! By the end of this month, it will be. I have been working onthe various…
报错信息
报错:
Cannot set priority of namenode process 8095
查看日志文件:
2024-03-10 01:36:50,840 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: registered UNIX signal handlers for [TERM, HUP, INT]
2024-03-10 01:36:51,061 I…
select * from ( select back_receipt_nos,order_no,reject_no from ods_one.ods_us_wms_reject_order_match_all_d where order_no 10150501385980001 ) t1 lateral view explode(split(t1.back_receipt_nos, ,)) t as back_receipt_no where 1 1;
你可以尝试关闭主机校验 修改hive安装目录下conf/hive-site.xml,将hive.server2.enable.doAs设置成false
<property><name>hive.server2.enable.doAs</name><value>false</value><description>Setting this property to true will have H…
报错:
Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop102:10000: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException)…
Hadoop运行在多机集群上时,每台机器都成为集群的一个节点(Node),节点之间连成一个局域网,一般是二层交换机(Switch),也可能是三层交换机。集群内的节点之间可以通过 IP 地址通信,也可…
今天在运行以下命令
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output dfs[a-z.]
因为之前我改了主机名为master1
报错
19/03/16 16:12:59 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics…
文章目录Configuration 配置必要配置Dynamic/multi resource writesFormatting dynamic/multi resource writes基本配置NetworkQueryingOperationMapping (when writing to Elasticsearch)Field information (when reading from Elasticsearch)Metadata (when reading from Ela…
png 色彩模式PNG:便携式网络图形 (PNG: Portable Network Graphics) PNG is an abbreviation of Portable Network Graphics. It is a way in which Portable Network Graphics is arranged for keeping in reserve the bit-mapped (raster) images on the computer…
计算机vpu处理器内部沟通 (Internal communication) CPU of the computer system communicates with the memory and the I/O devices in order to transfer data between them. However the method of communication of the CPU with memory and I/O devices in different. Th…
需求: 假如数据量巨大,两表的数据是以文件的形式存储在hdfs中,需要MapReduce程序来实现以下SQL查询运算
select a.id,a.date,b.name.b.category_id,b.price
from
t_ordet a left join t_product b on a.pid b.id商品表:id …
Hive on Spark的小文件设置参数
参数调优 了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了。所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效…
#include <iostream>
#include <cstring>
#include <vector>
using namespace std;
using ll long long ;
const int M1e610;
int n,x,dep[M],mx[M],dp[M];///dep深度,mx从该点到达的最深节点位置
vector<int> g[M];
void dfs(int x,int f…
kubernetes 集群如何在本地创建Kubernetes集群并部署与Kubernetes通信的简单前端应用 (How to create a Kubernetes cluster locally and deploy simple front-end apps that communicate with Kubernetes) As a software engineer at Capital One, I get to explore cutting e…
先开始创建表
create emp001,member_id,address,info放入数据
put emp001,Rain,id,31
put emp001, Rain, info:birthday, 1990-05-01
put emp001, Rain, info:industry, architect
put emp001, Rain, info:city, ShenZhen
put emp001, Rain, info:country, China
get emp001,…
zookeeper作用:2个namenode做高可用故障转移使用 1、启动zk:1、2、3、4节点 整体执行:[rootnode01 hadoop]zkServer.sh start
2、查看ZK服务状态: 整体执行:[rootnode01 hadoop]zkServer.sh status 注 a. 启动ZK服务: sh bin/zkS…
windows下运行hadoop的程序报错java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
这是因为windows环境变量不兼容的原因 解决办法:
下载winutils地址https://github.com/srccodes/hadoop-common-2.2.0-bin下载解…
python写mr比java要省事的多 下面介绍个简单的例子 这个就是要的mapper import sys,urlparse,os
from subscribe_clean import *
from subscribe_ad import *cleansubScribeClean(subscribeMonitorCompany()) for line in sys.stdin:try:rs clean.analyzeData(line)if rsNone …
文章目录前言一、Hadoop硬件合理配置HDFSMapReduceHBase二、Hadoop架构配置建议1.管理节点NameNode2.数据节点DataNode3.JBOD vs. RAID4. SSD与Hadoop3.raid方面总结前言
最近公司在Hadoop服务器未来规划,所以调研了各个方面,有点杂乱,这里记…
学习hadoop新手易犯错误:Call From master.hadoop/192.168.31.149 to master.hadoop:8020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused 产生此错误的原因是had…
问题描述 当启动hadoop集群的时候,没有报错,进入hadoop:50070端口也正常,但是在Summary中,安全模式提示为on。不知为何。。。。
当启动hive的时候,会报错:namenode safemode is on
然后看其他博客说是因为…
一、原始数据
acctcontent1232313[{"name":"张三","code":"上海浦东新区89492jfkdaj\r\n福建的卡"...},{"name":"狂徒","code":"select * from table where aa1\r\n and a12"...},{...}]...…
1.背景
统计连续登录天数超过3天的用户,输出信息包括:用户id,登录天数,起始时间,结束时间;
2.准备数据
-- 建表
create table if not exists user_login_3days(user_id STRING,login_date date
);--插入…
转成 select customer_code,product_type
from temp.temp_xx
LATERAL VIEW explode(SPLIT(product_types,,)) table_tmp AS product_type
where customer_code K100515182
🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的…
1.hive下载:Index of /dist/hive/hive-1.2.1
或者上传安装包至/opt/software:rz或winscp上传 2.解压
cd /opt/software
tar -xzvf apache-hive-1.2.1-bin.tar.gz -C /opt/servers/ 3.重命名
mv apache-hive-1.2.1-bin hive 4.配置环境变量
vi /etc/…
参考文档: https://juejin.cn/post/7141331245627080735?searchId20230920140418F85636A0735C03971F71
官网社区: https://issues.apache.org/jira/browse/HIVE-22275
In the case that multiple statements are run by a single Session before bein…
1.HDFS写流程?以及参与的组件?
----------------------流程图---------------------------
A(Client) -- 发送写请求 --> B(NameNode)
B -- 返回可用DataNodes列表 --> A
A -- 选择主节点 --> C(主节点Primary DataNode)
C -- 建立连接 --> A
A -- 发…
Hive安装包下载地址
Index of /dist/hive
上传解压
[rootmaster opt]# cd /usr/local/
[rootmaster local]# tar -zxvf /opt/apache-hive-3.1.2-bin.tar.gz重命名及更改权限
mv apache-hive-3.1.2-bin hivechown -R hadoop:hadoop hive配置环境变量
#编辑配置
vi /etc/pro…
代码 现象 ParseException line 6:4 cannot recognize input near percent String COMMENT in column name or primary key or foreign key 23/11/13 11:52:57 ERROR org.apache.hadoop.hive.ql.Driver: FAILED: ParseException line 6:4 cannot recognize input near percent …
目录 1.表操作之4个by,分别是
2.Order by:全局排序
3.Cluster by
4.Distribute by :分区
5. Sort by :每个Reduce内部排序
6.操作练习
步骤一.创建表
步骤二.加载数据 步骤三.验证数据 1.表操作之4个by,分别是
order by 排序字段名
cluster by 分桶并排序字段名
dis…
Hive 查询优化
-- 本地
set mapreduce.framework.namelocal;
set hive.exec.mode.local.autotrue;
set mapperd.job.trackerlocal;
-- yarn
set mapreduce.framework.nameyarn;
set hive.exec.mode.local.autofalse;
set mapperd.job.trackeryarn-- 向量模式
set hive.vectori…
点我完整下载:基于Hadoop的铁路货运大数据平台设计与应用.docx 基于Hadoop的铁路货运大数据平台设计与应用 Design and Application of Railway Freight Big Data Platform based on Hadoop 目录 目录 2 摘要 3 关键词 4 第一章 绪论 4 1.1 研究背景 4 1.2 研究目的…
Hive SQL操作
7、修改表
表重命名
alter table score4 rename to score5;修改表属性值
# 修改内外表属性
ALTER TABLE table_name SET TBLPROPERTIES("EXTERNAL""TRUE");
# 修改表注释
ALTER TABLE table_name SET TBLPROPERTIES (comment new_commen…
1.加载数据失败 hive> load data local inpath /home/user/hive.txt into table studentl> ;
FAILED: SemanticException [Error 10001]: Line 1:56 Table not found studentl
hive> load data local inpath /home/user/hive.txt into table student;
Loading data to…
点我完整下载:基于Hadoop架构的多重分布式BP神经网络的短期负荷预测方法.docx 基于Hadoop架构的多重分布式BP神经网络的短期负荷预测方法 "A Short-term Load Forecasting Method based on Multi-distributed BP Neural Network Architecture with Hadoop Fram…
一、背景
要利用gpt产生的存放在es种的日志表做统计分析,通过hive建es的映射表,将es的数据拉到hive里面。 在最初的时候同事写的是全量拉取,某一天突然任务报错,但是没有错误日志一直报:Task Transitioned from NEW t…
问题
在IDEA运行HBASE脚本时出现如下报错:
org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyException: org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyException: Column family table does not exist in region hbase:meta,,1.1588230740 i…
获取所有的注册在router里的active状态的集群。 /*** Get a list of all namespaces that are registered and active in the* federation.** @return List of name spaces in the federation* @throws IOException Throws exception if the namespace list is not* av…
十五、安装HIVE
1.配置MetaStore
利用ambari创建的MySQL作为MetaStore,创建用户hive及数据库hive
mysql -uroot -p
CREATE DATABASE hive;
CREATE USER hive% IDENTIFIED BY lnydLNsy115;
GRANT ALL ON hive.* TO hive%;
FLUSH PRIVILEGES;2.安装
在服务中添加H…
单选题 题目1:按粒度大小的顺序,Hive数据被分为:数据库、数据表、桶和什么 选项: A 元祖 B 栏 C 分区 D 行 答案:C ------------------------------ 题目2:以下选项中,哪种类型间的转换是被Hive查询语言…
目录 hive官方函数解释示例实战 hive官方函数解释
hive官网函数大全地址: hive官网函数大全地址
Return TypeNameDescriptionmapmap(key1, value1, key2, value2, …)Creates a map with the given key/value pairs.arraymap_values(Map<K.V>)Returns an un…
Hive中的排序通常涉及到order by 、sort by、distribute by 、cluster by
一、语法 selectcolumn1,column2, ...
from table
[where 条件]
[group by column]
[order by column]
[cluster by column| [distribute by column] [sort by column]
[limit [offset,] rows];
…
简介 Sqoop(SQL to Hadoop)是一个开源工具,用于在关系型数据库和Hadoop之间传输数据。它提供了一种快速高效的方式,将数据从关系型数据库导入到Hadoop集群进行分析,并支持将Hadoop集群中的数据导出到关系型数据库中。本…
一、源码下载
下面是hadoop官方源码下载地址,我下载的是hadoop-3.2.4,那就一起来看下吧
Index of /dist/hadoop/core
二、上下文
在我的博客<Hadoop-Yarn-NodeManager都做了什么>中的NodeManager服务列表中有一项是ContainerManagerImpl&#…
hive-3.1.2分布式搭建:
一、上传解压配置环境变量
在官网或者镜像站下载驱动包
华为云镜像站地址:
hive:Index of apache-local/hive/hive-3.1.2
mysql驱动包:Index of mysql-local/Downloads/Connector-J # 1、解压 tar -zx…
Hive SQL 语法大全
基于语法描述说明
CREATE DATABASE [IF NOT EXISTS] db_name [LOCATION] path;
SELECT expr, ... FROM tbl ORDER BY col_name [ASC | DESC]
(A | B | C)如上语法,在语法描述中出现: [],表示可选,如上[LOCATI…
Hive表使用ORC格式和SNAPPY压缩建表语句示例
下面是一个sql示例:
-- 创建数据库
CREATE DATABASE IF NOT EXISTS mydatabase;-- 使用数据库
USE mydatabase;-- 创建分区表,使用ORC文件格式,采用Snappy压缩算法
CREATE TABLE IF NOT EXISTS …
hive-site.xml配置文件
<property><name>hive.server2.thrift.bind.host</name><value>node1</value>
</property>hive.server2.thrift.bind.host: This property determines the host address to which the HiveServer2 Thrift service …
一、几种排序和区别
Hive 支持两种主要的排序方式:ORDER BY 和 SORT BY。除此之外,还有 DISTRIBUTE BY 和 CLUSTER BY 语句,它们也在排序和数据分布方面发挥作用。
1. ORDER BY
ORDER BY 在 Hive 中用于对查询结果进行全局排序࿰…