Hive

Hive Metastore ObjectStore PersistenceManage

最近在测试HCatalog,由于Hcatalog本身就是一个独立JAR包,虽然它也可以运行service,但是其实这个service就是metastorethriftserver,我们在写基于Hcatalog的mapreducejob时候只要把hcatalogJAR包和对应的hive-site.xml文件加入libjars和HADOOP_CLASSPATH中就可以了。不过在测试的时候还是遇到了一些问题,hivemetastoreserver在运行了一段时间

系统 2019-08-12 01:52:10 1771

Hive

Hive中数据的加载和导出

原文:http://blog.javachen.com/2014/06/09/hive-data-manipulation-language.html关于HiveDML语法,你可以参考apache官方文档的说明:HiveDataManipulationLanguage。apache的hive版本现在应该是0.13.0,而我使用的hadoop版本是CDH5.0.1,其对应的hive版本是0.12.0。故只能参考apache官方文档来看cdh5.0.1实现了哪

系统 2019-08-12 09:27:34 1759

Hive

Mac OS X 10.7.2下搭建hive-0.9.0

第一步:下载hive打开:http://hive.apache.org/releases.html#Download,在页面下方可以看到hive与hadoop的版本匹配信息,如下图:因为我已经安装的hadoop的版本是1.0.3,所以我选择下载hive-0.9.0点击Downloadareleasenow,下载hive-0.9.0.tar.gz第二步:解压tar-zxvfhive-0.9.0.tar.gz我解压后的路径为:/Users/zhangosufe

系统 2019-08-29 22:00:31 1751

Hive

Hive安装及使用攻略

前言Hive是Hadoop一个程序接口,Hive让数据分析人员快速上手,Hive使用了类SQL的语法,Hive让JAVA的世界变得简单而轻巧,Hive让Hadoop普及到了程序员以外的人。从Hive开始,让分析师们也能玩转大数据。1.Hive介绍Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语

系统 2019-08-29 22:25:21 1746

Hive

HIVE:用外连接替代子查询

由于hive也支持sql,很多人会把hql跟标准sql进行比较,甚至有的时候会直接套用。hive不支持事务也不支持索引,更不支持追加写,但是对于一般的sql都是能够支持的。但是对于一些子查询确实无法支持的,例如select*fromt_ext_1_bkdoubledeletewheref1=(selectmax(f1)fromt_ext_1_bkdoubledelete)这个sql在mysql中是能够支持的,意思是找到val最大的那一行记录,然后在hive

系统 2019-08-12 09:27:38 1745

Hive

hive并发调用的运行方式-个人经验篇 - ggjuchen

hive并发调用的运行方式-个人经验篇-ggjucheng-博客园前言使用hive,我们很多情况下会并发调用hive程序,将sql任务转换成mapreuce提交到hadoop集群中,而在本人使用hive的过程中,发现并发调用hive有几个问题,在这个和大家分享下.正文默认安装hive,hive是使用derby内存数据库保存hive的元数据,这样是不可以并发调用hive的,需要配置为使用mysql保存hive的元数据。运行hive,可以有以下访问方式:1.h

系统 2019-08-12 01:32:57 1738

Hive

hive 操作

1、命令行操作(1)打印查询头,需要显示设置:sethive.cli.print.header=true;(2)加"--",其后的都被认为是注释,但CLI不解析注释。带有注释的文件只能通过这种方式执行:hive-fscript_name(3)-e后跟带引号的hive指令或者查询,-S去掉多余的输出:hive-S-e"select*FROMmytableLIMIT3">/tmp/myquery(4)遍历所有分区的查询将产生一个巨大的MapReduce作业,如

系统 2019-08-12 09:26:57 1725

Hive

hive 优化

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select...fromAjoinBonA.key=B.keywhereA.userid>10andB.userid<10andA.

系统 2019-08-12 09:26:44 1666

Hive

搜索研发部官方博客 » Blog Archive » 相似度计

搜索研发部官方博客»BlogArchive»相似度计算常用方法综述相似度计算常用方法综述(2012-7-0509:07:59)标签:主题相似度,向量空间模型,相似度计算分类:数据挖掘引言相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、

系统 2019-08-12 01:32:55 1666

Hive

hive实战

1.安装hive2.hive实战3.hive存储模型4.深入hql查询语言5.参考资料及代码下载<1>.安装hive下载hive,下载地址http://mirror.bjtu.edu.cn/apache//hive/,解压该文件:xuqiang@ubuntu:~/hadoop/src/hive$tarzxvfhive-0.7.0-bin.tar.gz设置环境变量:xuqiang@ubuntu:~/hadoop/src/hive$cdhive-0.7.0-b

系统 2019-08-12 01:33:29 1663

Hive

hive的非交互模式

在linux的终端运行:$HIVE_HOME/bin/hive会进入交互模式;$HIVE_HOME/bin/hive-e或者-f是非交互模式1、非交互模式运行HQL语句$HIVE_HOME/bin/hive-e'select*frommovielimit10'会显示mapreduce的进度,但不会进入hive的交互模式,终于现实查询结果2、非交互模式运行HQL语句(-S静音模式)$HIVE_HOME/bin/hive-S-e'select*frommovi

系统 2019-08-12 01:33:12 1649

Hive

hive优化之------控制hive任务中的map数和reduc

一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b

系统 2019-08-12 09:27:24 1642

Hive

Hive之Partition的使用

参考:http://blog.csdn.net/qiaochao911/article/details/8613988http://xm-king.iteye.com/blog/1088422HIVE分区,实际上是通过一个路径来标识的,而不是在物理数据中。比如每天的数据,可能分区是pt=20121023这样,那么路径中它就会变成:/hdfs/path/pt=20121023/data_files。通过路径来标识的好处是,如果我们需要取特定分区的数据,只需要

系统 2019-08-12 01:55:14 1618

Hive

Hive[6] HiveQL 查询

6.1SELECT...FROM语句hive>SELECTname,salaryFROMemployees;--普通查询hive>SELECTe.name,e.salaryFROMemployeese;--也支持别名查询当用户选择的列是集合数据类型时,Hive会使用JSON语法应用于输出:hive>SELECTname,subordinatesFROMemployees;显示JohnDoe["MarySmith","ToddJones"]数组类型的显示hi

系统 2019-08-12 09:27:05 1546

Hive

hive中使用rcfile

(1)建student&student1表:(hive托管)createtablestudent(idINT,ageINT,nameSTRING)partitionedby(stat_dateSTRING)clusteredby(id)sortedby(age)into4bucketsrowformatdelimitedfieldsterminatedby',';createtablestudentrc(idINT,ageINT,nameSTRING)pa

系统 2019-08-12 09:27:07 1528