hive
已收录文章:7篇
-
Hive 简介 Hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采407 收藏
-
基本原理Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以179 收藏
-
作者介绍:胡梦宇,知乎数据架构平台开发工程师 背景 Apache Hive 是基于 Apache Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并且提供了 Hive SQL 进行查询和分析,在133 收藏
-
原文连接:https://segmentfault.com/a/1190000021597763根据自增ID导入数据时重复,可以使用下列方法图片来源http://cn.voidcc.com/question...下面是官网文档手册https://sqoop.apache.org/docs...7.2.10. Incremental ImportsSqoo168 收藏
-
1 hadoop hive的使用依赖hadoop,所以先介绍hadoop。 1.1 hadoop下载和安装 笔者是在Centos7.3上安装的hadoop,使用的是hadoop-3.2的版本。直接按照hadoop-2.9文档安装即可。 hadoop下载地址 1.2 设置hadoop的环境变量123 收藏
-
一直能在网上看到很多小视频和小文章,上来就讲sql优化,要用 group by,不要用 distinct,但是事实果真是 group by 优于 distinct 吗?对所有数据库和查询引擎来说都是这样吗?显然不是,这篇文章353 收藏
-
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数290 收藏