# 知识点

# hive

hive 是基于 Hadoop 的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

hive 数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供 SQL 查询功能,能将 SQL 语句转变成 MapReduce 任务来执行。

Hive 的优点是学习成本低,可以通过类似 SQL 语句实现快速 MapReduce 统计,hive 十分适合对数据仓库进行统计分析

Hadoop 是一个分布式系统 (opens new window)基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop 实现了一个分布式文件系统 (opens new window)( Distributed File System),其中一个组件是HDFS (opens new window)(Hadoop Distributed File System)。

HDFS 有高容错性 (opens new window)的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序 (opens new window)的数据,适合那些有着超大数据集(large data set)的应用程序。

HDFS 放宽了(relax)POSIX (opens new window)的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop 的框架最核心的设计就是:HDFS (opens new window)MapReduce (opens new window)。HDFS 为海量的数据提供了存储,而 MapReduce 则为海量的数据提供了计算

MapReduce 是一种编程模型,用于大规模数据集(大于 1TB)的并行运算。

# MySQL

MySQL 是一个**关系型数据库管理系统 (opens new window)**,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。

MySQL 所使用的 SQL 语言是用于访问数据库 (opens new window)的最常用标准化语言。

MySQL 由于其体积小、速度快、总体拥有成本低,尤其是开放源码 (opens new window)这一特点,一般中小型网站的开发都选择 MySQL 作为网站数据库。

# ClickHouse

ClickHouse 是用于在线分析处理查询(OLAP :Online Analytical Processing)的列式存储数据库(DBMS:Database Management System),ClickHouse 的全称是 Click Stream,Data WareHouse。

ClickHouse 可以使用 SQL 查询实时生成分析数据报告

ClickHouse 足够轻量,不依赖 Hadoop 生态,采用 Local attached storage 作为存储。优点:1、列式存储+数据压缩;2、并行和分布式查询;3、支持 SQL;4、实时数据更新。

ClickHouse 官方测试对比, 1 亿 的数据集测试中,ClickHouse 的性能,比 Hive 快 259 倍 ,比 MySQL 快 801 倍

最近更新: 4 小时前