博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop-No.11之元数据
阅读量:6037 次
发布时间:2019-06-20

本文共 793 字,大约阅读时间需要 2 分钟。

元数据的重要性

三个重要理由,让我们不得不在意元数据

  • 元数据允许用户通过一张表的高一级逻辑抽象,而不是HDFS中文件的简单几何,或者HBase中的表来与数据交互.这意味着用户不比关心数据是如何存储的,存储到了什么地方
  • 元数据允许用户提供数据的信息(如分区或者排序特性),而后通过不同个的工具(用户或者其他人写入的)利用这些信息生成或者查询工具
  • 元数据允许数据管理工具链接该元数据,而且允许用户执行数据查找(查找可用的数据,并查找如何使用该数据)与数据血缘分析(追踪一个给定数据集的来源或者起源)

元数据

一般来说,元数据指的是关于数据的数据.在Hadoop生态系统中,元数据有很多种.

  • 与逻辑数据集有关的元数据

    包括以下信息:数据集的位置(比如HDFS中的目录或者HBase中表的名称),与数据集有关的模式.数据集的分区与排序特性(如果有).以及适用的数据集格式(比如CSV.TSV.SequenceFile,等等)此类元数据通常存储于独立的元数据残酷中.

  • 与HDFS文件有关的元数据

    包括以下信息:该文件的武安县与属主,以及数据节点上不同数据块的位置.此类信息通常通过Hadoop NameNode进行存储和管理

  • 与HBase表相关的元数据

    包括以下信息:表的名称.相关名称空间.相关属性(如MAX_FILESIZE,READONLY,等等),以及列簇的名称.此类信息有HBase存储和管理.

  • 与数据输入和转化有关的元数据

    包括以下信息: 创建执行数据集的特定用户,数据集的来源,创建数据集花费的时间,以及存在多少条记录,或者加载的数据大小是多少.

  • 与数据集统计相关的元数据

    包括以下信息:数据集中行的数量,每列中特定值的数量,数据分布的直方图以及最大值和最小值,此类元数据用于不同的工具.这些工具能够利用元数据优化执行计划.它们也能提供数据分析师使用,他们可以基于元数据进行快速分析

转载地址:http://nkmhx.baihongyu.com/

你可能感兴趣的文章
gulp 和 Browsersync 的联合使用
查看>>
我的友情链接
查看>>
如何使用PHP计算上一个月的今天
查看>>
关于无法标识/锁定数据库文件
查看>>
在线office文档编辑NTKO使用心得
查看>>
Linux命令(4):cat命令
查看>>
U盘安装Windows
查看>>
SQL PASS西雅图之行——会议篇
查看>>
WPF中Visible设为Collapse时,VisualTreeHelper.GetChildrenCount为0
查看>>
Hadoop中HDFS和MapReduce节点基本简介
查看>>
我在上海IT运维的日子
查看>>
zabbix使用percona监控mysql
查看>>
mysql主从同步配置详解
查看>>
使用Photoshop+960 Grid System模板进行网页设计
查看>>
04 python基础-变量及如果语句的作业
查看>>
qsort用法
查看>>
BZOJ2744:[HEOI2012]朋友圈(最大团,乱搞)
查看>>
4199. [NOI2015]品酒大会【后缀数组+并查集】
查看>>
2017 计蒜之道 初赛 第一场 B.阿里天池的新任务
查看>>
CSS3实现鼠标移动到图片上图片变大(缓慢变大,有过渡效果,放大的过程是有动画过渡的,这个过渡的时间可以自定义)...
查看>>