文档详情

阿里大数据计算服务MaxCompute-基本介绍D.docx

发布：2024-09-09约2.97万字共28页下载文档

文本预览下载声明

大数据计算服务MaxCompute

基本介绍

大数据计算服务MaxCompute/

大数据计算服务MaxCompute/基本介绍

PAGE10

基本介绍

基本概念

项目空间（Project）是MaxCompute的基本组织单元，它类似于传统数据库的Database或Schema的概念

，是进行多用户隔离和访问控制的主要边界。一个用户可以同时拥有多个项目空间的权限。通过安全授权，可以在一个项目空间中访问另一个项目空间中的对象，例如：表(Table)，资源(Resource)，函数(Function)，实例(Instance)

usemy_project--进入一个名为my_project的项目空间

运行此命令后，用户会进入一个名为my_project的项目空间，从而可以操作该项目空间下的对象，例如：表(Table)，资源(Resource)，函数(Function)，实例(Instance)等，而不需要关心操作对象所在的项目空间。UseProject是ODPS客户端提供的命令。在详细介绍这部分内容之前，文档会对这些命令做简短的介绍说明

，具体说明请参考ODPS常用命令。

表是MaxCompute的数据存储单元。它在逻辑上也是由行和列组成的二维结构，每行代表一条记录，每列表示相同数据类型的一个字段，一条记录可以包含一个或多个列，各个列的名称和类型构成这张表的Schema。

在MaxCompute中，所有的数据都被存储在表中。表中的列可以是MaxCompute支持的任意种数据类型

(Bigint，Double，String，Boolean，Datetime)。MaxCompute中的各种不同类型计算任务的操作对象(输入、输出)都是表。用户可以创建表，删除表以及向表中导入数据。

分区表指的是在创建表时指定分区空间，即指定表内的某几个字段作为分区列。在大多数情况下，用户可以将分区类比为文件系统下的目录。MaxCompute将分区列的每个值作为一个分区(目录)。用户可以指定多级分区

，即将表的多个字段作为表的分区，分区之间正如多级目录的关系。在使用数据时如果指定了需要访问的分区名称，则只会读取相应的分区，避免全表扫描，提高处理效率，降低费用。

createtablesrc(keystring,

createtablesrc(keystring,valuebigint)partitionedby(ptstring);--目前，MaxCompute仅承诺String类型分区select*fromsrcwherept--正确使用方式。MaxCompute在生成查询计划时只会区的数据纳入输入中

select*fromsrcwherept=--错误的使用方式。在这样的使用方式下，MaxCompute并不能保障分区过滤机制

的有效性。

的有效性。pt是String类型，当String类型与Bigint比较时，MaxCompute会将二者转换为Double类型，此时有可能会有精度损失。

备注：

-详细介绍请参见分区表中的介绍。

MaxCompute表中的列必须是下列描述的任意一种类型，各种类型的描述及取值范围包括：

类型

描述

取值范围

Bigint

8字节有符号整型。请不要使用整型的最小值(-9223372036854775808)，这

是系统保留值。

-9223372036854775807~

9223372036854775807

String

字符串，支持UTF-8编码。其他编码的字符行为未定义。

单个String列最长允许8MB。

Boolean

布尔型。

True/False

Double

8字节双精度浮点数。

-1.010308~1.010308

Datetime

日期类型。使用东八区时间作为系统标准时间。

0001-01-0100:00:00~9999-

12-3123:59:59

备注：

-各种数据类型均可以为NULL。

资源(Resource)是MaxCompute的特有概念。用户如果想使用MaxCompute的自定义函数(UDF)或

MapReduce功能需要依赖资源来完成，例如：

SQLUDF:用户在编写UDF后，需要将编译好的jar包以资源的形式上传到ODPS。运行这个UDF时

，MaxCompute会自动下载这个jar包，获取用户代码，运行U

显示全部

相似文档