MongoDB数据类型
MongoDB支持多种数据类型作为文档中的值,MongoDB通过BSON(Binary JSON)来描述和存放数据。BSON是一种可进行二进制序列化的、类JSON格式的文档对象。通过BSON, MongoDB可以方便地存储无模式(schema)数据。
一、基本数据类型
MongoDB中的文档与JAVAScript中的对象非常相似,因而可认为它类似于JSON。JSON是一种简单的数据表示方式,它仅包含6种数据类型(null, 布尔、数值、字符串、数组和对象)这几种数据类型,所以JSON的表达能力有一定的局限性,比如,JSON没有日期类型,JSON只有一种数值类型,无法区分浮点数和整数。
MongoDB在保留JSON的键值对的基础上,添加了一些其它数据类型,且在不同的编程语言下,这些类型的表示也是有所差异的。下面介绍MongoDB支持的通用类型,以及如何使用这些类型。
- null: 用于表示空值或不存在的字段,例如{"x": null}
- 布尔型: 布尔型有两个值true或false, 例如: {"x": true}
- 数值: shell默认使用64位浮点数值,例如:{"x": 3.14}, {"x": 3}
- 对于整型值,可以使用NumberInt类(表示4字节带符号整数)或NumberLong类(表示8字节带符号整数),例如: {"x": NumberInt("13")}, {"x": NumberLong(30)}
- 字符串: UTF-8字符串伏特加不上课表示为字符串类型的数据,例如:{"x":"Taobao"};
- 日期: 日期被存储为新纪元以来经历的毫秒数,不存储时区, 例如: {"date": new Date()}
- 正则表达式:查询时,使用正则表达式作为限定条件,语法也与JavaScript的正则表达式语法相同,例如:{"x": /document/i}
- 数组:数据列表或数据集可以表示为数组,例如:{"category":["日用品","零食","饮料"]}
- 内嵌文档:文档可以嵌套其它文档,被嵌套的文档作为父文档的值,例如:{"doc": {”name":"张三", "age": 20}}
- 对象id: 对象id是一个24字节的ID, 是文档的唯一标识
- 二进制数据:二进制数据是任意字节的字符串。它不能直接在shell中使用。如果将非UTF-8字符保存到数据库中,二进制数据是唯一的方式。
- 代码:查询和文档中可以包含任意JavaScript代码,例如:{"f": function(){/*...*/}}
二、日期
在JavaScript中,Date类可以作为MongoDB的日期类型。创建日期对象时,就当使用new Date(...) 而非Date(...)。如将构造函数(constructor)作为函数进行调用(即不使用new的方式),返回的是日期的字符串表示,而非日期(Date)对象。这个结果与MongoDB无关,是JavaScript的工作机制决定的。
如果不注意这一点,没有使用构造函数的方式将会得到一堆混乱的日期对象和日期的字符串。由于日期和字符串之间无法匹配,所以在执行删除、更新及查询时操作时会导致很多问题出现。
三、数组
数组是一组值,它既能作为有序对象(如列表,栈,队列),也能作为无序对象,如数据集来操作。
实际上,常规的键/值对支持的所有值都可以作为数组的值,数组中甚至可以嵌套数据。
文档中的数据在MongoDB中有个奇妙的特性,就是它能够理解其结构,并知道如何深入数组内部对其内容进行操作。这样就能使用数据内容对数据进行查询和构建索引。
四、嵌套文档
文档可以作为键的值,这样的文档就是`内嵌文档`。使用内嵌文档时,可以使数据组织方式更加自然,不用非得存储成扁平结构的键值对。
例如,用一个文档来表示员工的基本信息:
{
"name": "风清扬",
"age": 65,
"gender": "男",
"kongfu": "独孤九剑",
"address_info":{
"address": "华山",
"location":"江西省南昌市",
"mobile":"13888888888",
"Apprentice": ["令狐冲","任盈盈"]
}
}
同数据一样,MongoDB也能够深入理解内嵌文档的内部结构,并能够深入其中构建索引、执行查询或者更新操作。
五、_id和ObjectId
MongoDB中存储的文档必须有一个"_id"键,这个键的值可以是任何类型的,默认是个ObjectId的对象。在一个集合里面,每个文档都有一个唯一的"_id", 确保集合中的每一个文档被唯一的标识。如果是两个集合的话,可以有"_id"的值相同,但是在一个集合内部不能有重复的"_id"值。
5.1. ObjectId
ObjectId是“_id"的默认类型。它设计成轻量型的,不同的机器都能用全局唯一的同种方法方便地生成它。这是MongoDB采用的ObjectId, 而不是其它比较常规的做法(如MySQL中的自增长列)的主要原因,因为在多个服务器上同步自增长费力费时。MongoDB的设计之初就是为了支持分布式的数据存储,所以能够在分布式的环境中生成唯一的标识符显得很重要。
ObjectId使用12个字节的存储空间,是一个由24个十六进制的数字组成的字符串(每个字节可以存储两个十六进制数字)。它的主要构成如下:
- 前 8 个十六进制数字表示创建 unix 时间戳,格林尼治时间 UTC 时间,比北京时间晚了 8 个小时
- 接下来的 6 个十六进制数字是机器标识码: 通常是机器主机名的散列值
- 紧接的4个十六进制数字由进程 id 组成 PID:产生ObjectId进行的PID
- 最后6个十六进制数字是随机数: 确保相同进行同一秒产生的ObjectId是不一样的
ObjectId构成
5.2.自动生成"_id"
如果插入文档时没有"_id"键, 系统会自动创建一个,可以由MongoDB服务器来创建的, 但通常会在客户端由驱动程序完成。将工作交给客户端来处理有效减轻了服务器的压力。
附录:常见MongoDB数据类型
常见MongoDB数据类型表