Monthly Archive: August 2020

0

关系型数据库进阶之Transaction manager

在前面的文章中,我们介绍了查询管理,查询优化以及数据管理,本文就来继续介绍Transaction manager相关的内容。它主要是用来保证每一个query都在它自己的transaction中执行。不过在此之前,我们需要理解一下ACID transaction。 ACID ACID transaction是一个工作单元,它主要包含4个方面: 原子性:transaction是“要么完成所有,要么什么也不做”,哪怕这个操作需要10个小时来执行。假如transaction crash,那么所有的state都需要roll back到之前的状态。 隔离性:假如有两个transactionA和B一起执行,不管A是在transactionB之前还是中间还是之后完成,结果都是一样。 耐用性:当transaction committed(成功完成),不管发生什么数据都会保存到数据库。 一致性:只有有效的数据才会写到数据库,一致性是和原子性以及隔离性相关。 在同一个transaction中,你可以运行多个SQL query来读,创建,更新和删除数据。但是当她们使用同样的数据的时候,就会造成混乱。我们来看下面这个例子: Transaction 1 从account A中取出100块钱,并存到account B中 Transaction 1 从account A中取出50块钱,并存到account B中。 我们来从这个例子中看看ACID中各个属性: 原子性:不管发生什么,你都不能从account A中取出100块钱,而不存到account B中去。 隔离性:需要确保假如T1, T2同时发生,最终account A被取出150块并且account B收入150块。而不会发生别的,比如account B只收入50块之类的。...

0

关系型数据库进阶之数据管理

我们在前面已经介绍了客户端管理,查询管理,今天来介绍数据管理。 在这一步中,查询管理会执行相应的查询,这个时候就需要从表和index中得到数据了。它需要数据管理来获取数据,不过这里有两个问题: 关系型数据库使用的是transaction的模式,所以你不能够在任何时候都得到数据,因为同时可能有别人在使用或者修改数据。 数据的获取是数据库中所有操作最慢的操作,所以数据管理需要足够聪明,来把数据保存在内存buffer中。 本文我们就会来讨论关系型数据库是如何处理这两个问题的。 Cache管理 就像我们前面几篇文章提到的一样,数据库的瓶颈就在于磁盘I/O,所以为了改进性能,需要使用cache管理器。 Query的执行器并不是从文件系统直接获取数据,而是通过cache manager来请求数据。Cache manager有一个memory的cache,我们称之为buffer pool。显然动态地从cache请求数据会增加数据获取的速度。一般来说memory相比磁盘来说会快100到100K倍,当然这还取决于决定的硬件和读写方式。 但是这里就会有另外一个问题,就是cache manager需要在query执行之前就获取到相应的数据,否则就还需要访问磁盘来数据。 预获取 query执行器其实是知道它所需要的数据,因为它知道整个query的所有流程。基于此,我们可以让query执行器处理第一部分数据的时候,就要去cache manager去预加载第二部分的数据,然后当它处理第二部分的数据的时候,就让cache manager去预加载第三部分的数据,这样循环下去。 Cache manager会把所有的数据保存在它的buffer pool中,为了检查相关数据是否还需要,cache manager在所有的cache数据中加入了一个额外的信息(我们称之为latch)。 当然有时候query执行器也不知道它下面要什么数据,这个时候就会使用一些特殊的预加载(比如,query执行器要数据1,3,5,那么它很有可能在未来需要数据7,9,11)或者顺序获取(这种情况下,cache manager就继续加载磁盘中后面的数据)。 为了探测预获取的效率,数据库提供一个称之为buffer/cache hit ratio的指标,这个指标会显示当请求一个数据的时候,有多少次是可以直接在cache中获取而不需要访问磁盘。 但是另外一个问题就是memory的大小毕竟有效,所以假如要加载新的数据,那么就得去除一些旧的数据,而这些加载和去除都是需要磁盘以及网络I/O消耗的。假如有一个查询经常执行,那么我们就会频繁地加载和去除相关的数据,这显然是不太合理的,那该如何处理呢?现代的数据库使用一种称之为buffer替换的策略。 buffer替换策略 现代的数据库(至少SQL Server, MySQL, Oracle和DB2)基本都使用LRU算法。 LRU就是Least Recently...

0

关系型数据库进阶之查询优化二

在前面的文章中我们介绍了查询优化的基础,着重介绍的两个表的JOIN的优化。本文就来看看我们在实际中更常见到的多表JOIN的优化。 现在我们来假设有五个表进行join,我们需要从不同的表中得到一个人的不同信息,比如地址,mail,mobiles等等,简单的QUERY如下所示: 作为查询优化器需要找到最佳的查询数据的方法,这里有两个问题: 每一个join需要使用什么类型的JOIN?我们有三种可能的JOIN (Hash Join,merge  Join, Nested Join) 先做哪个JOIN再做哪个JOIN? 下面这个是一个简单的示意图,有四个表,三个JOIN的情况,显然五个表的情况会更加复杂。 好的,那我们该怎么做呢? 1)暴力解法 遍历所有的可能性,然后找到最佳的方法。在上面的例子中,每一种join有三个可能(HASH, MERGE, NESTED),对于给定顺序的JOIN就有3^4中可能,而JOIN的顺序也是不定的,四个JOIN其实有(2*4)!/(4+1)!种可能的排序,这样一来,这个五个表的JOIN有 3^4*(2*4)!/(4+1)!种可能。 也就意味着,有27216中可能的计划。假如说merge join有0,1,2 B+ tree index,那么这种可能性就变成210000种了。而这还只是一个简单的JOIN。 2)只试验一些计划,然后选择其中最好的 因为可能性太多了,那么我们随机选择其中一些,然后计算他们的cost,选择其中最好的。 3)应用一些规则,来减少可能的计划 这里通常有两种规则: 使用一些简单的逻辑规则去除一些没有用的可能性,只是说这种去除不是很多。比如“nested loop join的inner relation必须是最小的数据集“ 使用一些有侵略性的规则来减少可能性。比如“假如一个relation很小,那么使用nested loop而不使用merge join和hash join”...

0

关系型数据库进阶之查询优化

在前面几篇文章中,我们已经介绍了总体构架,客户端管理和查询管理。在查询管理中,有一个很重要的部分我们没有介绍,那就是查询优化,这也是本文所要介绍的内容。 所有的现代数据库都是基于cost进行优化的(Cost Based Optimization, CBO)。总体的思想就是看每一个操作的cost是多少,然后找出一个cost最小的路径来执行这些操作并获取结果。 本文会首先以最常的三种join为例来进行介绍,看看哪怕是简单的join,它背后的优化是如何进行工作的。在这些例子中,我们关注时间复杂度,这个其实和真实的数据库优化器的计算是有所不同的,它真实会关注CPU消耗,磁盘I/O消耗以及内存的需求。时间复杂度和CPU消耗其实是差不多的,我们这种懒人就直接使用时间复杂度来进行分析了。当然有时候我们还需要考虑磁盘的I/O消耗,因为很多时候真正的瓶颈就是在于磁盘I/O而不是CPU的使用率。 JOIN的操作 我们会来看三个最常见的join操作,merger Join, Hash Join以及Nested Loop Join。在正式开始之前,我们来引入两个名词,outer relation和inner relation,很简单outer relation就是join左边的数据集,inner relation就是join右边的数据集。比如A JOIN B, 我们把A称之为outer relation而B称之为inner relation。并且假设outer relation有N个元素,inner relation有M个元素。我们可以很容易知道A JOIN B和B JOIN A其实是不太相同的。 Nested loop join Nested loop join是最简单的一种情况...

0

关系型数据库进阶之查询管理

在前面几篇文章中,我们已经介绍了总体架构以及客户端管理,今天我们来继续介绍查询管理。 毫无疑问,查询管理是数据库的核心中的核心,也是最重要最难的地方。这个部分,哪怕是写的不好的query也会被转换成尽量快的方式来进行执行,在执行之后会把结果在返回给客户端管理。主要有一下几个步骤: 解析query,看是否有效 重写相应的query,去除一些没有必要的操作,主要是做预优化 优化相应的查询,主要是提高性能,转化成高效的执行计划和数据访问计划 编译计划 最后,执行计划 我们主要来讨论一下前三个部分,因为他们基本就是query manager最核心的地方了。 query解析 所有的SQL语句都会发送到解析器来进行语法的检查。query语句中的任何语法错误都会导致query的结束,比如你把SELECT写成了SLECT,那么语句就会在这里的检查结束并报错。当然也不是仅仅这些简单的检查,还包括一些复杂的,比如你把WHERE写到了SELECT之前,那么这里也会报错。 紧接着会检查相关metadata,包括: 相应的表是否存在 相应的域是否在表中存在 对应的操作在对应的列数据类型上是否有效(比如你不可以把一个整数和字符串相比较,或者你不能在整数上执行substring()操作等) 做完这些检查后,它会检查你是否有相应的表格的读写权限。 假如这些检查都ok,那么相应的SQL query会被转换成内部的表示形式(通常是一个tree),然后会被送到query rewriter中。 Query重写 在Query解析之后,会把相应的内部表示形式传到Query重写这里,那么这里需要的操作就是: 预优化query 避免不必要的操作 帮助优化器找到最佳的方案 Query的重写其实就是把一系列预定义的规则在这个query上运行,假如这个query符合相应的规则,那么就根据这个规则进行重写。下面是一些可选规则: View的合并:假如你在query中使用view,那么就会把view的代码合并到相应的SQL语句中 子查询的展平:有子查询之后,是非常难进行优化的,所以这里会尽量把子查询展平了用来取代相应的子查询。举例如下: 这个语句会被转换成下面这个语句: 去除不必要的操作:比如你使用了DISTINCE,但是你又有一个UNIQUE的限制来保证数据不会重复,那么DISTINCT的关键词就会被去除。 消除冗余连接:比如你有两个一样的join条件,只是有一个条件被隐藏在一个view中或者别的不容易注意的地方,那么这个同样的join条件其实就是冗余的,这里会去除掉。 常数的算术评估:假如你写了一些需要计算的公式,那么它就会在这一步中计算。比如WHERE AGE > 10...

0

关系型数据库进阶之客户端管理

在上一篇文章中我们介绍了数据库的总体架构,今天我们将和大家来一起分析一下其核心组件中的重要组成部分:客户端管理。 客户端管理,顾名思义它是用来处理和客户端之间的信息交互的。客户端可以是一个web的server或者一个终端的用户/应用。客户端可以通过各种不同的方式来访问数据库,比如JDBC, ODBC, OLE-DB等等。 当连接数据库的时候,会执行下面这些步骤: 客户端管理首先检查你的权限和认证,看你是否有相应的访问数据库的权限。这些权限都是通过DBA来设置的。 然后,它会检查看是否有可用的进程(或者线程)来管理你的query 再检查看相应的数据库是否处于很重的负载情况下。 得到相应的资源,这里会有一个timeout,假如一定时间还没有得到资源,则会timeout,并且关闭相应的连接以及返回一个可读的错误信息。 发送query到相应的query manager,你的query就被执行了 Query 的过程并不是说全部返回,可能是一部分一部分返回的,所以它会把部分的返回值保存在一个buffer中,并且开始把它们分步发送回客户端。 假如有什么问题,它会断开连接,然后给出一个清晰的错误解释,并释放相关的资源 这就是整个数据库的客户端管理流程,其实还是蛮简单的,下一篇我们将会具体介绍更为核心的Query Manager部分。 参考文章:http://coding-geek.com/how-databases-work/

0

关系型数据库进阶之总体架构

一提到关系型数据库,我们可以看到它被在各个地方使用。有很多不同的关系型数据库,从最小的SQLite到复杂的Teradata。有很多文章在介绍如何使用数据库,但是很少有问题去深入地介绍它是如何工作的。假如你搜索“关系型数据库是如何工作的”这样的关键词,你会发现很少有问题进行深入详细的介绍。有时候,我们不禁会问,关系型数据库是不是太旧了,以至于都没有什么人来深入分析其中的内容? 作为一个开发者,我们需要有一点好奇心去深入看看我们每天使用的数据库内部是怎么样,假如你一直没有时间或者机会去深入了解其中的原理,那么本文将会是你的一个很好的选择。本文之所以称之为“进阶”是因为我们不会介绍如何去使用一些Query,而是假设你已经有了这些基础的知识,我们更注重其中的机理讲解。 一个数据库其实是信息的集合,而这个集合是可以很方便地访问和修改的。假如往简单的方面来想,那么它就是一系列的文件。事实上,最简单的数据库,比如SQLite其实就是一堆文件。当然SQLite又不是简简单单的一堆文件,因为它允许你: 使用transaction来保证数据的安全和连贯 能够很快的处理数据,哪怕是很大的百万量级的数据 总得来说,一个数据库可以由下图几个部分组成: 从这张图可以看出,总得核心有一下几个部分: 核心的组件: 进程管理: 很多数据库都有一个进程/线程池需要管理。更有甚者,为了做到纳秒级的效率,很多数据库都使用他们自己的线程而不是系统的线程。 网络管理:网络的I/O其实对数据库来说很重要,尤其是在分布式数据库中更为明显。这也是为什么很多数据库都有他们自己的管理者。 文件系统管理:数据库的第一个瓶颈就在于磁盘的I/O。需要一个文件系统管理来处理相关的内容,甚至取代系统的文件系统。 内存管理:为了避免磁盘I/O的损失,就需要大量的RAM。随之而来的就是,当你处理大量的内存的时候,你就需要一个高效的内存管理。尤其是你同时有很多query在使用内存的时候。 安全管理:主要管理用户的认证。 客户端管理:管理客户端的连接 工具: 备份管理:保存和还原数据库。 恢复管理:在数据库奔溃后能够以一致的状态启动数据库。 监测管理:记录数据的运行log,并且提供相应的检测工具。 Admin管理:用于存储元数据比如表的名字,结构,以及管理数据库,schema,表格空间等等。 Query管理: Query的解析:检查一个query是否有效 Query的重写:预先优化一个query Query的优化:优化一个query Query的执行:编译和执行query 数据的管理: Transaction管理:处理transcation cache的管理:在使用数据在前把数据放到内存,以及在写到磁盘之前把数据放到内存中 数据访问的管理:如何从磁盘访问数据 本文就从宏观介绍了数据库的组成部分,我们将在后面的文章中来分别主要介绍以下的内容: 客户端管理 查询管理 数据管理 参考文章:http://coding-geek.com/how-databases-work/

0

SVG介绍

SVG是1990年代构思出来的,很长一段时间都不太受人待见,但现在则发展得越来越好,越来越多的人推荐和喜欢使用它。其实在2000年左右,对于SVG的支持还是很少的,直到2017年很多web浏览器都开始支持SVG,很多的向量程序已经支持导出SVG。当然毫无疑问,SVG已经越来越广泛地使用在WEB开发中。 我们来看看根源,其实SVG的流行并不是偶然。虽然一些传统的图片格式,比如JPG和PNG对photograph来说很完美,但是其实SVG对现在web开发中的扩展性,响应性,交互性,可编程性,性能以及可访问性这些要求来说,是一个近乎完美的选择。 什么是SVG?为什么要使用它? SVG是一个基于XML的矢量图形格式。XML使用的是HTML的tag,当然它更加严格而已。比如说,你不能省略结束标签,因为这会使得SVG的render出问题。 给你一个初步的感觉,下面就是一个SVG的代码,它就是画一个白色的圆,有一个黑色的边框 <circle cx=”100″ cy=”100″ r=”50″ stroke-width=”4″ stroke=”#000″ fill=”#fff” /> 所以,其实说白了SVG就是一个很平的文本,有描述线的,曲线,形状,颜色和文字的。我们可以看到其实它的可读性很好,而且当我们把它放到HTML中的时候,可以很方便地通过CSS和Javascript来修改它。这样的特性是传统的文件格式比如PNG, GIF, JPG等所不具备的。 SVG是一个W3C的标准,因此他可以很方便地和别的语言和技术相结合,比如JavaScript,DOM,CSS以及HTML。从另一个角度来说,作为业界权威的W3C标准定,SVG可能会成为所有浏览器关于矢量图标准的定义。 SVG的过人之处就是它可以解决很多现代web开发的问题,我们来具体看看这些问题 可扩展性和响应性 SVG是使用形状,数字和坐标而不是像素来渲染图片的,这就使得他们可以和分辨率没有关系并且无限地扩展。其实你一想想,就会发现其实他们的创建图片的方式和你拿一支笔在那边画画是一致的。只有比例在改变。 有了SVG之后,你可以使用形状,路径和文本元素来画各种各样的图片,而且你可以确认即使在大的scale下也是很清晰的。 相比之下,GIF,JPG以及PNG都是有固定的尺寸,这也使得他们在扩大的时候显示就会有问题。当然,很多基于像素的图形都已经证明有其固有的优势,但是至少在无限扩展性这个方面和SVG相比还是有很大差距的。 可编程性和交互性 SVG是完全可以编辑和编写脚本的。各种各样的动画和交互可以通过CSS或者Javascript加入到inline SVG图形中。 辅助功能 SVG文件是基于文本的,所以当嵌入到web页面中的时候,可以搜索到和加index。这使得他们对屏幕阅读者,搜索引擎以及其它设备都很友好。 性能 一个影响性能的重要方面就是文件的大小,尤其在web页面中。而在这个方面,SVG和bitmap文件格式相比通常来说大小要小很多。 常见用例和浏览器支持 SVG有很多的常见用例,下面我们来看一些比较典型的例子 普通插图和图表 任何传统的使用铅笔和钢笔画的图形都应当可以很方便地转换成SVG的格式。 Logos和icons...

如何使用MySQL保存一个图片并且用PHP得到它 0

如何使用MySQL保存一个图片并且用PHP得到它

首先,我要说的是把一个图片保存在MySQL中,再读出来是一个很不推荐的做法。我们只是看看假如真的要这样做,该如何做,最后我会和大家聊聊一般我们如何处理这种使用情况,以及不推荐这样做的原因。 首先图片是一个BLOB(Binary Large Object)是可以用来存储二进制的数据。这就是用来保存图片,文件等等的数据。因为这种object通常都很大,所以我们需要定义一个很大的域来保存信息。如何通过PHP来插入呢,其实很简单: 1)读取图片成二进制 2)准备插入到数据库 3)使用SQL语句插入相关数据到数据库 下面我们来看看简单的PHP代码: 这里我们使用了fread()来把图片读取成比特,有了相关比特数据之后,就是简单地把它插入到BLOB的列就可以了。我们例子中image列是一个BLOB的数据类型。需要注意的是你选择的BLOB的列大小需要能够保存相应图片的大小,因为MySQL还是有不同大小的BLOB数据类型的。 下面我们来看一下如何获取图片数据,同样需要三个步骤: 1)设置content的type到图片的类型 2)找到图片,并且把它从数据库中拿出来 3)显示图片 相关的代码如下: 我们把数据从image列中拿出来,并且保存在一个变量中,然后我们设置相关content-type为image/jpeg就可以了,然后就可以显示相关的内容了。 需要注意的是不要再header()调用之前打印任何部分,否则在调用header的时候会报错”Headers already sent”。 其实说白了,这个和别的BLOB得数据的插入读取是一样的,并没有任何差别。 下面我们来谈谈为什么不要把图片保存到数据库中呢?因为数据库一般为了查询的方便会进行分页,而一些大的数据则会导致查询变得很慢,所以我们还是不要这样做为好。 那么推荐的做法是什么呢?我们一般会存储相关文件的路径就可以了。当想要找相关文件的时候,只要找到相关的路径就可以了,然后再根据相关的路径去磁盘找到需要显示的文件就可以了。这样做有两个好处:1)这样数据库的数据就很小了。 2)有了文件的名字,我们就可以用文件名来查找相关的文件了。 好了,这就是本文要讲的内容了。 参考文章:https://www.dreamincode.net/forums/blog/114/entry-3598-inserting-images-into-mysql-and-retrieving-them-using-php/

0

如何在SQL中得到两个表的不同行

有时候,我们需要比较两个表的差异,希望能够返回两个表不同的行,那怎么才能有效快速地得到这个结果,本文就来做一个简单的介绍: 表格准备 我们来假设有下面两个表(PostgreSQL 语法): 使用UNION 我们的第一反应大概就是看看能不能使用UNION,我们先得到表1-表2的内容,然后再得到表2-表1的内容,再把两者union起来,如下面的语法所示: 这样之后,就会得到下面这样的结果: a |b |c |–|–|–| 1| 2| 3|10|11|12| 但是这样有一个问题,就是每一个表格我们都访问两次。有没有更好的方法呢? 使用NATURAL FULL JOIN 我们可以使用下面的语句来实现: 这时候的返回值是这样的: 为什么呢,因为NATURAL FULL JOIN其实是使用相同的列值就行join的,这里我们两个表各产生了一个新的列t1和t2,在相同值的行,t1和t2列的值就会都存在,而在不同值的行,则只会有一列存在,可能是t1列或者有可能是t2列。我们只要把这种情况过滤出来就可以了。 这里需要注意的是,当值是NULL的时候,判断的时候会遵循下面这个表格: 这里我们可以看到R IS NULL和NOT R IS NOT NULL其实是不同的,所以我们上面提到的natural full join其实等同于下面这样: 另外一种写法是我们使用JOIN …...