HTAP Related Papers Need to Read.

The list referenced papers are listed from. 《Hybrid Transactional/Analytical Processing: A Survey.》, from IBM Research.

[1] Apache Parquet. https://parquet.apache.org/.
[2] R. Appuswarmy, M. Karpathiotakis, D. Porobic, and A. Ailamaki. The Case For Heterogeneous HTAP. In
CIDR, 2017.
[3] M. Armbrust, R. S. Xin, C. Lian, Y. Huai, D. Liu,J. K. Bradley, X. Meng, T. Kaftan, M. J. Franklin,
A. Ghodsi, and M. Zaharia. Spark SQL: Relational Data Processing in Spark. In SIGMOD, pages 1383–1394, 2015.
[4] J. Arulraj, A. Pavlo, and P. Menon. Bridging the Archipelago Between Row-Stores and Column-Stores for Hybrid Workloads. In SIGMOD, pages 583–598, 2016.
[5] R. Barber, C. Garcia-Arellano, R. Grosman, R. Mueller, V. Raman, R. Sidle, M. Spilchen, A. Storm, Y. Tian, P. T¨ozun, D. Zilio, M. Huras, ¨
G. Lohman, C. Mohan, F. Ozcan, and H. Pirahesh. ¨Evolving Databases for New-Gen Big Data Applications. In CIDR, 2017.
[6] A. Boehm, J. Dittrich, N. Mukherjee, I. Pandis, and R. Sen. Operational analytics data management systems. PVLDB, 9:1601–1604, 2016.
[7] P. Boncz, M. Zukowski, and N. Nes. MonetDB/X100: Hyper-Pipelining Query Execution. In CIDR, 2005.
[8] Apache Cassandra. http://cassandra.apache.org.
[9] A. Costea, A. Ionescu, B. R˘aducanu, M. Switakowski, C. Bˆarca, J. Sompolski, A. Luszczak, M. Szafra´nski, G. de Nijs, and P. Boncz. Vectorh: Taking
sql-on-hadoop to the next level. In SIGMOD ’16, pages 1105–1117, 2016.
[10] Danial Abadi and Shivnath Babu and Fatma Ozcan ¨ and Ippokratis Pandis. Tutorial: SQL-on-Hadoop Systems. PVLDB, 8, 2015.
[11] IBM dashDB. http://www.ibm.com/analytics/us/en/technology/cloud-data-services/dashdb.
[12] DataStax Spark Cassandra Connector. https://github.com/datastax/spark-cassandra-connector.
[13] C. Diaconu, C. Freedman, E. Ismert, P.-˚A. Larson, P. Mittal, R. Stonecipher, N. Verma, and M. Zwilling. Hekaton: SQL Server’s memory-optimized OLTP
engine. In SIGMOD, pages 1243–1254, 2013.
[14] F. F¨arber, N. May, W. Lehner, P. Große, I. Muller, ¨ H. Rauhe, and J. Dees. The SAP HANA Database –An Architecture Overview. IEEE DEBull,35(1):28–33, 2012.
[15] S. Gray, F. Ozcan, H. Pereyra, B. van der Linden, and ¨A. Zubiri. IBM Big SQL 3.0: SQL-on-Hadoop without compromise. http://public.dhe.ibm.com/common/ssi/
ecm/en/sww14019usen/SWW14019USEN.PDF, 2014.
[16] SAP HANA Vora. http://go.sap.com/product/data-mgmt/hana-vora-hadoop.html.
[17] Apache HBase. https://hbase.apache.org/.
[18] Hive Transactions. http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.0/bk dataintegration/content/hive-013-feature-transactions.html.[19] A. Kemper and T. Neumann. HyPer – A Hybrid OLTP&OLAP Main Memory Database System Based on Virtual Memory Snapshots. In ICDE, pages 195–206, 2011.
[20] M. Kornacker, A. Behm, V. Bittorf, T. Bobrovytsky,C. Ching, A. Choi, J. Erickson, M. Grund, D. Hecht, M. Jacobs, I. Joshi, L. Kuff, D. Kumar, A. Leblang,
N. Li, I. Pandis, H. Robinson, D. Rorke, S. Rus, J. Russell, D. Tsirogiannis, S. Wanderman-Milne, and M. Yoder. Impala: A modern, open-source SQL engine for Hadoop. In CIDR, 2015.
[21] Apache Kudu. https://kudu.apache.org/.
[22] T. Lahiri, M.-A. Neimat, and S. Folkman. Oracle TimesTen: An In-Memory Database for Enterprise Applications. IEEE DEBull, 36(3):6{13, 2013.
[23] A. Lamb, M. Fuller, R. Varadarajan, N. Tran, B. Vandiver, L. Doshi, and C. Bear. The Vertica Analytic Database: C-store 7 Years Later. PVLDB, 5(12):1790{1801, 2012.
[24] MemSQL. http://www.memsql.com/.
[25] C. Mohan. History Repeats Itself: Sensible and NonsenSQL Aspects of the NoSQL Hoopla. In EDBT, 2013.
[26] B. Mozafari, J. Ramnarayan, S. Menon, Y. Mahajan, S. Chakraborty, H. Bhanawat, and K. Bachhav.SnappyData: A Unified Cluster for Streaming, Transactions and Interactice Analytics. In CIDR, 2017.
[27] Apache ORC. https://orc.apache.org/.
[28] A. Pavlo, J. Arulraj, L. Ma, P. Menon, T. C. Mowry, M. Perron, A. Tomasic, D. V. Aken, Z. Wang, and T. Zhang. Self-Driving Database Management
Systems. In CIDR, 2017.
[29] Apache Phoenix. http://phoenix.apache.org.
[30] V. Raman, G. Attaluri, R. Barber, N. Chainani, D. Kalmuk, V. KulandaiSamy, J. Leenstra, S. Lightstone, S. Liu, G. M. Lohman, T. Malkemus,
R. Mueller, I. Pandis, B. Schiefer, D. Sharpe, R. Sidle, A. Storm, and L. Zhang. DB2 with BLU Acceleration: So Much More than Just a Column Store. PVLDB, 6:1080{1091, 2013.
[31] RocksDB. http://rocksdb.org/.
[32] Roshan Sumbaly and others. Serving large-scale batch computed data with project Voldemort. In Proc. of the 10th USENIX conference on File and Storage Technologies, 2012.
[33] Splice Machine. http://www.splicemachine.com/.
[34] M. Stonebraker and U. Cetintemel. “One Size Fits All”: An Idea Whose Time Has Come and Gone. In ICDE, pages 2{11, 2005.
[35] M. Stonebraker and A. Weisberg. The VoltDB Main
Memory DBMS. IEEE Data Eng. Bull., 36(2):21{27, 2013.
[36] A. Thusoo, J. S. Sarma, N. Jain, Z. Shao, P. Chakka, N. Zhang, S. Anthony, H. Liu, and R. Murthy. Hive –
A Petabyte Scale Data Warehouse Using Hadoop. In ICDE, 2010.
[37] S. Tu, W. Zheng, E. Kohler, B. Liskov, and S. Madden. Speedy Transactions in Multicore In-memory Databases. In SOSP, pages 18{32, 2013.
[38] Z. Zhang. Spark-on-HBase: Dataframe Based HBase Connector. http://hortonworks.com/blog/spark-hbase-dataframe-based-hbase-connector.

关于查询引擎的一点随想

第二本书的主要内容的设计构想:
《查询优化,查询引擎设计与实现》
《查询处理(引擎)概念与技术》(理想的情况)
本书的主要内容:
由于现在的相关书籍对于查询引擎的所涉及到的理论基础均未有一个深入而系统的讨论。例如:我们在处理子链接的时候(将其转为semi-join或者anti-semi-join)的理论基础;(2)子查询的处理的理论基础;查询访问空间的优化理论,最优访问路径的寻优;查询计划的优化;统计信息的计算的理论基础。 相关索引的优化。
<各个基础性的论文>,例如: 查询优化的PD方法的的理论基础;统计信息的理论基础;
sublink处理的理解基础。join-order的选择的理论基础。
查询优化所涉及到的技术与发展方向:
(1)查询引擎架构方面的变化;
(2)in-memory系统的引入;
(3)新索引方式的引入;
(4)新优化理论的介绍;
(5)查询计划的设计方面的新特性;
(6)执行策略的变化;
(7)各种其他方面的优化策略;hash table中对于hash函数的设计对性能的影响;
,SIMD执行对于执行效率;JIT,LLVM;GPU架构的影响;
在相关的查询引擎的工程化中。执行引擎的相关实现。在工程化的过程中,我们主要讨论在查询引擎及执行引擎在工程化的过程中所涉及到相关工程化的问题。 例如:在执行引擎的实现过程中,我们对于各类join的在工程上的实现策略。及多线程化的执行引擎的问题。 JIT在查询引擎及执行引擎中的使用。
type 与domain的等价关系。
类型体系, domain及其在数据库中的实现机制。涉及到类型的检查以及类型的强制转换。
Codd E F. A Relational Mode for Large Shared Data banks 1970在该论文中 Codd 和 Pirotte证明了关系代数,安全的元祖关系演算,安全的元组关系演算是等价的。
当时由于内存的关系,在数据库的查询执行的实现过程中,我们是有了流水线的方式来执行。 但是随着现在系统能力的增强,我们也可以使用batch的方式,在每一次的处理中。
12条 codd的数据库设计原则:
(1)信息准则:每条信息都必须保证在磁盘中的某个表中的某个列上。
(2)确保访问原则;
(3)空值准则;系统应该提供NULL值得处理能力。
(4)基于关系模型的动态联机目录;无论是永恒数据还是系统中的元数据,都可以通过相应的接口来进行访问。
(5)全面的数据子语音准则。提供一套完备的数据库操作语音。
(6)视图的更新准则;
(7)高级的插入删除,修改等等操作。
(8)物理数据的独立性;
(9)逻辑数据的独立性;
(10)完整的独立性;
(11)分布独立性;
(12)无损害准则;
关系代数—》元组关系演算—》域关系演算—》关系代数。而这三种是等价的,这构成了数据库查询理论基础。
五个必要的运算:并,差,串接,投影,选择这个五个必要的演算。
多值依赖自能反应两个关系的无损连接情况。(两个表的连接操作)。
连接的依赖。join dependency. 关系模式中属性间连接语义的函数关系。 Rissanen 1978年引入。
代数优化:
将子查询和子连接进行公式化表示:
子查询: 投影(:选择:) 这样一个形式; 而子连接则是一个条件化的投影和条件化的选择。 即 子连接最后的输出结果不能够产生NULL,如果是产生NULL的话则对于整个查询优化的转换导致一个错误的结果,有可能在底层的查询条件其会产生某些NULL元组的存在。这样会导致在优化后的语义上的不等价关系的产生。
(满足一个什么样的条件放能够使的该子查询或者子链接能够进行上提操作??????)这个如果能够给出一个相对严格的数学定义,那就相当厉害了。
涉及到相关子查询,非相关子查询。对于子查询优化是否具有很高的性价比。或者在优化上的准则。
——————————————————
这里可以将这部分模块改成,做出一个基于规则描述的系统,类似于lex/yacc这样,来提供cost-estimation这样的。
这样讲将这部模块独立出来。其底层也可以兼容不同的存储引擎。
例如:matlab中所提供的公式一样。解析公式(script 方式)。
这样我们就可以方便的修改cost est公式。 但这带来一个问题,会是的查询执行时间变长。
——————————————————