Why openLooKeng?

跨数据中心数据分析

统一的SQL接口访问跨数据中心、跨云的数据源

极简的跨源数据分析体验

统一的SQL接口访问多种数据源

易扩展数据源

可以通过增加Connector来增加数据源

采集变连接、数据零搬迁

openLooKeng社区活力

贡献者

用户

社区会员

博客

  • openLooKeng Connector 原理

    ufolr | March 11, 2021

    前言 朋友们,如果您已经对 openLooKeng 的整体方案有了解,知道 openLooKeng 有一个Connector 来连接数据源。如果您还想更深入了解 openLooKeng Connector 的实现原理,ufolr 的原创笔记应该能帮到您。 openLooKeng Connector 原理 1 什么是 Connector? 我们知道在整个Presto工程中所有的功能都是以插件的形式实现,而Connector则是一种负责Presto与数据源进行交互的插件,不同的数据库对应于不同的Connector。 1.1 SPI (Service Provider Interface) SPI是JDK内置的服务提供/发现机制,它通过在ClassPath路径下的META-INF/services/目录中定义的文件,自动加载文件里所定义的类。该机制为很多框架的扩展提供了可能,如知名的JDBC就使用了该机制。 SPI 的特点: SPI 文件名为实现Service接口的全限定名 SPI 文件内容为实现该接口的具体文件 使用 ServiceLoader.load(Class class) 动态加载 Service 接口的实现类 如果 SPI 实现的类在外部Jar包中,则需要将该jar包放在当前程序的classpath下 Service 的实现类必须有无参构造方法 1.2 PrestoPlugin (插件) openLooKeng中有一个presto-spi模块,该模块即定义了openLooKeng对外暴露的SPI接口,实现对应的接口即可实现连接器、类型、函数、系统访问控制等的功能。特别的,openLooKeng的插件即实现了Plugin SPI的模块: io.prestosql.spi.Plugin 通过在META-INF/services/io.prestosql.spi.Plugin文件中列出实现io.prestosql.spi.Plugin接口的具体类,即可使该实现通过java内置的ServiceLoader提供给openLooKeng。对于包含在 openLooKeng 源码中的插件,只要在pom.xml中包含<packaging>presto-plugin</packaging> 就会自动创建spi文件。 1.

  • 资蛛侠数据服务平台发布,基于openLooKeng引擎的数据服务平台

    览众科技 | February 1, 2021

    前言: 资助侠数据服务平台以“AI中台,大数据中台、云”为核心,打破业界边界,从多源数据汇聚开始,从管理入手,把握数据规划、设计、生产。 01 超越传统数据整合技术 云技术正在迅速发展并获得广泛采用。如果企业的数据架构既包含本地数据源,又包含云上数据源,则企业可能难以利用云带来的敏捷性和灵活性优势。为了应对这种混合环境,数据虚拟化技术创造了一种跨越云上解决方案和本地解决方案的混合数据结构。不仅如此,数据虚拟化技术还提供了统一数据访问能力。 另外,传统的数据问题在于,没有人能够轻松地查询所有可用数据,这些单独存储的数据我们称为数据孤岛。每个数据孤岛都必须单独查询,然后必须手动合并查询结果。该流程不仅耗费大量成本、时间,而且效率低下。为了整合数据,通常企业会采用以下一项或多项数据整合策略: 抽取、转换和加载(ETL):该流程从不同数据孤岛中复制数据,然后将这些数据转移至中央位置(例如,数据仓库) 企业服务总线(ESB):可为应用程序建立通信系统,使其共享信息。 数据虚拟化:该技术为数据孤岛内的数据创建实时整合视图,并且可以把数据提供给应用程序、分析人员和业务用户。 大部分数据整合技术都是先复制数据,然后把数据副本转移到新的合并储备库。相反,数据虚拟化技术无需复制数据,即可提供整合数据的实时视图。 我们采用了开源的openLooKeng作为我们的数据虚拟化引擎,它具有极简的数据分析体验,灵活、可扩展及高可靠的特性。 02 管理数据沼泽 今天对任何企业而言,管理大量数据都充满挑战。不仅是数据的数量,企业还必须管理多种数据类型⸺包括结构化数据、非结构化数据及半结构化数据,并且这些数据类型还来自多个数据源。 这些不同的数据类型必须经常从数据源抽取出来,转换成不同的格式后,加载到消费应用程序上(这一过程被称为“ETL”),然后企业才能使用这些数据类型。ETL 流程往往是脚本化流程或手工流程,需要 IT 部门的协助,以计划分批处理的方式进行,这个过程缺少灵活性,还会带来更多的复杂性和延迟。 03 资蛛侠数据服务介绍 大部分数据整合解决方案都是将数据副本向将要合并数据源迁移,不过数据虚拟化技术却提供了一种完全不同的方法。数据虚拟技术没有移动数据,而是提供一个数据整合视图,让数据保留在原来的位置。企业不必支付数据的移动和存放费用,但却可以获得数据整合带来的优势。 数据虚拟化技术不仅能够实现与传统数据整合技术相同的许多转换和质保功能⸺例如, ETL、数据复制、数据联邦、企业服务总线(ESB)等,而且能够借助现代技术,以较低成本,更加迅速、敏捷地提供实时数据整合。在许多情况下,数据虚拟化技术可以取代传统数据整合技术,并且减少对复制数据集市和数据仓库的需求。 资蛛侠数据服务(以下统称为“产品”)利用数据虚拟化技术,将跨数据源关联查询、数据服务开发、服务审批与发布、上架 API 目录、消费与管理等数据服务全生命周期管理,打通异构数据源的关联和共享,以数据驱动业务的各个环节,快速赋能企业各种应用场景。 产品提供的主要能力如下: 结构化与非结构化数据的语义整合 产品利用数据虚拟化技术,能够将非结构化 Web 数据的语义对接到结构化数据的少数技术之一。统一的 SQL 语义,跨源跨结构的访问和整合企业内数据。 敏捷的数据服务开通 产品提高了 API 的经济性。无论是原始数据源,还是衍生、整合或虚拟的数据源,都可通过统一的协议进行访问,并且能够在几分钟内即可实现受控访问。 消除不必要的数据移动 有了我们数据服务产品,就无需再为报告取数目的进行数据复制,也不必再重写 ETL 脚本。产品基于企业现有的数据和应用架构进行操作,并且配置方式完全相同。 完整的数据沿袭和敏捷的业务规则 在任何时间点,公司都可以了解和报告任何敏感数据集的完整数据沿袭,包括其原始来源,所有视图和修改。另外,系统运转的情况下设置数据屏蔽,以免相关数据被缺少必要凭证的用户查看。由于这些规则设置在平台中,因此可以在不同类型的系统之间快速有效地应用它们。 数据服务全生命周期管理 数据服务的生命周期包括接入数据源、可见呈现、分析探索、分享、监控保护、消亡等状态。整个过程系统支持自动的监控管理及版本历史的记录保存,同时对全生命周期的数据服务状态流转过程支持流程审批管理。 特别地,三方API注册到系统中,和系统创建的API一样,同样享受异常告警的待遇。 04 结语 资蛛侠数据服务 与传统的抽取、转换和加载(ETL)流程相比,产品落地后技术所需的开发人员要少得多。相对于每4名 ETL 开发人员工作量,您只需要一名数据虚拟化技术开发人员即可。不仅如此,它还能为用户带来: 维护成本低于传统整合工具: 多次的物理复制、转移和存储数据成本高昂。数据虚拟化技术创建了虚拟数据层,从而消除了数据的复制需要和存储成本。 加快了数据管理速度: 传统数据整合办法等上几个小时、甚至几天才能获得结果,而数据虚拟化技术却可以实时提供。 超越了数据联邦: 数据虚拟化技术是数据联邦技术的超集。其中不仅包括高级性能优化能力,还包括自助服务搜索和发现能力。 补充传统数据仓库技术: 数据虚拟化技术与传统的数据仓库工具并驾齐驱,互为补充。 openLooKeng在览众资蛛侠数据服务平台的价值: 提供统一的SQL接口跨库访问多种数据源

更多...

新闻

  • openLooKeng v1.2.0 正式发布

    openLooKeng | March 31, 2021

    暖春3月,openLooKeng迎来了新版本V1.2.0。新版本中增强了哪些性能?又新增了哪些技术?最全解析在这里

  • 优秀!2020 CCF BDCI大赛结果出炉,openLooKeng赛题3支队伍登榜

    openLooKeng | January 24, 2021

    2020 CCF BDCI大赛日前落下了帷幕。openLooKeng非常荣幸参与到这场极具影响力的行业盛会中,并贡献了赛题「openLooKeng性能优化」。该赛题任务吸引了632支队伍,658人参加。历经3个多月的激烈角逐,单赛题奖项中,参与openLooKeng赛题的3支队伍脱颖而出,荣获本场竞赛的一、二等奖。

更多...