> 百度智能云

百度数据工厂Pingo

Baidu Data Factory

集成的批量和流式数据处理系统,以统一的接口支持流式、批量作业,提供交互式SQL分析和例行调度,让您更方便编写和提交ETL程序,高效执行大数据计算程序,让大数据处理变得如此简单。

产品概述

Pingo是集成的批量和流式数据处理系统,它在弹性计算资源管理和改进的数据访问管理层之上,运行优化的Spark计算引擎,提供SQL分析和DataFrame API,支持低延时的批量和流式数据加工和处理,对外提供REST Service任务执行接口。

产品功能

ETL

支持SQL及Spark DataFrame API编写ETL程序,支持Java、Python、Scala编写的第三方或者本地代码。

任务调度

支持ETL工作流例行调度,支持按指定周期定时执行作业以及创建依赖作业触发自动执行。

外部数据访问

支持JDBC、ODBC、数据API的方式进行外部数据访问,支持从HDFS、BOS等直接读取数据进行计算。

交互式代码调试

Pingo-Notebook提供了SQL-Kernel,允许用户在Notebook中直接书写SQL进行查询,支持写入多行SQL。

产品优势

自动化的集群管理能力

快速创建新计算集群,支持动态扩容,有效降低成本,提供快速、简单、可扩展的数据计算服务。

多种计算引擎兼容

同时支持批量计算和流式计算,提供SQL计算引擎和Spark Dataframe、Spark Streaming等流行计算框架,且支持Streaming SQL。

多存储后端数据联合查询

提供一个存储资源接入层,不仅自身具备文件的存储能力,还能无缝接入多种外部存储系统,支持BOS、HDFS等存储资源的数据接入Pingo。

多结构化元数据管理

提供自建表和同步表的元数据管理,完善的元数据权限管理功能,保护用户数据不被轻易删除的同时,又能让数据安全执行联合查询。

客户案例

百度糯米

百度糯米

Pingo为百度糯米进行数据分析提供数据集成与数据处理系统,帮助客户实现推荐系统,百度数据工厂为糯米提供了高效的数据处理能力。

千千音乐

千千音乐

千千音乐的应用需求是构建数据仓库与数据分析应用,Pingo帮助其实现了业务数据、客户数据的整合,帮助客户实现了若干数据分析主题,助力其快速构建数据应用。

百信银行

百信银行

Pingo提供的集成批量与流式数据处理平台,帮助客户实现数据易胜博和归类,使之专注于业务数据处理而不需要过多的关注底层技术构建,从而使数据处理更简易、更高效。

度小满金融

度小满金融

Pingo为度小满金融提供的作业调度,帮助用户每日的数据处理程序自动例行运行,作业流依赖自动触发,并自动存储运行结果,减少用户干预程度、提高日常工作效率。