一个封装了Hadoop Client的简单、方便的API,已经在生产环境中经受日千万级别次IO操作的检验。6)支持namenode自动探测实现failover.7)API本身是线程安全的.8)API的参数发生变化对用户使用是透明的,框架内部透明处理, [线程,参数]组合对应着一个文件。
# 其他
Apache Beam 是 Apache 软件基金会越来越多的数据流项目中最新增添的成员,是 Google 在2016年2月份贡献给 Apache 基金会的孵化项目。Apache Beam 的主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam希望基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上。
Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。就像空气质量,水和食品安全等无时不刻地在影响人类的生命一样,数据质量在数据科学领域是至关重要的。ApacheGriffin现在的团队成员全部来自eBay中国卓越技术中心,这又是一个由国人自主研发并贡献出来的开源项目。
OpenMining是由Python编写的商务智能应用服务器,为商务智能中大数据的处理提供了便捷的操作,以此来提高用户挖掘商业情报的效率。
finalintmasterport=8086;finalBigTask<Integer>bigtask=BigTask.create(masterurl);
睿思BI-OLAP系统支持对数据表的OLAP查询,无需编写任何的代码,用户只需要通过语义层的定义就可以轻松搭建自己的多维数据模型并进行数据多维查询及可视化。此项目为JAVA编写的Web项目,下载程序后直接把源码导入eclipse中,配置好Tomcat即可访问
# BI商业智能 # 其他
Weld-Project 用于数据分析应用程序的高性能运行时
# 机器学习/深度学习 # 其他
HPAT 是一个基于编译器的大数据框架,使用 Python 编写。高性能分析工具包是一个基于编译器的框架,用于群集/云环境中的大数据分析和机器学习,既易于使用又非常快速;它比 Apache Spark 等替代品要快。HPAT 自动或半自动并行化执行使用 Numpy 和 pandas 编写的分析任务,并使用 Numba 和 LLVM 生成高效的MPI 代码。这些学术论文描述了 HPAT 的基本方法:。HPAT的文档可以在这里找到。
Apache Edgent 是一种编程模型和具有微内核风格的运行时,可嵌入到网关和小型的物联网设备中。Apache Edgent 能用于对来自器材、车辆、系统、应用、设备和传感器的连续数据流进行实时分析。通过与集中式分析系统协同工作,Apache Edgent 可在整个物联网生态系统中提供高效、及时的分析:从中心到边缘。在边缘端进行分析有以下好处:。请注意,Apache Edgent 目前还处于 Apache 基金会的孵化项目阶段。
Laxcus 是一个多集群多用户多任务通用数据管理系统,支持百万级计算机节点,提供 EB 级可计算数据的存储和计算能力,综合云管理、大数据、数据库、中间件、容器五个领域的技术和功能,集运行、开发、调试、部署、维护为一体的平台。Laxcus 为全体系全功能设计开发,采用 Java、C++ 语言编写,运行在普通硬件设备上,操作系统涵盖 Linux/Windows ,硬件平台包括 X86、ARM、POWER PC、NVIDIA 。产品100%自主知识产权,遵循 LGPL 协议开放源代码。当前最新版本是 Laxcu
Apache Fluo 是 Google Percolator的开源实现,允许用户对存储在 Apache Accumulo 中的大型数据集进行增量更新,而无需重新处理所有的数据。与批处理和流处理框架不同的是,Fluo 提供了更低的延迟,并且可以在极大的数据集上运行。在将新数据与现有数据相结合时,与批处理框架相比,Fluo 可明显减少延迟。其增量更新是使用事务实现的,允许数千个更新同时发生而不会破坏数据。Fluo 已于 2017 年 7 月孵化成功,毕业成为Apache 顶级项目。
MetacatMetacat 是一个联合的元数据API 服务,可以访问Hive、RDS、Teradata、Redshift、S3 和 Cassandra。Metacat 为您提供您所拥有的数据信息,包括位于何处以及如何处理。元数据说到底实际上还是关于数据的数据,所以 Metacat 的主要目的其实是给出一个地方来描述数据,以便我们可以用它做更多有用的事情。
SpinalTap —— 通用可靠的变更数据捕获服务SpinalTap 是一种可扩展、高性能、可靠、无损的变更数据捕获服务,能够检测跨不同数据源类型的低延迟的数据突变,并将它们作为标准化事件传播给下游的消费者。SpinalTap 已经成为 Airbnb 基础架构和衍生数据处理平台中不可或缺一部分,几个关键应用流水线都依赖于此。变更数据捕获是一种设计模式,可以捕获数据更改并通知参与者,以便他们做出相应的反应。这遵循发布—订阅模型,其中数据集的更改是关键。
Moonbox是一个DVtaaS平台解决方案。Moonbox基于数据虚拟化设计思想,致力于提供批量计算服务解决方案。Moonbox负责屏蔽底层数据源的物理和使用细节,为用户带来虚拟数据库般使用体验,用户只需通过统一SQL语言,即可透明实现跨异构数据系统混算和写出。此外Moonbox还提供数据服务、数据管理、数据工具、数据开发等基础支持,可支撑更加敏捷和灵活的数据应用架构和逻辑数仓实践。另外数据开发人员也面临着业务频繁变更和结果快速交付的问题。
# 其他 # 其他开源
Nextjournal是一款多语言 notebook,从头开始设计,使复杂的数据科学无痛。允许用户灵活地使用Bash、Python、R、Julia或Clojure进行编码,而且可以创建包含多个运行时的notebook。另外,Nextjournal还集成了Colab目前不提供的数据、内容和计算环境的自动版本控制。而且项目支持多人协作、notebook历史等功能。可以说是一个不仅功能强大,而且颜值超能打的神仙notebook在线发布平台了。
# 编程语言 # 其他
Jupyter Notebook 是一个基于 Web 的交互式计算笔记本环境。Jupyter Notebook 允许用户创建和共享各种内容,包括实时代码、方程式、可视化和叙述文本的文档。支持 40 多种编程语言,包括 Python、R、Julia 和 Scala。可以使用电子邮件、Dropbox、GitHub 和 Jupyter Notebook Viewer 与他人共享笔记本。编写的代码可以多种丰富的形式输出:HTML、图像、视频、LaTeX 和自定义 MIME。
# 其他 # 文档/文本编辑 # 科研计算工具 # 数学计算
TensorFlow on YARN 是一个构建在 Hadoop YARN 上的 TensorFlow 框架。此原生连接器与其他 TonY 功能一起,旨在可靠,灵活地运行 TensorFlow 训练。TonY 主要包含三个要素:Client、ApplicationMaster 和 TaskExecutor。运行 TonY 作业的端到端处理过程如下:。用户向 Client 提交TensorFlow 模型训练代码、参数及其 Python 虚拟环境。AM 与 YARN 基于用户资源请求的资源管理进行资源协商。一
Crate Data 是一个开源的大规模的可伸缩的数据存储系统,无需任何系统管理需求。提供强大的搜索功能。用于存储各种表格数据、非结构化数据和二进制对象。并可通过 SQL 进行检索。易于安装和使用,支持高可用性和实时大规模并行访问和处理。Crate 特别适合用于 Docker 环境中。
# 数据存储 # 其他 # NoSQL数据库
Rain 旨在降低分布式计算世界的入门门槛,目的是提供一个轻巧而强大的分布式框架,该框架具有直观的 Python API、简单的安装和部署以及顶层的深入监控。任务可以是内置函数,Python/C++/Rust 代码,也可以是外部应用程序,短而轻或长时间运行且繁重。为了安全和高效,Rain 采用 Rust 编写,并为 Rain 核心基础架构提供了高级 Python API,甚至支持开箱即用的 Python 任务。
# 其他 # 分布式应用/网格
finndycloud 开源分布式云采集工具化引擎
# 网络爬虫 # 其他
安科网(Ancii),中国第一极客网
Copyright © 2013 - 2019 Ancii.com
京ICP备18063983号-5 京公网安备11010802014868号