软考:大数据架构设计

news/2024/11/3 3:06:42 标签: 软考

大数据总结

大数据处理系统的特征

1、鲁棒性和容错性
2、低延迟读取和更新能力
3、横向扩容
4、通用性
5、延展性
6、即席查询能力
7、最少维护能力
8、可调试性

Lambda架构

批处理层

存储数据集和生成Batch View
管理主数据集,原始的,不可变的,真实的

在大数据架构设计中,批处理层是Lambda架构的核心组成部分之一,其主要功能和特点如下:

  1. 存储管理主数据集:批处理层负责存储不可变的数据集预先批处理计算好的视图。这意味着它处理的是历史数据,确保数据的完整性和准确性

  2. 预先计算结果:批处理层使用分布式处理系统预先计算结果,通过处理所有的历史数据来实现数据的准确性。这通常涉及到大规模的数据集,需要强大的计算能力。

  3. 数据准确性:由于批处理层基于完整的数据集重新计算,它能够修复任何错误,并更新现有的数据视图。这保证了数据的准确性和可靠性。

  4. 输出存储:批处理层的输出通常存储在只读数据库中,更新则完全取代现有的预先计算好的视图。

  5. 使用技术:批处理层可以用Hadoop、Spark和Flink等框架进行计算。这些框架能够处理大规模数据集,并提供强大的数据处理能力。

  6. 与实时数据处理的结合:在Lambda架构中,批处理层与速度处理层(Speed Layer)相结合,以提供实时和历史数据的查询服务。速度层处理实时数据,而批处理层处理历史数据,两者的结合为用户提供了全面的数据视图。

  7. 数据冗余:虽然批处理层提供了数据的准确性,但也带来了数据冗余的问题,因为同样的数据可能在批处理层和速度层都被处理。

综上所述,批处理层在大数据架构中扮演着至关重要的角色,它通过处理历史数据来保证数据的完整性和准确性,同时与实时数据处理层相结合,为用户提供全面的数据分析服务。

加速层

建立索引,能快速查询,存储实时试图并处理传入的数据流,以便更新这些视图。
加速层相当于就是加速计算,只处理增量的数据集。

分层计算的特点:
1、容错性,就是在加速层可能出现的错误,可用在批处理层进行修正
2、复杂性隔离,将复杂的实时处理隔离出来,提高整个系统的鲁棒行和可靠性
3、横向扩容,支持线性可扩展

服务层

用来响应用户的查询请求。

具体实现

Hadoop用来存储主数据集
Spark构成加速层
Hbase作为服务层
Hive创建可查询的视图

Kappa架构

数据系统=数据+查询
数据的特性:When,What,也就是记录数据的版本
数据的存储:Lambda,数据是不可变的,不可变只需要在后面追加数据即可,

采用了重新处理事件的原则,有能力在业务逻辑更新的情况下重新处理以前处理过的历史数据

删除了Batch Layer的架构。数据通道已消息队列进行替代。

lambda和kappa架构的对比

Lambda架构和Kappa架构是两种不同的大数据架构,它们各自有不同的特点和适用场景。以下是它们的对比:

  1. 架构复杂性与维护

    • Lambda架构:包含批处理层和速度层,需要维护两套系统,这可能导致维护和管理上的复杂性增加。
    • Kappa架构:通过消除批处理层,简化了架构,减少了维护的复杂性。
  2. 实时性与历史数据处理

    • Lambda架构:适合需要历史数据分析的场景,通过批处理层可以处理历史数据。
    • Kappa架构:更侧重于实时数据处理,适合对实时性要求极高的应用。
  3. 容错性与一致性

    • Lambda架构:批处理层提供了强大的容错性和数据一致性保证,适合对数据准确性要求极高的场景。
    • Kappa架构:依赖于流处理层的容错机制,可能在某些场景下需要额外的措施来确保数据一致性。
  4. 技术适应性

    • Lambda架构:由于其成熟的技术生态,可能更容易找到经验丰富的技术人员。
    • Kappa架构:可能需要团队适应新的流处理技术。
  5. 数据冗余与存储成本

    • Lambda架构:为实现不可变的数据需要存储原始数据,数据的不断追加会带来很大的存储成本。
    • Kappa架构:通过重新处理历史数据改进逻辑算法,可以减少数据冗余和存储成本。
  6. 开发和维护成本

    • Lambda架构:批处理层和速度层采用两套不同的技术方案,开发和维护成本都比较大。
    • Kappa架构:只需要维护实时处理模块,可以降低开发和维护成本。
  7. 适用场景

    • Lambda架构:因其优秀的稳定性和容错性,仍被应用在众多场景中,适合需要稳健机器学习模型的场景。
    • Kappa架构:适用于需要高实时性和灵活性的业务逻辑。

总的来说,Lambda架构适合需要同时处理实时和历史数据的场景,而Kappa架构则更适合对实时性要求高、历史数据处理需求相对较低的场景。选择哪种架构取决于具体的业务需求、数据处理的特点以及团队的技术能力。


http://www.niftyadmin.cn/n/5735920.html

相关文章

C++教程(004):程序流程结构之选择结构

4 程序流程结构 C/C++支持最基本的三种程序运行结构:顺序结构、选择结构、循环结构。 顺序结构:程序按顺序执行,不发生跳转。选择结构:程序依据条件是否满足,有选择地执行相应功能。循环结构:程序依据条件是否满足,循环多次执行某段代码。4.1 选择结构 4.1.1 if语句 …

matlab图像处理(1)

注意: 读取图像文件时需若图像不在工程目录文件下,需在代码中表明其其他路径的具体位置及名称

Spring Boot与gRPC的整合

一、gRPC的介绍 在gRPC中,客户机应用程序可以直接调用不同机器上的服务器应用程序上的方法,就像它是本地对象一样,使您更容易创建分布式应用程序和服务。与许多RPC系统一样,gRPC基于定义服务的思想,指定可以远程调用的…

因为Flock,Flutter又凉一次

哈喽,我是老刘 本来不想写这篇文章的,因为有人已经讲过了,但是问的人有点多,就还是写一下吧。 我使用Flutter开发App已经6年多了,刚开始的时候Flutter流行度还不高,很多人还不知道,也不会经常…

Learn QOpenGL 读取obj模型

/* ** File name: OpenGLModelWidget.h ** Author: ** Date: 2024-10-31 ** Brief: 读取模型文件并渲染的OpenGL控件 ** Copyright (C) 1392019713@qq.com All rights reserved. */#ifndef OpenGLModelWidget_H #define OpenGLModelWidget_H#includ…

项目模块十二:TcpServer模块

一、模块设计思路 1、目的 对所有模块整合,实现一个服务器模块供外部快速搭建服务器。 2、管理 监听套接字 主 Reactor,创建 EventLoop _baseloop 对象,进行对监听套接字的管理 哈希表管理所有新连接的 Channel 创建线程池进行连接的事…

掌握ElasticSearch(七):相关性评分

文章目录 一、Elasticsearch的打分机制1.TF-IDFTF-IDF 概述基本公式示例 2.BM25BM25 概述配置参数 二、boosting调整打分1. match 查询2. multi_match 查询3. bool 查询4. boosting 查询5.动态 Boosting 三、Elasticsearch的查询再打分策略查询阶段(Query Phase&…

iOS用rime且导入自制输入方案

iPhone 16 的 cantonese 只能打传统汉字,没有繁简转换,m d sh d。考虑用「仓」输入法 [1] 使用 Rime 打字,且希望导入自制方案 [2]。 仓输入法有几种导入方案的方法,见 [3],此处记录 wifi 上传法。准备工作&#xff1…