前言
默认情况下,Spark可以将一个作业切分多个任务后,发送给Executor节点并行计算,而能够并行计算的任务数量我们称之为并行度。这个数量可以在构建RDD时指定。注意:这里的并行执行的任务数量,并不是指的切分任务的数量。
Spark分区的目的是为了并行计算,因为一个分区就是...
2年前 (2022-10-27) 2702℃
0喜欢
前言
Spark的部署方式虽然有多种模式,如:本地local、Standalone、Apache Mesos、Hadoop YARN等,但是大家90%以上的场景用的都是spark on yarn的模式。
Spark on yarn运行分两种模式:1.Yarn-Cluster模式;...
2年前 (2022-10-27) 1867℃
1喜欢
什么是XA?
XA 规范 是 X/Open 组织定义的分布式事务处理(DTP,Distributed Transaction Processing) 标准。
典型的二段式事务解决方案
在 Seata 定义的分布式事务框架内,利⽤事务资源(数据库、消息服务等)对 XA 协议的⽀...
2年前 (2022-10-23) 4057℃
4喜欢
TCC 介绍
TCC属于2阶段分布式事务
TCC是Try-尝试、Confirm-确认、Cancel-取消
Try:尝试阶段,对资源进行锁定
Confirm:确认阶段,对资源进行确认,完成操作
Cancel:取消阶段,对资源进行还原,取消操作
案例介绍
假设我们的产品有两个服务...
2年前 (2022-10-23) 1493℃
1喜欢
什么是分布式事务
分布式事务指事务的参与者、支持事务的服务器、资源服务器以及事务管理器分别位于不同的分布式系统的不同节点之上。简单的说,就是一次大的操作由不同的小操作组成,这些小的操作分布在不同的服务器上,且属于不同的应用,分布式事务需要保证这些小操作要么全部成功,要么全部失败。...
2年前 (2022-10-23) 2612℃
3喜欢
什么是分布式事务
分布式事务指事务的参与者、支持事务的服务器、资源服务器以及事务管理器分别位于不同的分布式系统的不同节点之上。简单的说,就是一次大的操作由不同的小操作组成,这些小的操作分布在不同的服务器上,且属于不同的应用,分布式事务需要保证这些小操作要么全部成功,要么全部失败。...
2年前 (2022-10-23) 1768℃
2喜欢
介绍
在很多场景下,需要去换数据的存储介质,比如需要把mysql的数据换到ES存储,或者是吧Mongodb数据换到 Mysql存储,基本上每个运维都会碰到这种存储迁移的情况。
因为是异构数据库迁移,在生产环境可以申请到维护窗口进行迁移还好,要是不能停业务,需要平滑无缝的迁移应该怎...
2年前 (2022-10-20) 381℃
1喜欢
对象的实例化
对象创建的方式
1、new:最常见的方式、单例类中调用getInstance的静态类方法,XXXFactory的静态方法
2、Class的newInstance方法:在JDK9里面被标记为过时的方法,因为只能调用空参构造器,并且权限必须为 public
3、Cons...
2年前 (2022-10-20) 903℃
1喜欢
概述
我们希望能描述这样一类对象:当内存空间还足够时,则能保留在内存中;如果内存空间在进行垃圾收集后还是很紧张,则可以抛弃这些对象。
针对这个需求在JDK1.2版之后,Java对引用的概念进行了扩充,将引用分为:
强引用(Strong Reference)
软引用(Soft R...
2年前 (2022-10-20) 1021℃
1喜欢
介绍
本文主要介绍ES分布式的一些原理,了解一个文档的写入、提取、搜索在ES里面做了哪些事情。
文档写入流程
我们首先了解在ES集群中,一个单独的文档是如何写入的。
1、客户端发送任何一个请求到任意一个节点,这个节点就成为协调节点 (coordinate node)
2、协调...
2年前 (2022-10-20) 1214℃
2喜欢