东哥IT笔记 Blog

0

Kafka进阶之物理存储

我们都知道Kafka数据是可以持久化保存在磁盘上的,它在磁盘上最基本的存储单元是一个partition的replica,我们可以通过log.dirs参数来决定partition保存的文件目录,本文就来详细和大家聊聊Kafka是怎样使用这个目录保存文件的。 Partition的分配 当我们创建一个topic的时候,Kafka首先要做的事情就是如何为对应的partition分配空间。我们假设你的topic有10个partitions,每个partition有3个replication,然后总共有6个brokers。这也就意味着我们需要在6个brokers中申请30个partition replicas。一般来说,我们会遵循下面这些规则来进行分配: 让replica在broker中尽可能均匀地分布,比如我们的例子会希望每个broker有5个replica。...

群聊系统的架构设计 0

群聊系统的架构设计

今天我们很高兴请到了Shijie Zhong来为我们讲解《群聊系统的架构设计》,相关总结如下: Slides Shijie使用的Slides。 Q&A...

1

ElasticSearch进阶之拼写错误

我们在搜索时经常会出现拼写错误的情况,那ElasticSearch有没有什么可以处理这个问题的技术呢?本文就来介绍两种方法,一种是查询时候的模糊匹配(Fuzzy matching)。另一种是index时候的语音匹配(sounds-like matching/Phonetic Matching)。 模糊匹配概述...

0

Kafka进阶之请求处理流程介绍

我们知道Kafka的Client端可以发送各种请求给Broker,Broker在收到请求之后会进行相应的处理,然后返回response给对应的client,本文就来详细地聊一聊这个请求处理的过程。 概述 如我们上面提到,Client端会建立连接,然后发送request到broker,broker会进行处理再返回response到client。这里最基本的一个保证就是同一个client的不同request的处理是有序的,即先收到先处理。 整个请求的处理流程如下图所示: 简单来说,在broker中,当连接建立之后,会有一个Network的thread专门来接收从这个连接(client)发送过来的请求,当它收到请求之后,会把这个请求放到Request...

圣诞欢乐读书节暨系统设计开荒小分队年终总结 0

圣诞欢乐读书节暨系统设计开荒小分队年终总结

今晚我们进行了欢乐的圣诞带书节和小分队年终总结,感谢推荐书籍的Charles,老罗,David,Wilbur,Derrick,Bo,Neal_KZDS。相关内容整理如下: 晓东使用的slides。 推荐书本的文档link。 David分享的notion链接。 防止notion链接被墙,感谢Charles的截图,如下所示:...

0

Kafka进阶之Replication

Replication这个词相信大家都不会陌生,在很多分布式系统中,我们都需要Replication来保证Availability和Durability,Kafka也不例外,它也是利用Replication来保证某个节点发生问题的时候仍然能够保证数据不丢失并正常工作。本文就来详细聊一聊Kafka中的Replication。 概念 我们在前面提过Kafka的数据是根据topic来组织的,每个topic可以有很多个partition,每个partition可以有多个replica。这些replica都保存在brokers上,每个broker可能保存成百上千个replica。总得来说有两种replica: Leader Replica:每个partition只能有一个leader...

0

Slack针对加载时间的重构实践介绍

Slack的前Staff Engineer Bing Wei在2018年的一次讲座中详细介绍了Slack是如何通过重构来进行优化的,本文尝试从笔者理解的角度讲一讲她是如何在slack上进行相应的重构的。 问题简介...

Airflow的流程介绍 0

Airflow的流程介绍

本周我们非常高兴邀请到Xia Wang给我们带来了《Airflow的流程介绍》的讲座,相关内容总结如下: Xia Wang使用的Slides。 这本书讲得很不错《data...

0

2017 gitlab宕机事件回顾

今天大家都在热议AWS down掉的事情,突然想起来了2017年gitlab.com的宕机事件,所以又去回顾了一下当时究竟发生了什么,顺便也根据当时事件的记录整理一个中文版本,其中还是有很多东西值得我们学习的。 事件回顾 这次事件发生在2017年的1月31号,当时gitlab.com整个不能访问,持续时间从17:20 UTC到第二天17:00...