发言幻灯片和视频
活动结束后幻灯片和视频会在这里给出,不过需要一点时间逐一落实讲师的授权以及视频编辑工作。请随时回来查看。
 
我们足够好了吗?重新思考服务质量
Theo Schlossnagle(OmniTI/Circonus)
演讲幻灯片:PDF

组织规模越大测量服务质量要求的技术就越复杂。多年来我们已经认识到对于Web来讲“慢就是宕机”。一方面把重点都放在宕机测试和性能测试上,另一方面我们的方法还是老旧和过时的,仍然和上世纪90年代一样定义服务水平目标。讲话中我会讨论我们做的事情以及为什么还不够好,也会围绕如何分析性能来理解服务质量提出更全面的思考。


搜索引擎性能优化的未来——搜索极速浏览框架
陶清乾(百度)
演讲幻灯片:PDF

随着移动互联网技术发展与H5技术的不断革新,移动搜索Web前端的架构也不断变化。搜索从只聚焦用户在搜索结果页的体验,变化为同时聚焦用户在搜索中的全流程体验。因此,搜索Web前端架构也需要提供更强大的能力。百度搜索前端极速浏览框架技术,也由此诞生。本主题主要从技术的层面讨论:

  1. 百度搜索前端极速浏览框架要解决的问题和面临的挑战,以及解决方法的探索过程;
  2. 深度剖析搜索前端极速浏览框架的加速原理;
  3. 探讨搜索前端极速浏览框架实现过程中的重难点问题以及解决过程;
  4. 从应用角度,介绍百度搜索前端极速浏览框架与页面加速器(MIP/AMP)如何深度结合。


零点之战——阿里双11技术架构演进之路
丁宇(阿里巴巴集团)
演讲幻灯片:PDF

阿里从09年开始做双11,日交易额从09年的5.9亿涨到15年的912亿,订单创建峰值从400涨到14万每秒,规模增长上百倍,系统的复杂度更是以指数级攀升,面对业界前所未有的挑战,技术团队走上了自主创新的道路,建设了大量高可用性技术产品,经历了几个阶段的技术架构演进。本分享介绍阿里历届双11的技术架构演进和高可用技术产品发展之路,以及双11保障的最佳实践。


打造SRE(运维)和开发团队的健康关系
李虓(LinkedIn)
演讲幻灯片:PDF
很多公司都在建立应用SRE团队以满足业务快速变化及增长的需要。但是由于SRE和Dev团队根本目标的区别,导致这两个团队很容易产生摩擦和冲突从而引发效率下降。在这里我希望通过分享LinkedIn在过去几年中应用SRE团队(Embedded SRE)的一些故事,帮助更多的团队更快的走过这个磨合阶段,实现SRE和开发团队的高效协作。

数据库可靠性工程
Laine Campbell(OrderWithMe)
演讲幻灯片:PDF

这是一个数据库管理新的篇章,重点教授开发人员要关注运维;系统管理员要深入可靠性方面。讲述结合当今IT范例的数据库运维核心概念,包括持续部署和交付、DevOps文化、架构即代码及云/虚拟化环境。

主题本身和时间的原因该议题侧重于广度而不是深度。与会者可以理解概念并且得到一个进一步学习和探究的框架。本议题结束后你将可以对数据库专家如何适应当今可靠性工程趋势有一个更好的理解。

1.数据库可靠性工程概述
  • 网站可靠性工程概述/历史
  • 数据库管理概述/历史
  • 今天的运维DBA
  • 今天的DBRE
2.架构
  • 服务级别管理
  • 观测栈
  • 数据存储剖析
3.构建和部署
  • 架构工程和管理
  • 容量规划和性能
  • 发布工程和变更管理
4.运维核心
  • 数据完整性
  • 灾难预案和业务连续性
  • 紧急事件管理和待命

OceanBase:蚂蚁双十一背后的关系数据库
杨传辉(蚂蚁金服集团)
演讲幻灯片:PDF

双十一已成为现象,而蚂蚁在面对全球最大的海量交易支付压力,背后的关系数据库作为基础设施至关重要。然而,传统关系数据库极度高昂的成本和捉襟见肘的可扩展能力使其无法有效地应对双十一的峰值压力。OceanBase顺势而生,它是阿里巴巴/蚂蚁金服完全自主研发的构架在普通服务器之上的分布式数据库,以很低的成本实现了关系数据库的线性扩展、数据高可用和强一致性。

  • 2014年双十一,OceanBase支撑了10%交易流量;
  • 2015年双十一,OceanBase支撑了全部交易支付流量;
  • 2016年双十一,OceanBase除了支撑全部核心业务流量外,还实现了OceanBase 0.5版本到1.0版本这一具备战略意义的架构升级,整体成本降低到原来的一半以内。

本次报告将和大家分享OceanBase如何在蚂蚁金服落地并伴随双十一不断成长,最终完成从0.5到1.0的华丽转身。


Hulu的React/Redux架构实践
程墨(Hulu)
演讲幻灯片:PDF

Hulu的网站应用最初基于jQuery和Backbone。随着业务进化,前端开发人员众多,原有架构已经难以维持快速迭代开发的需要。于是我们着手构建新的Hulu网站软件架构。我们选择React和Redux,目的不只是提供更可维护的代码,而是提供更高的性能。本议题将分享在大型网站应用中应用React/Redux的心得体会。


滴滴弹性在线存储平台
周充(滴滴)
演讲幻灯片:PDF

滴滴弹性在线存储平台是为适应滴滴业务高速发现的存储需求及大数据应用而专门研发的存储系统(codis/fusion),其特性包括:

  1. 灵活的数据模型,可支持kv存储及schema数据记录存储
  2. 易伸缩,通过简单的集群管理命令可实现在线扩缩容
  3. 高可用,通过多节点副本集可保证99.999%的可用性,数据持久化到磁盘,保证数据不丢失
  4. 大容量、高性能,单节点在存储T级别的数据量时仍能维持很高的读写TPS
  5. 高速数据导入,单节点支持300M/s的数据导入速度

数亿级用户规模下的React native工程实践
雷志兴(百度)
演讲幻灯片:PDF

手机百度,拥有6亿用户的手机搜索客户端。今年年初我们在手机百度中(包括Android+iOS)中集成了React native(下简称RN)来做到免更新升级app。迄今已经完成了多次大版本迭代,并有多个核心功能已经切换至RN框架开发。

在一个拥有如此庞大用户群的app中使用RN,很多细小的问题都会被放大很多倍,加上我们对性能、体验的不懈追求,这给我们带来了巨大的挑战。为了提高加载、动画、运行性能,尤其是Android系统下的性能,在了解RN内部实现机制的同时,我们在框架内部、业务上都做了大量的优化工作。

这次分享将从如下几个部分展开:

  • 为什么选择React native
  • 与现有业务和迭代融合
  • 性能优化实践(Listview、动画、启动速度)
  • React Native的工程价值

希望能让你的业务在选择RN、使用RN、优化RN方面得到一些帮助。


Walle——企业级应用开发模式的探索与创新
沙彦魁(菜鸟网络科技有限公司)
演讲幻灯片:PDF
To B类系统,在菜鸟业务系统中占据了80%的份额。为了能够保证各平台系统拥有良好的用户体验,菜鸟承袭了淘系To C类系统开发的模式,严格的遵循了从产品设计、交互设计、视觉设计、前后端开发到测试验收的产品研发流程,但该研发流程并不完全契合To B类系统的特点:单个系统页面数量具大,但组件场景复用度高。暴露出来的问题是:流程冗长导致沟通成本很高;前端开发招聘难度大,人员稀缺等;最终大大的降低了To B类系统的开发效率。因此,必须探索一种高效的模式,在简化研发流程的同时,又能保持交互、视觉、前端等在研发环节的专业贡献度,同时对于复杂度高、操作频率高的页面,还能保持精细化开发的开放性。Walle前后端协同开发框架,正是我们经过不断讨论和探索,寻求以技术驱动解决问题的产品。

阿里应用运维体系演变
林昊(毕玄)(阿里巴巴)
演讲幻灯片:PDF

阿里的应用运维体系经历了几个不同方向的演变,一定程度也反应了业界在运维这个领域的变化,这个Topic将给大家分享阿里的演变之路,可以看到随着业务发展、规模扩大、业界技术变化的情况下,应用运维这个领域的方向变化和人才体系的变化。


测量服务的可运维性(Measure the operability of your service)
李虓(LinkedIn)
演讲幻灯片:PDF
很多SRE/运维团队在微服务的系统中都需要管理成百上千的独立服务,除了常见的“可靠性”指标外还有另一个”可运维性”指标对运维团队同等重要。这个讲座中我会分享LinkedIn 应用SRE团队对可运维性的思考,以及如何通过给服务打分来提高系统的可维护性。

有状态服务的数据完整性
Laine Campbell(OrderWithMe)
演讲幻灯片:PDF

数据完整性是业务需求的核心功能要求。过去的十年中我们看到分布式数据存储(多元化存储)的爆炸式增长,包括数据存储服务。我们发现需要构建比以往任何时候更全面的解决方案,以确保不能接受的数据丢失不会发生。我们不能预见所有问题,但可以通过构建深入的防御计划提前甄别和削弱问题。

Laine会探讨如何有效在数据生命周期中各关键点规划、构建恢复服务。她会从恢复的核心原则和组件概述开始,然后仔细讨论可能发生和影响数据完整性的常见及重要问题。她建立了有效的工具和流程以确保有效和迅速的恢复,最后讨论从文化上就将恢复纳入所有常规运维活动、运维和开发团队观念的重要性。


高性能MySQL
叶金荣(知数堂培训)
演讲幻灯片:PDF

介绍从硬件到操作系统、MySQL参数选项再到SQL开发设计,如何让MySQL保持高性能。

  1. MySQL性能瓶颈定位分析
    • 确定MySQL层瓶颈
    • 确定系统层瓶颈
    • 确定硬件层瓶颈
  2. 优化MySQL
    • Schema设计优化
    • 索引设计优化
    • SQL查询优化
    • 配置选项优化
    • 高并发优化
  3. 其他优化方案
    • 操作系统优化
    • 硬件优化
    • 其他优化

HBase在滴滴出行各业务场景应用
朱怀宇(滴滴)
演讲幻灯片:PDF

大型的分布式存储在多租户场景下有很多现实的挑战。比如资源合理的分配,风险的管控,成本的控制,高效的监控和运维。本议题将介绍一些HBase在滴滴出行使用的典型的业务场景,并介绍为了提升多租户下HBase可靠性与高效管理的方案。

  1. HBase在滴滴的应用
    • 离线的应用服务
    • 在线实时的应用服务
  2. HBase多租户管理
    • 用户管理系统
    • Regionserver group特性
    • 资源隔离与成本控制

今天谈构建可扩展系统的意义
Theo Schlossnagle(OmniTI/Circonus)
演讲幻灯片:PDF

大家对分布式系统中的创新欢欣鼓舞。这主要是因为在结合了微服务架构的云中单个系统的可靠性已经降低。这也导致一些不愉快的情况。改变是必要的但开发人员经常缺乏应有的重视。本议题中我将讨论新兴市场形势如何积极地去构建分布式系统——我们一直努力去理解、研究并为之提供基础技术的可扩展分布式架构。


网易蜂巢基于kubernetes的公有云运维实践
刘超(网易蜂巢)
演讲幻灯片:PDF

业内将容器技术和编排技术用于私有云的方案比较多,即便用于公有云也常常采取独享集群的方式。在实践公有云的过程中,我们发现在多租户,认证鉴权,网络隔离,容器安全,任务调度,集群扩容,监控告警等多方面都有不同于私有云的挑战。

本次分享介绍网易蜂巢在基于kubernetes运维公有云过程中遇到的挑战以及采取的措施和架构改进。


大型分布式系统的devops实战
何学奇(京东)
演讲幻灯片:PDF

主要介绍如何针对复杂的分布式搜索系统,在持续集成的经验和方案。smoke,system, staging,三个测试阶段的衔接和设计的思想,如何应对上百G索引带来的测试效率低下的问题。如何将自动化测试+监控+告警+日志的联合实现持续交付,达到产品的快速迭代。


QQ空间亿级服务Web架构
刁维康(腾讯科技)
演讲幻灯片:PDF

移动时代hybrid app开发最重要的工作之一就是要让用户用得爽。本议题将结合QQ空间Web前端的实践,介绍在hybrid app开发中,如何提升页面的性能和可用性,如何对hybrid app进行监控。

  1. 如何让用户用得更爽
    • 如何让首屏加载更快
    • 如何让资源加载更快
    • 如何让数据请求成功率更高
  2. 如何让监控更完善
    • 服务器端抓包,让定位问题更快捷
    • 服务器端监控,让服务器把问题说出来
    • 用户端监控,把用户侧的问题暴露出来