日程表
2016-12-01, 星期四

我们足够好了吗?重新思考服务质量
2016-12-01 09:30 @ 大宴会厅123
Theo Schlossnagle(OmniTI/Circonus)

组织规模越大测量服务质量要求的技术就越复杂。多年来我们已经认识到对于Web来讲“慢就是宕机”。一方面把重点都放在宕机测试和性能测试上,另一方面我们的方法还是老旧和过时的,仍然和上世纪90年代一样定义服务水平目标。讲话中我会讨论我们做的事情以及为什么还不够好,也会围绕如何分析性能来理解服务质量提出更全面的思考。

扩展交互式数据可视化工作
2016-12-01 10:00 @ 大宴会厅123
Jeff Catania(Accenture)

在埃森哲扩展设计意味着通过世界范围的团队为很多行业的众多客户运行大量项目。

埃森哲的数据可视化工作开始于D3.js研究以及开发了一些定制的Web应用。本次讲话我将演示埃森哲如何使用React将数据可视化工作扩展到全球开发人员范围,包括实时运维和数据战略项目。

通过性能管理挖掘产品生命周期潜藏的商业价值
2016-12-01 10:50 @ 大宴会厅123
唐文(高升控股)

全新云时代,商业、技术、社会各层面都在深刻变革。互联网产品越来越多样性、复杂化,全球化、移动化、多终端,海量用户数据和实时性等新特点为改善用户体验带来了更大的挑战,甚至可以毫不夸张的说今天的互联网时代是比历史上任何时期都面临更为严峻的挑战。几乎参与产品的人、事务和资源都会产生性能问题,例如移动、前端、后端、网络、系统、应用、硬件、产品逻辑等,而往往这些不同维度的性能问题会叠加并不断放大。在互联网已经进入到用户体验至上的时代,如何对应用性能进行有效管理和优化,正是本次演讲要为大家分享的内容。

大规模系统平衡性能最佳实践和弹性工程
2016-12-01 10:55 @ 大宴会厅123
Betty Tso(Amazon)

我们已经采用了性能最佳实践很多年。曾经想过如果在大规模真实系统上应用这些原则会有什么不同,尤其是在分布式开发环境中。本议题我会分享来自AmazonUI团队的弹性前端工程案例分析,该集中前端库应用于Amaon.com大多数流量。

#UseThePlatform——Web组件介绍
2016-12-01 11:30 @ 大宴会厅123
Mikhail Sychev(Google/YouTube)
Web总是处在不断变化的状态,原生应用和Web应用之间的差别过去几年里急剧缩小。然而我们还是不得不依赖非常不同的基础技术栈,同时很多现代框架包括React、Angular和Vue都提供了惊人的能力——所有这些都偏离的浏览器本来的工作。幸运的是随着全球范围采用Web组件规范,我们可以重新看待浏览器本身的工作及其对未来Web组件的意义。
搜索引擎性能优化的未来——搜索极速浏览框架
2016-12-01 13:30 @ 大宴会厅1
陶清乾(百度)

随着移动互联网技术发展与H5技术的不断革新,移动搜索Web前端的架构也不断变化。搜索从只聚焦用户在搜索结果页的体验,变化为同时聚焦用户在搜索中的全流程体验。因此,搜索Web前端架构也需要提供更强大的能力。百度搜索前端极速浏览框架技术,也由此诞生。本主题主要从技术的层面讨论:

  1. 百度搜索前端极速浏览框架要解决的问题和面临的挑战,以及解决方法的探索过程;
  2. 深度剖析搜索前端极速浏览框架的加速原理;
  3. 探讨搜索前端极速浏览框架实现过程中的重难点问题以及解决过程;
  4. 从应用角度,介绍百度搜索前端极速浏览框架与页面加速器(MIP/AMP)如何深度结合。

打造SRE(运维)和开发团队的健康关系
2016-12-01 13:30 @ 大宴会厅2
李虓(LinkedIn)
很多公司都在建立应用SRE团队以满足业务快速变化及增长的需要。但是由于SRE和Dev团队根本目标的区别,导致这两个团队很容易产生摩擦和冲突从而引发效率下降。在这里我希望通过分享LinkedIn在过去几年中应用SRE团队(Embedded SRE)的一些故事,帮助更多的团队更快的走过这个磨合阶段,实现SRE和开发团队的高效协作。
零点之战——阿里双11技术架构演进之路
2016-12-01 13:30 @ 大宴会厅3
丁宇(阿里巴巴集团)

阿里从09年开始做双11,日交易额从09年的5.9亿涨到15年的912亿,订单创建峰值从400涨到14万每秒,规模增长上百倍,系统的复杂度更是以指数级攀升,面对业界前所未有的挑战,技术团队走上了自主创新的道路,建设了大量高可用性技术产品,经历了几个阶段的技术架构演进。本分享介绍阿里历届双11的技术架构演进和高可用技术产品发展之路,以及双11保障的最佳实践。

应用性能数据可视化
2016-12-01 14:30 @ 大宴会厅1
朱建锋(mmTrix)

在应用性能管理中,数据是做出各种优化决定的最重要依据。如何从大量的性能数据中分析出问题?如何使用可视化手段表达出性能数据所蕴含的主要信息?如何正确使用图表工具快速分析性能瓶颈?本议题从应用性能管理的各个生命周期阶段出发,与大家一起分享如何利用合适的工具进行应用性能数据的可视化分析。

数据库可靠性工程
2016-12-01 14:30 @ 大宴会厅2
Laine Campbell(OrderWithMe)

这是一个数据库管理新的篇章,重点教授开发人员要关注运维;系统管理员要深入可靠性方面。讲述结合当今IT范例的数据库运维核心概念,包括持续部署和交付、DevOps文化、架构即代码及云/虚拟化环境。

主题本身和时间的原因该议题侧重于广度而不是深度。与会者可以理解概念并且得到一个进一步学习和探究的框架。本议题结束后你将可以对数据库专家如何适应当今可靠性工程趋势有一个更好的理解。

1.数据库可靠性工程概述
  • 网站可靠性工程概述/历史
  • 数据库管理概述/历史
  • 今天的运维DBA
  • 今天的DBRE
2.架构
  • 服务级别管理
  • 观测栈
  • 数据存储剖析
3.构建和部署
  • 架构工程和管理
  • 容量规划和性能
  • 发布工程和变更管理
4.运维核心
  • 数据完整性
  • 灾难预案和业务连续性
  • 紧急事件管理和待命
OceanBase:蚂蚁双十一背后的关系数据库
2016-12-01 14:30 @ 大宴会厅3
杨传辉(蚂蚁金服集团)

双十一已成为现象,而蚂蚁在面对全球最大的海量交易支付压力,背后的关系数据库作为基础设施至关重要。然而,传统关系数据库极度高昂的成本和捉襟见肘的可扩展能力使其无法有效地应对双十一的峰值压力。OceanBase顺势而生,它是阿里巴巴/蚂蚁金服完全自主研发的构架在普通服务器之上的分布式数据库,以很低的成本实现了关系数据库的线性扩展、数据高可用和强一致性。

  • 2014年双十一,OceanBase支撑了10%交易流量;
  • 2015年双十一,OceanBase支撑了全部交易支付流量;
  • 2016年双十一,OceanBase除了支撑全部核心业务流量外,还实现了OceanBase 0.5版本到1.0版本这一具备战略意义的架构升级,整体成本降低到原来的一半以内。

本次报告将和大家分享OceanBase如何在蚂蚁金服落地并伴随双十一不断成长,最终完成从0.5到1.0的华丽转身。

滴滴弹性在线存储平台
2016-12-01 15:50 @ 大宴会厅1
周充(滴滴)

滴滴弹性在线存储平台是为适应滴滴业务高速发现的存储需求及大数据应用而专门研发的存储系统(codis/fusion),其特性包括:

  1. 灵活的数据模型,可支持kv存储及schema数据记录存储
  2. 易伸缩,通过简单的集群管理命令可实现在线扩缩容
  3. 高可用,通过多节点副本集可保证99.999%的可用性,数据持久化到磁盘,保证数据不丢失
  4. 大容量、高性能,单节点在存储T级别的数据量时仍能维持很高的读写TPS
  5. 高速数据导入,单节点支持300M/s的数据导入速度
Hulu的React/Redux架构实践
2016-12-01 15:50 @ 大宴会厅2
程墨(Hulu)

Hulu的网站应用最初基于jQuery和Backbone。随着业务进化,前端开发人员众多,原有架构已经难以维持快速迭代开发的需要。于是我们着手构建新的Hulu网站软件架构。我们选择React和Redux,目的不只是提供更可维护的代码,而是提供更高的性能。本议题将分享在大型网站应用中应用React/Redux的心得体会。

菜鸟物流云混合云基础架构
2016-12-01 15:50 @ 大宴会厅3
黄浩(菜鸟网络科技有限公司)
介绍菜鸟物流云基于IDC-VPC的混合云基础设施架构,包括网络设施、安全策略、研发及运维工具和流程、弹性扩缩容、互联网中间件体系、同城双活等策略。以及基于docker容器化技术对于底层私有云、阿里云公有云、JVM多租户合并部署进行屏蔽,提升基础架构弹性扩缩容能力的的实践。 此外,将以韵达为例,讲述容器化技术与混合云架构结合在双十一的应用实践以及效果和价值。
58到家微服务架构实践
2016-12-01 16:50 @ 大宴会厅1
沈剑(58到家)
一、微服务解决什么痛点
  1. 代码拷贝痛点
  2. 库的耦合痛点
  3. 低效SQL痛点
  4. 数据库耦合痛点
二、微服务粒度实践
  1. 统一微服务
  2. 子业务微服务
  3. 库单元微服务
  4. 接口单元微服务
三、微服务架构核心要素
  1. 统一服务框架
  2. 统一数据访问层
  3. 配置中心实践
  4. 消息总线实践
  5. 服务治理实践
  6. 统一监控实践
  7. 调用链追踪实践
数亿级用户规模下的React native工程实践
2016-12-01 16:50 @ 大宴会厅2
雷志兴(百度)

手机百度,拥有6亿用户的手机搜索客户端。今年年初我们在手机百度中(包括Android+iOS)中集成了React native(下简称RN)来做到免更新升级app。迄今已经完成了多次大版本迭代,并有多个核心功能已经切换至RN框架开发。

在一个拥有如此庞大用户群的app中使用RN,很多细小的问题都会被放大很多倍,加上我们对性能、体验的不懈追求,这给我们带来了巨大的挑战。为了提高加载、动画、运行性能,尤其是Android系统下的性能,在了解RN内部实现机制的同时,我们在框架内部、业务上都做了大量的优化工作。

这次分享将从如下几个部分展开:

  • 为什么选择React native
  • 与现有业务和迭代融合
  • 性能优化实践(Listview、动画、启动速度)
  • React Native的工程价值

希望能让你的业务在选择RN、使用RN、优化RN方面得到一些帮助。

双11苏宁易购天猫店的技术应对及其演进
2016-12-01 16:50 @ 大宴会厅3
周毅(苏宁)
  1. 阿里集团和苏宁云商集团建立战略合作关系的背景;
  2. 苏宁易购天猫店在16年双11天猫的峰值流量下,我们的技术架构及其应对;
  3. 好的技术架构不是一蹴而就,介绍从刚开始,到持续发展过程中,我们的技术演进。
    • 刚开始,苏宁易购在库存、价格、订单领域如何与天猫平台进行系统化对接,且以最快的速度使苏宁的商品能在天猫进行销售,并完成发货等后续履约过程;
    • 从15年到16年一年多的时间里,苏宁易购天猫店业务持续增长,多个店铺产生了海量订单数据,数据存储面临新的挑战,系统数据技术架构演进。
  4. 未来苏宁易购天猫店的技术优化与发展。
Walle——企业级应用开发模式的探索与创新
2016-12-01 17:50 @ 大宴会厅1
沙彦魁(菜鸟网络科技有限公司)
To B类系统,在菜鸟业务系统中占据了80%的份额。为了能够保证各平台系统拥有良好的用户体验,菜鸟承袭了淘系To C类系统开发的模式,严格的遵循了从产品设计、交互设计、视觉设计、前后端开发到测试验收的产品研发流程,但该研发流程并不完全契合To B类系统的特点:单个系统页面数量具大,但组件场景复用度高。暴露出来的问题是:流程冗长导致沟通成本很高;前端开发招聘难度大,人员稀缺等;最终大大的降低了To B类系统的开发效率。因此,必须探索一种高效的模式,在简化研发流程的同时,又能保持交互、视觉、前端等在研发环节的专业贡献度,同时对于复杂度高、操作频率高的页面,还能保持精细化开发的开放性。Walle前后端协同开发框架,正是我们经过不断讨论和探索,寻求以技术驱动解决问题的产品。
DT时代的业务实时监控之道
2016-12-01 17:50 @ 大宴会厅2
杨奕(阿里巴巴集团)
业务实时监控服务(Application Real-Time Monitoring Service,简称ARMS)是阿里云上16年8月4号刚发布的一款基于实时计算和大数据存储的企业级互联网云产品。其诞生于阿里淘宝的内部,最初是为阿里鹰眼调用链监控的底层数据收集和计算而打造的。在经历了4年时间打磨以后,ARMS已在淘宝内部拥有上千台机器和十几个集群的规模,其监控场景被广泛应用于阿里内部包括商品、物流、风控、等。在本次演讲中,作者将和大家分享ARMS在这4年里如何从一个日志收集工具演变成一款具备大规模高并发、数据可靠、场景丰富、使用便利等各种能力的,且同时服务于云阿里内部和云上外部客户的企业级互联网应用监控类产品。
双十一Weex会场极致性能优化
2016-12-01 17:50 @ 大宴会厅3
冯成晓(阿里巴巴集团), 周婷婷(阿里巴巴集团)

作为新一代移动动态化解决方案,Weex 不仅仅希望通过一套代码多端运行和低成本的前端接入来提升开发者体验,同时也一直致力于通过提高加载和渲染性能来提升用户体验。

本次分享将主要介绍 Weex 在性能优化上的一些经验和心得,同时结合2016双十一会场,分享Weex在业务上的性能最佳实践。

2016-12-02, 星期五

构建下一代移动网页应用
2016-12-02 09:30 @ 大宴会厅123
谷盛(Google)

Progressive Web Apps——渐进式Web应用通过快速,可靠和愉悦的交互来改善您的用户体验。这些新的web应用程序提供了用户所期望的性能,同时还提供离线访问、添加到主屏幕和推送通知等关键功能。这里将会分享一些关于构建Progressive Web Apps的成功案例。

阿里应用运维体系演变
2016-12-02 10:00 @ 大宴会厅123
林昊(毕玄)(阿里巴巴)

阿里的应用运维体系经历了几个不同方向的演变,一定程度也反应了业界在运维这个领域的变化,这个Topic将给大家分享阿里的演变之路,可以看到随着业务发展、规模扩大、业界技术变化的情况下,应用运维这个领域的方向变化和人才体系的变化。

测量服务的可运维性(Measure the operability of your service)
2016-12-02 10:50 @ 大宴会厅123
李虓(LinkedIn)
很多SRE/运维团队在微服务的系统中都需要管理成百上千的独立服务,除了常见的“可靠性”指标外还有另一个”可运维性”指标对运维团队同等重要。这个讲座中我会分享LinkedIn 应用SRE团队对可运维性的思考,以及如何通过给服务打分来提高系统的可维护性。
有状态服务的数据完整性
2016-12-02 11:30 @ 大宴会厅123
Laine Campbell(OrderWithMe)

数据完整性是业务需求的核心功能要求。过去的十年中我们看到分布式数据存储(多元化存储)的爆炸式增长,包括数据存储服务。我们发现需要构建比以往任何时候更全面的解决方案,以确保不能接受的数据丢失不会发生。我们不能预见所有问题,但可以通过构建深入的防御计划提前甄别和削弱问题。

Laine会探讨如何有效在数据生命周期中各关键点规划、构建恢复服务。她会从恢复的核心原则和组件概述开始,然后仔细讨论可能发生和影响数据完整性的常见及重要问题。她建立了有效的工具和流程以确保有效和迅速的恢复,最后讨论从文化上就将恢复纳入所有常规运维活动、运维和开发团队观念的重要性。

高性能MySQL
2016-12-02 13:30 @ 大宴会厅1
叶金荣(知数堂培训)

介绍从硬件到操作系统、MySQL参数选项再到SQL开发设计,如何让MySQL保持高性能。

  1. MySQL性能瓶颈定位分析
    • 确定MySQL层瓶颈
    • 确定系统层瓶颈
    • 确定硬件层瓶颈
  2. 优化MySQL
    • Schema设计优化
    • 索引设计优化
    • SQL查询优化
    • 配置选项优化
    • 高并发优化
  3. 其他优化方案
    • 操作系统优化
    • 硬件优化
    • 其他优化
Polymer在YouTube的应用
2016-12-02 13:30 @ 大宴会厅2
Mikhail Sychev(Google/YouTube)

最近YouTube宣布采用Polymer,我们就来讨论为什么要重构世界上最热门的网站之一?期望得到的益处以及必须克服的挑战。

我们会深入介绍部属第一个Google Polymer项目——YouTube Gaming所得,以及在即将到来的YouTube.com桌面版和移动版方面的工作经验——架构、我们用来开发web组件的模式、浏览器支持及性能。

Swarm优化:从单实例管理1000 nodes到30000 nodes
2016-12-02 13:30 @ 大宴会厅3
吴小伟(阿里巴巴集团)
阿里今年大规模的将自己的容器切换为Docker,Swarm也同时被引入,Swarm官方版本在规模化的能力上很欠缺,导致了规模增长很容易导致Swarm出问题,阿里Docker团队在Swarm的规模化这点上做了众多的优化,使得Swarm的能力从单实例管理1000 nodes增长到了30000 nodes,这次Topic中将分享阿里为此做的具体的优化。
HBase在滴滴出行各业务场景应用
2016-12-02 14:30 @ 大宴会厅1
朱怀宇(滴滴)

大型的分布式存储在多租户场景下有很多现实的挑战。比如资源合理的分配,风险的管控,成本的控制,高效的监控和运维。本议题将介绍一些HBase在滴滴出行使用的典型的业务场景,并介绍为了提升多租户下HBase可靠性与高效管理的方案。

  1. HBase在滴滴的应用
    • 离线的应用服务
    • 在线实时的应用服务
  2. HBase多租户管理
    • 用户管理系统
    • Regionserver group特性
    • 资源隔离与成本控制
React可视化开发框架
2016-12-02 14:30 @ 大宴会厅2
Jeff Catania(Accenture)

本议题深入探讨埃森哲的React可视化开发框架,这是一套创建交互式Web应用的标准和模版。包括下面要点:

  • 如何架构和设计可重用可视化组建,可以在应用中快速更换。
  • 将可视化转换为交互式数据体验的UI技术和实现。
  • 如何构建内部可视化库。
OWL分布式开源监控最佳实践
2016-12-02 14:30 @ 大宴会厅3
吴迎松(TalkingData)
目前市面上有很多开源的软件可以实现这样的功能,但是在不同程度上存在各种各样的问题。以监控为例,开源的监控很多,Zabbix、Nagios、Cacti,都是不错的监控软件,但是首先它们并不能满足大数据场景下的数据存储;其次,如果监控项和主机数量过多,数据查询时会出现速度慢等一系列问题。所以技术运营首先选择在监控上做了全新的设计和开发,新监控命名为OWL(猫头鹰),意思就是在技术人员睡觉的时候提供值班服务。OWL 采用全部golang开发,支持用户自定义图标,报警渠道上支持,短信,微信,邮件,支持多机房主机管理,立体监控,从硬件到业务监控,是一个整体的运维解决方案。
天猫双11互动直播间性能优化
2016-12-02 15:50 @ 大宴会厅1
刘雄昌(阿里巴巴集团)

天猫双11晚会狂欢夜千万粉丝坐在家里拿起手机就可以“同步”参与和舞台明星的“双向互动”。

粉丝们开心获大礼,但对于技术人员来说,如何扛住海量的用户请求,准确公平地让每个粉丝能贡献出力量、得到回报,同时,让一切过程同步出现在电视和手机里,是一个大大地难题。

本议题会揭秘这些内容:

  1. 如何扛住4小时不间断的点赞请求?
  2. 同时,如何秒级实时的统计出PV、UV,和用户点赞的排行?
  3. 如何实现,让统计数据,同步出现在电视画面和手机画面?
  4. 新职业“互联网导播”是做什么的?
今天谈构建可扩展系统的意义
2016-12-02 15:50 @ 大宴会厅2
Theo Schlossnagle(OmniTI/Circonus)

大家对分布式系统中的创新欢欣鼓舞。这主要是因为在结合了微服务架构的云中单个系统的可靠性已经降低。这也导致一些不愉快的情况。改变是必要的但开发人员经常缺乏应有的重视。本议题中我将讨论新兴市场形势如何积极地去构建分布式系统——我们一直努力去理解、研究并为之提供基础技术的可扩展分布式架构。

网易蜂巢基于kubernetes的公有云运维实践
2016-12-02 15:50 @ 大宴会厅3
刘超(网易蜂巢)

业内将容器技术和编排技术用于私有云的方案比较多,即便用于公有云也常常采取独享集群的方式。在实践公有云的过程中,我们发现在多租户,认证鉴权,网络隔离,容器安全,任务调度,集群扩容,监控告警等多方面都有不同于私有云的挑战。

本次分享介绍网易蜂巢在基于kubernetes运维公有云过程中遇到的挑战以及采取的措施和架构改进。

大型分布式系统的devops实战
2016-12-02 16:50 @ 大宴会厅1
何学奇(京东)

主要介绍如何针对复杂的分布式搜索系统,在持续集成的经验和方案。smoke,system, staging,三个测试阶段的衔接和设计的思想,如何应对上百G索引带来的测试效率低下的问题。如何将自动化测试+监控+告警+日志的联合实现持续交付,达到产品的快速迭代。

QQ空间亿级服务Web架构
2016-12-02 16:50 @ 大宴会厅2
刁维康(腾讯科技)

移动时代hybrid app开发最重要的工作之一就是要让用户用得爽。本议题将结合QQ空间Web前端的实践,介绍在hybrid app开发中,如何提升页面的性能和可用性,如何对hybrid app进行监控。

  1. 如何让用户用得更爽
    • 如何让首屏加载更快
    • 如何让资源加载更快
    • 如何让数据请求成功率更高
  2. 如何让监控更完善
    • 服务器端抓包,让定位问题更快捷
    • 服务器端监控,让服务器把问题说出来
    • 用户端监控,把用户侧的问题暴露出来
阿里巴巴Aliware十年微服务架构演进历程中的挑战与实践
2016-12-02 16:50 @ 大宴会厅3
倪超(阿里巴巴集团)
如今的阿里巴巴电商平台上,业务生态百花齐放,新的创新业务不断涌现,而这都得益于阿里底层的微服务架构高可扩展。而谁能想到,早在10年以前,偌大的淘宝网站点都是运行在单一的部署包内,往往对其中一个模块的改动都会牵一发而动全身。10年以来,阿里巴巴一直在微服务的道路上摸索着,前进着,其间伴随着互联网和移动互联网的盛行,海量的用户一次又一次的洗礼了各个机构的IT系统,而在阿里,这种改变无疑更加频繁与剧烈——这些年下来,中间件技术完成了从1.0到3.0时代的蜕变,并已经完成了将技术变成商业化产品,对于海量微服务的治理能力处于业界领先。在本议题,将围绕这一变革过程中,分享在不同的时间段,阿里巴巴中间件技术所面临的技术挑战和我们的解决之道。
海量日志驱动的智能运维
2016-12-02 17:50 @ 大宴会厅1
饶琛琳(日志易)

近年来运维技术飞速发展,大家热热闹闹的建设好了各种系统,虚拟化、容器化、持续集成等等。但是如何有效的利用这些系统最终实现站点的高可用、高性能、高可扩展,系统之间的联动调度需要有背后的数据支撑。传统意义上的监控系统不足以驱动复杂的运维需求,我们需要基于全量的日志分析处理作出决策。本次也将结合实际案例分享企业如何构建一套支持海量日志实时收集处理和检索分析的平台服务,并在非结构化处理、关联分析、异常检测、资源管控等多方面做了很有意思的探索,帮助使用者真正完成智能运维的数据反馈闭环。