客户背景与项目挑战
Yottaa 是一家提供网站加速平台的创新公司,致力于优化 Web 和移动应用的用户体验、安全性和盈利能力。其目标是根据用户设备、浏览器、位置和连接情况提供个性化体验,并实时分析用户浏览上下文以定制内容。项目面临的主要挑战包括处理高通量数据(每日1亿条消息)、大容量数据(估计300 TB)、实时处理需求(<1分钟事件处理延迟)、快速查询响应(<3秒)以及半结构化数据源(如网站日志)。
项目目标与方法
客户需要搭建内部运营智彗平台,但市场上的主流工具难以快速检测系统性能和安全问题。因此,客户选择与 SoftServe 合作,利用其在复杂大数据解决方案和架构设计方面的专长。项目采用敏捷方法,通过概念验证(PoC)快速评估技术选择,并使用最小可行产品(MVP)获取早期用户反馈以迭代产品路线图。PoC 的主要任务是评估技术风险、性能和可扩展性,避免全面构建原型的成本和时间问题。
PoC 环境搭建与关键任务
SoftServe 团队选择 AWS 作为 PoC 环境,主要任务包括:
- 快速填充 Elasticsearch:通过 EMR 和 Elasticsearch-Hadoop 驱动程序,使用 Pig 和 Hive 解析并加载 S3 中的日志数据到 Elasticsearch,实现近乎实时的分析场景。
- 硬件与配置优化:测试不同类型的 EC2 实例(通用型、存储优化型、计算优化型等)和块存储(SSD、HDD、实例存储等),最终选择计算优化型实例(c4 型号)作为 Elasticsearch 集群的基础。
- 交互式可视化:在不到一天内创建使用 Kibana 的交互式仪表板,验证 Elasticsearch 的性能和功能。
AWS 的优势与价值
AWS 为项目提供了显著优势:
- 快速上市:无需基础设施部署和配置,按使用付费模式优化成本,并支持按需扩展。
- 成本效益:通过 S3 与 EMR 的紧密集成,实现按需启动 Hadoop 集群,显著降低成本。
- 灵活性:支持快速原型设计和敏捷开发,适应不断变化的需求。
项目成果与未来展望
首个生产版本已成功发布,系统持续发展新功能。SoftServe 的团队经验和技术支持,加上客户的强大产品愿景,是项目成功的关键。原型设计方法验证其有效性,实现了业务和技术目标。未来计划通过 EMR 支持 Apache Spark 进行流处理和高级分析,并引入 Kafka Direct Approach 和 Lambda 架构,进一步提升平台的实时处理能力。
SoftServe 公司简介
SoftServe 是一家全球数字权威和咨询公司,专注于技术前沿,提供端到端解决方案,赋能企业创新和加速市场定位。公司在医疗保健、零售、媒体、金融服务等领域拥有专业知识,致力于以同理心和以人为本的体验设计,确保从概念到发布的连贯性。