客户背景
该客户为“四大”之一的多国专业服务公司,是全球最大的专业服务公司之一,也是美国十大私营公司之一。公司以成员公司网络形式运营,在150个国家的700多个办公室拥有超过27万名员工,提供财务审计和保证、税务、咨询和顾问服务。
问题与挑战
客户面临的主要问题包括:
- 数据规模庞大且难以管理,导致成本避免成为不可能,过度数据保留的风险无法避免。
- 数据可见性有限,无法采取行动,缺乏上下文,且缺乏简单易用的解决方案。
- ETL(提取、转换和加载)过程未标准化,导致请求和所需数据不匹配,每次ETL过程需要数周时间。
- 同一客户的数据可能以不同结构存储,不利于数据管理。
- 企业数据中80%为非结构化数据,非结构化数据预计每年增长高达80%,其中69%已无法律或商业价值,55%的数据存储用于维护冗余、过时和无用的(ROT)数据。
业务挑战
具体挑战包括:
- 数据可见性有限
- 无法采取行动
- 缺乏上下文
- 缺乏简单易用的解决方案
项目描述
客户与SoftServe合作,设计并实施了一个满足最苛刻需求的解决方案:
- 一体化
- 专为特定用途构建
- 超快速度
- 可扩展的大数据
- 分析驱动
- 决策支持
- 可辩护
该解决方案是一个技术辅助分类(TAC)工具,是一个帮助用户有效管理存储空间的网络应用程序,通过收集文件、分析文件并在文件系统中对其执行操作来实现。该工具包含三个主要阶段:元数据收集、文件分类和操作管理。
TAC工具的主要组件包括:
- 命令器模块:TAC工具的中央管理控制台
- 收集器和操作节点:数据收集和操作应用程序
- 分析模块:数据分类引擎
- 数据库:中央数据存储
TAC工具的主要功能包括:
- 扫描引擎
- 可扩展架构
- 可扩展数据库
- 两阶段数据分析引擎
- 自动分类引擎
- 模块化可扩展的数据分析平台
- 模块化可扩展的可视化分析平台
- 模块化可扩展的数据探索平台
- 统一界面
项目范围和存储:
- 扫描服务器部署
- 元数据收集
- 数据所有者验证自动分类
- 手动分类样本集,然后进行机器学习自动分类
- 数据集探索
- 了解完整数据库自动分类和报告
- 配置、调度和创建基于自动分类文件的事件触发器
- 执行操作报告
SoftServe独立工作并与客户合作,完成了三个主要版本:
- 数据扫描
- 数据分类
- 数据操作
技术栈:
- Python
- Tornado
- Go
- SQLAlchemy
- PostgreSQL
- REST API
- NFS
- Django
- Elasticsearch
- Pandas
- LDAP
价值交付
SoftServe在客户方产品负责人缺席的情况下,顺利完成了项目实施阶段。TAC工具为不同用户类型提供了以下价值:
- 总法律顾问:降低隐私和数据泄露风险,提高电子发现搜索性能和降低成本,符合监管数据处置要求。
- 信息系统控制官:将安全策略从威胁中心转变为资产中心(真正基于风险),实现大数据保护能力,提高数据丢失防护能力/降低泄露风险,按业务单元划分数据。
- 首席财务官/首席运营官:降低隐私和数据泄露风险,降低企业存储管理的总拥有成本,提高业务弹性和灾难恢复能力。
- 首席信息官/首席技术官:降低企业存储管理的总拥有成本,提高企业搜索效率和数据质量,提高业务弹性和灾难恢复能力,提高数据备份操作,提高数据分配执行。
- 业务所有者:提高数据管理和数据共享能力,提高企业搜索效率和数据质量,提高业务弹性和灾难恢复能力。