Tim Spann 首席开发人员倡导者 May 8, 2024 B102 : 启用实时分析2024 年 5 月 8 日 , 星期三, 下午 12: 00 - 下午 12: 45 实时分析有助于构建可扩展和容错的数据处理管道。 使用 FLaNK 构建实时管道 , 首席开发人员倡导者 - ClouderaTimothy Spann Apache Flink 、 Apache NiFi 和 Apache Kafka 的组合 , 用于构建实时数据 处理管道极其强大,如通过FLaKN-MTA项目案例研究所示。该项目利用这些技术对实时数据进行处理和分析,从而实现及时的见解和决策制定。 纽约市大都会运输管理局(MTA) 的时间数据。 FLaNK - MTA演示如何高效地收集、转换和分析大量数据流 , Tim Spann 普林斯顿 / 纽约市数据聚会的未来。前 Pivotal , 前 Hortonworks , 前 StreamNative , 前普华永道 , 前 HPE , 前 E & Y.Twitter : @PaasDev// Blog:datainmotion.dev 主要开发人员倡导者。 https: / / medium. com / @ tspann https: / / github. com / tspannhw 数据的未来 - NYC + NJ + 费城 + 虚拟 https: / / www. meetup. com / futureofdata - princeton / https: / / www. meetup. com / futureofdata - newyork / 从大数据到人工智能再到流处理、容器化、云计算、数据分析、云存储、快速数据、机器学习、微服务,... @ PaasDev FLaNK堆栈每周byTim Spann 本周在Apache NiFi、Apache Flink、Apache Kafka、机器学习(ML)、人工智能(AI)、Apache Spark、Apache Iceberg、Python、Java、大型语言模型(LLM)、通用人工智能(GenAI)、向量数据库(Vector DB)以及开源伙伴领域。 https: / / flankworkspace. slack. com /加入我们的 Slack 并与 LLM 互动 https: / / join. slack. com / t / flankworkspace / shared _ invite / zt - 2fycjv241 - ~ NRHZDtdfwDjlfvXK _ Bz0A FLaNK AI 简介 真实的世界 Overview Apache NiFi, Kafka, Flink,冰山 演示 Q&A FLaNKAI Kafka Connect , NiFi , Flink ? 选择哪个引擎 ? 还是全部 3 ? 已经在使用 Kafka ? 许多表的简单设置想要元数据增强数据不需要低延迟易于与 NiFi Debezium 结合 ? 视觉监控易于手动缩放 KNIFe / FLaNK 管道 外部上下文摄取 摄入、路由、清洗、丰富、转换、解析、切片和向量化结构化、非结构化、半结构化以及二进制数据和文档。 工程提示 制作和构建查询以优化 LLM 响应 上下文检索 使用外部上下文(如检索增强生成(RAG)) 增强 LLM 往返接口 充当不和谐 , REST , Kafka , SQL , Slack 机器人进行往返讨论 世界OFTHEREAL 加拿大哈利法克斯过境的 FLaNK -NiFi , Kafka , Flink , SQL , GTFS - RT | 作者 : Tim Spann | Cloudera | 2023 年 12 月 | 中 Never Get Lost in the Stream. NiFi- Kafka - Flink for getting to work...| by Tim Spann | Cloudera | Dec, 2023 | Medium 迭代 1 : 构建一个系统以一次使用世界上所有实时传输数据 | 作者: Tim Spann | Cloudera | 中 实时观察机场交通 | by Tim Spann |Cloudera | Medium NYC 地铁 © 202359https: / / medium. com / cloudera - inc / subways - and - transit - updates - in - real - time - 30c104c4Cloudeera,fInc. Allrightsreserve. 街道摄像机 https: / / medium. com / @ tspann / septa - transit - real - time - 81082878b485© 2024Cloudera, Inc. Allrightsreserved 。 MBTA PROVENANCE 非结构化数据与 NFI •记录读者- Avro , CSV , Grok , IPFIX , JSAN1 , JSON , Parquet , 脚本 , Syslog5424 , Syslog , WindowsEvent , XML •记录作者- Avro , CSV , FreeFromText , JSON ,镶木地板 , 脚本 , XML •记录读取器andWriter支持在必要时引用架构注册表以检索架构。 •启用接受任何数据格式的处理器 , 而不必担心解析和序列化逻辑。 •允许我们保持 FlowFiles 更大 , 每个包含多个记录 , 这导致更好的性能。 非结构化数据与 NFI •档案馆- tar, gzipped, zipped,...•Images- PNG , JPG , GIF , BMP ,...•Documents- HTML , Markdown , RSS , PDF , Doc , RTF , 纯文本 ,...•视频- MP4 , 剪辑 , Mov , Youtube URL... •声音- MP3, … •社交 / 聊天- 松弛 , 不和谐 , Twitter , REST , 电子邮件 ,... • •解析文档 - 识别 Mime 类型、块文档、存储到矢量数据库 HTML 、 Markdown 、 PDF 、 Word 、 Excel 、 Powerpoint CLOUD ML / DL / AI / 矢量数据库服务 •Cloudera ML•Amazon Polly, Translate, Textract, Transcribe, Bedrock,...•拥抱的脸•IBM Watson X. AI•矢量存储在任何地方 : Weaviate ,Pinecone, Milvus, 色度 DB, SOLR,... NiFi 2.0. 0 功能 ● Python 集成 ● 参数 ● JDK 21+ ● JSON 流序列化 ● 开发辅助规则引擎 ●将运行过程组视为无状态 ● flow.json.gz https: / / cwiki. apache. org / confluence / display / NFI / NiFi + 2.0 + 版本 + 目标https: / / medium. com / cloudera - inc / getting - ready - for - apache - nfi - 2 - 0 - 5a5e 提取公司名称 ● Python 3.10 + ● 拥抱脸 , NLP , SpaCY , PyTorch CaptionImage ● Python 3.10+ ● Hugging Face ● Salesforce/blip-image-captioning-large ● 为图像生成标题 ● 向FlowFile属性添加标题 ● 不需要下载或复制您的图像 RESNetImageClassification ● Python 3.10+ ● Hugging Face ● Transformers ● Pytorch ● Datasets ● microsoft/resnet-50 ● 添加分类标签到FlowFile属性 ● 不需要下载或复制您的图像 NSFWImageDetection ● Python 3.10+ ● Hugging Face ● Transformers ● Falconsai/nsfw_image_detection ● 添加正常和NSFW到FlowFile属性 ● 对图像的安全性进行评分 ● 不需要下载或复制您的图像 FacialEmotionsImageDetection ● Python 3.10+ ● Hugging Face ● Transformers ● facial_emotions_image_detection ● 图像分类 ● 添加标签/分数到FlowFile属性 ● 不需要下载或复制您的图像 NFI & ICEBERG 集成 •CFM 中的 PutIceberg 处理器 2.1. 6 • PutIcebergCDC APACHEKAFKA 是的 Franz 是 KAFKA 让我们对您的数据进行变形。不要害怕更改数据。 你不需要成为一个优秀的作家流数据。 弗兰茨·卡夫卡是一位德语-speaking 布拉格作家和短篇故事作家,广泛被认为是20世纪文学的重要人物之一。他的作品结合了现实主义和超现实主义的元素,棒极了.维基百科 APACHE FLINK FLINK SQL FLINK & ICEBERG 集成 面向数据驱动业务的强大下一代架构 最大开放•最大的灵活性•适用于 MASSIVE 数据的超高性能• •可用作源和水槽•支持批处理和流式传输模式•支持时间旅行 APACHE ICEBERG CSP 社区版 ● 用于从命令行运行而无需任何依赖的云服务提供商(CSP)Docker Compose文件,包括Flink、SQL流构建器、Kafka、Kafka Connect、Streams Messaging Manager和Schema Registry。 ○ $> 码头工人组成 ● 根据 Cloudera 社区许可证获得许可 ●不支持的商业 (社区帮助 - 询问蒂姆)● 社区组枢纽(CSP) ● 在 docs.cloudera.com 上查找(见二维码) ● Kafka、Kafka Connect、SMM、SR、Flink、Flink SQL、MV、PostgreSQL、SSB ● 本地开发应用程序 © 2024Cloudera, Inc. Allrightsreserved 。 开放源码版 ● Docker NiFi •Docker 中的 Apache NiFi ○docker运行容器--名称为nifi,端口映射8443:8443,后台运行,并设置单用户凭证用户名为admin,密码为ctsBtRBKHRAx69EqUghv,使用vgEvjnaLjFEB配置apache/nifi:latest版本。 尝试新功能•快速开发应用程序•当地 ●根据 ASF 许可证许可●不支持●NiFi 1.25 和 NiFi 2.0. 0 - M2 SELECT n.speed, n.travel_time, n.borough, n.link_name, n.link_points, n.latitude, n.longitude, DISTANCE_BETWEEN(CAST(t.latitude as STRING), CAST(t.latitude as STRIN