大数据

关注
收录了大数据频道下的 10423 篇内容
讲述数据获取、存储、管理、分析的方方面面,关注软件、实践、生态,挖掘最新的前沿技术,同时也思考大数据与AI和云计算的深度结合。
  • 全部
  • DataOps
  • 数据集成
  • DataMesh
  • 数据编织
  • 数据湖仓
  • 在离线混部
  • 实时计算
  • 其他
  • 全部
  • 文章
  • 视频
  • 话题
  • 电子书
Pinterest的Moka:Kubernetes如何重写大数据处理规则
Pinterest 的 Moka:Kubernetes 如何重写大数据处理规则

数字公告板提供商 Pinterest 发布了一篇文章,解释了其新平台 Moka 在大规模数据处理方面的未来蓝图。该公司正在将核心工作负载从老化的 Hadoop 基础设施迁移到基于 Kubernetes 的系统上,该系统运行在亚马逊 EKS 上,以 Apache Spark 作为主要引擎,并即将支持其他框架。

MAKE IT SNOW | 2025-2026 Data+AI 年度时刻
MAKE IT SNOW | 2025-2026 Data+AI 年度时刻

战略发起“年度十问”,共同见证企业数智化变革的关键时刻。

2026 年预测:智能体将推动集中化战略,带来新的工作方式 | 技术趋势
2026 年预测:智能体将推动集中化战略,带来新的工作方式 | 技术趋势

的投资回报远超预期?41%!在企业中实现真正落地的关键之年。 将迎来爆发式增长与颠覆性普及。尽管技术进步显著且持续加速,但这一年的更深层意义在于,它重塑了我们对技术可行性的理解。

ClickHouse 完成由 Dragoneer 领投的 4 亿美元 D 轮融资,加速其在分析与 AI 基础设施领域的扩张
ClickHouse 完成由 Dragoneer 领投的 4 亿美元 D 轮融资,加速其在分析与 AI 基础设施领域的扩张

面向未来,我们正在支持统一的事务型与分析型工作负载,让开发者能够在坚实的技术基础之上构建各种由 AI 驱动的应用。

Agoda是如何将多个数据管道统一为单一事实来源的
Agoda 是如何将多个数据管道统一为单一事实来源的

Agoda 近日分享了他们如何将多个独立的数据管道整合为一个基于 Apache Spark 的集中式平台,以消除财务数据中的不一致性。该公司构建了一个多层质量保障框架,结合自动化校验、基于机器学习的异常检测以及与上游团队签订的数据契约(data contracts),确保用于财务报表和战略规划的财务指标准确无误,同时每天处理数百万笔预订交易。

从数据存储到 AI 基建,XSKY 发布全栈AI数据方案破解算力效率难题
从数据存储到 AI 基建,XSKY 发布全栈 AI 数据方案破解算力效率难题

2026 年 1 月 15 日,XSKY 星辰天合在北京举办主题为“数据常青 智算无界”的 AIMesh 产品战略发布会,宣告公司战略重心从“信息技术(IT)”全面跨越至“数据智能(Data Intelligence)”。

从 OTel 到 Rotel:每秒处理量提升 4 倍的 PB 级追踪系统
从 OTel 到 Rotel:每秒处理量提升 4 倍的 PB 级追踪系统

得益于其高压缩比和良好的成本效益,ClickHouse 越来越多地被用于大规模的 OpenTelemetry 负载中。

从查询计划分解到100%MySQL兼容:TDSQL-B并行查询技术的实现与优势
从查询计划分解到 100%MySQL 兼容:TDSQL-B 并行查询技术的实现与优势

从查询计划分解到 100%MySQL 兼容:TDSQL-B 并行查询技术的实现与优势

TDSQL-B 数据库核心优化思路:从一体化对等架构到高性能Raft Log存储
TDSQL-B 数据库核心优化思路:从一体化对等架构到高性能 Raft Log 存储

TDSQL-B 数据库核心优化思路:从一体化对等架构到高性能 Raft Log 存储

超大规模化繁为简,TDSQL-B的四大核心适用场景
超大规模化繁为简,TDSQL-B 的四大核心适用场景

超大规模化繁为简,TDSQL-B 的四大核心适用场景

DuckDB的WebAssembly客户端支持在浏览器中查询Iceberg数据集
DuckDB 的 WebAssembly 客户端支持在浏览器中查询 Iceberg 数据集

DuckDB 最近推出了一项新功能,可以在浏览器标签页内直接与 Iceberg REST Catalog 进行端到端交互,而无需配置任何基础设施。该功能依托于 DuckDB-Wasm,支持用户以无服务器方式查询、读取和写入 Iceberg 表。

Alexey 精选的 2025 年他最喜欢的 ClickHouse 功能
Alexey 精选的 2025 年他最喜欢的 ClickHouse 功能

2025 年发布的 ClickHouse 各版本共计引入了 277 项新功能 、319 项性能优化以及 1051 个 bug 修复。

Swiggy 内部 AI 助手升级:Text-to-SQL 不够用了,Agent 开始接管数据分析
Swiggy 内部 AI 助手升级:Text-to-SQL 不够用了,Agent 开始接管数据分析

Swiggy 推出 Hermes V3,从 Text-to-SQL 走向对话式 AI。

从 SQL 到自然语言,下一代 Lakehouse 为何必须「AI 优先」
从 SQL 到自然语言,下一代 Lakehouse 为何必须「AI 优先」

下一代 AI-first Lakehouse 技术展望。

MinIO GitHub存储库的维护模式:开源对象存储的下一步是什么?
MinIO GitHub 存储库的维护模式:开源对象存储的下一步是什么?

在一次有争议的许可证变更和从控制台中移除管理员功能之后,支持流行的开源对象存储服务器 Minio 的公司最近宣布该项目将进入维护模式。这一变化在社区引发了关于分叉的必要性、开源项目的挑战以及 Garage、SeaweedFS 和其他替代方案的可行性的讨论。

通过对话式 AI Agent 运用 Snowflake Intelligence,从成本、安全和性能三个维度全面提升您整体系统的表现 | 技术实践
通过对话式 AI Agent 运用 Snowflake Intelligence,从成本、安全和性能三个维度全面提升您整体系统的表现 | 技术实践

的投资回报远超预期?41%!我的灵感来源于 @umeshpatel_us。何时能直接为我们提供一个包含所有这些内容的语义视图。

从查询到行动:AI 智能体如何重塑企业决策方式 | 技术实践
从查询到行动:AI 智能体如何重塑企业决策方式 | 技术实践

我们构建了一款原生集成于 Snowflake 的 AI 智能体,它不仅能够分析数据,更能实时规划并执行操作任务。这标志着企业人工智能领域正在经历一场更深刻的范式转变——一场悄然重塑决策机制的革命。

优步采用Amazon OpenSearch进行语义搜索,以更好地捕捉用户意图
优步采用 Amazon OpenSearch 进行语义搜索,以更好地捕捉用户意图

为了提升搜索与推荐的用户体验,优步(Uber)从 Apache Lucene 迁移到了 Amazon OpenSearch,以支持大规模向量搜索并更精准地捕捉用户搜索意图。此次迁移带来了若干基础设施方面的挑战,优步的工程师通过针对性的解决方案逐一将其克服。

一旦运营环节出错,数据平台必须稳如磐石——Snowflake 灾难恢复为何成了必备能力? | 技术趋势
一旦运营环节出错,数据平台必须稳如磐石——Snowflake 灾难恢复为何成了必备能力? | 技术趋势

在快速变化的环境中,Snowflake 的灾备恢复如何运作?您应部署哪些工具与实践方案进行准备?又该如何着手启动?这篇博客将会带来详细解读。

从架构到引擎:TDSQL-MySQL 并行查询技术全链路拆解 | 腾讯云数据库 DBTalk
从架构到引擎:TDSQL-MySQL 并行查询技术全链路拆解 | 腾讯云数据库 DBTalk

2 款产品。这个分享从介绍这 2 款产品的总体架构和各自产品的查询处理的总体流程入手从并行查询的整体构架到每个模块的实行细节逐渐分解,对整个并行查询的核心技术做详细的阐述。

新一代分布式数据库:TDSQL Boundless 架构特性与场景选型指南 | 腾讯云数据库 DBTalk
新一代分布式数据库:TDSQL Boundless 架构特性与场景选型指南 | 腾讯云数据库 DBTalk

产品家族的新一代分布式数据库产品。提供了高弹性和高灵活性,在支撑海量数据管理的同时,并不会增加架构和运维的复杂度。

TDSQL Boundless 存储引擎核心技术架构与性能优化之道 | 腾讯云数据库 DBTalk
TDSQL Boundless 存储引擎核心技术架构与性能优化之道 | 腾讯云数据库 DBTalk

作为新一代腾讯云原生分布式数据库产品,在面对海量敏态数据业务场景下,具有高性能、弹性扩缩容等特点。性能优化等方面的设计思考。

2025 Snowflake 峰会重点:构建 AI 和应用的未来 | 技术趋势
2025 Snowflake 峰会重点:构建 AI 和应用的未来 | 技术趋势

随着越来越多的企业寻求利用人工智能和覆盖全数据生命周期的应用来创造价值,并让组织内的全体员工都能受益,强大的数据基础变得前所未有的重要。

告别 Agent “泛滥成灾”:火山引擎基于 200 +企业样本的 AI 管理架构
告别 Agent “泛滥成灾”:火山引擎基于 200 + 企业样本的 AI 管理架构

IT 产业的历史,总是惊人的相似。年代,企业开始信息化建设,各部门“见软件就买”——财务系统、仓储系统、CRM……在早期,这确实显著提升了单点效率,但很快就撞上了一堵墙:系统之间数据不通、流程断裂,部门各自为政,企业内部竖起一座座“烟囱”。

构建可扩展的流媒体基础设施:因为观众不会等到明天
构建可扩展的流媒体基础设施:因为观众不会等到明天

在流媒体领域,挑战是即时的:用户现在就在观看电视节目,而不是计划明天再看。当系统在黄金时段发生故障时,根本没有恢复窗口;观众会立即离开,并可能一去不返。一年半前,ProSiebenSat.1 Media SE 面临着为国际用户扩展流媒体应用的挑战。

迪卡侬采用 Polars 优化数据管道与算力成本
迪卡侬采用 Polars 优化数据管道与算力成本

迪卡侬分享了其采用开源库 Polars 来优化数据流水线的原因。

Visual Studio 2026正式发布,带来AI原生IDE和提升性能
Visual Studio 2026 正式发布,带来 AI 原生 IDE 和提升性能

微软正式发布 Visual Studio 2026(版本 18.x),这是其旗舰集成开发环境的首个“AI 原生”版本。在正式版发布之前,微软通过 Insiders 通道进行了全面验证。

筑基 AI 战略:从数据采集到 AI 就绪的数据工程变革
筑基 AI 战略:从数据采集到 AI 就绪的数据工程变革

在 Snowflake 年度技术盛会 Build 的第三天,Snowflake 产品副总裁 Chris Child 发表了题为《从数据采集到 AI 就绪的数据工程》主题演讲。本次演讲的主旨非常明确:没有数据战略,就没有真正的 AI 战略。演讲通过一系列技术演示和深度论述,阐述了数据工程师如何利用 Snowflake 的端到端平台,将原始数据转化为能够支撑 AI 成功的坚实基础。

赋能开发者:Snowflake 如何实现 AI 规模化影响力
赋能开发者:Snowflake 如何实现 AI 规模化影响力

在近期举行的 Snowflake Build 大会上,Snowflake 产品管理总监 Jeff Holland 发表了题为《实现 AI 规模化影响力》的主题演讲 。他以一名“构建者”和 AI 开发者的视角,深度回顾了 Snowflake 在 AI 领域的最新技术突破、行业应用场景以及为全球开发者提供的创新基础设施。

构建 Agentic AI 未来:Snowflake Build 大会开幕主题演讲技术发布一览
构建 Agentic AI 未来:Snowflake Build 大会开幕主题演讲技术发布一览

在近期举行的 Snowflake Build 大会上,Snowflake 产品执行副总裁 Christian Kleinerman 携团队发表了以《构建 Agentic AI 未来》为主题的开幕演讲 。本次演讲集中发布了一系列旨在助力企业激活数据价值、通过 AI 提升生产力并构建智能体应用( Agentic Apps)的重磅功能与技术更新。

    走向 Data+AI:TiDB 面向大语言模型应用构建 All-in-One 的数据库
    走向 Data+AI:TiDB 面向大语言模型应用构建 All-in-One 的数据库

    刘松 | 平凯星辰 副总裁

    立即下载
    eBay风控实时特征平台建设和应用案例

    李杰 | eBay 支付风控部门高级经理

    立即下载
    AI 眼镜在线下社交场景中的多模态智能感知与主动交互

    段然 | 拂曦科技 CEO

    立即下载