.NET 数据摄取与向量化架构:构建企业级检索增强生成(RAG)管道

thbcm阅读(16)

我们将深入探讨“统一文档表示”(Unified Document Representation)如何解决非结构化数据处理的异构性难题,剖析 IngestionPipeline 在流式处理和错误恢复方面的设计智慧,评估基于 Microsoft.ML.Tokenizers 的语义分块策略对检索质量的深远影响,并详细阐述 Microsoft.Extensions.VectorData 如何通过统一抽象层消除向量数据库的锁定风险。此外,本文还将对比 Semantic Kernel 的传统内存存储机制,提供从遗留系统向现代化架构迁移的路径指引。

使用Gradio构建AI前端 – RAG的QA模块

thbcm阅读(16)

Gradio 是一个用于快速创建机器学习和数据科学演示界面的Python库,允许开发者通过简单代码将函数转换为交互式Web应用,无需前端开发经验。
gr.Interface 是 Gradio 提供的一种快速创建界面的方式,适用于简单的输入输出场景,采用”函数驱动”模式,直接将函数与输入输出组件绑定。

基于莱布尼茨公式的编程语言计算性能基准测试

thbcm阅读(12)

GitHub 开源项目
niklas-heer/speed-comparison

在 2025 年 12 月产生的最新数据,涵盖了从底层系统级语言(如 C++、Rust)到托管型语言(如 Java、C#),再到动态解释型语言(如 Python、Ruby)的 62 种不同实现。通过对 10 亿次迭代运算的详尽分析,我们不仅试图排列出“谁最快”,更致力于揭示“为什么快”背后的深层技术逻辑,探讨单指令多数据(SIMD)技术、即时编译(JIT)机制以及内存模型对计算性能的决定性影响。

Sidecar不就是在Pod里多跑一个容器吗!

thbcm阅读(14)

“Pod 就是容器”——这是许多 Kubernetes 初学者最常见的误解。事实上,Pod 并不是容器,而是
容器的容器,是一个可以容纳一个或多个紧密关联容器的“逻辑主机”。

2025年暨PhD第一学期总结

thbcm阅读(14)

就个人目前的体验而言,在京大这边的PhD科研与生活体验总体而言可谓是非常好。以下分别从科研与学习、校园活动、文化与生活体验等方面来对今年进行总结。

前后端分离框架 CatchAdmin V5 beta.2 发布 插件化与开发效率的进一步提升

thbcm阅读(16)

Beta.3 版本对数据导入导出功能进行了核心层面的增强。在实际业务中,批量导入用户、订单、商品等数据是高频需求。此次更新优化了导入导出的底层逻辑,支持更大数据量的处理,并提供了更灵活的字段映射配置。在代码生成器中勾选”支持导入导出”,即可为模块自动生成完整的导入导出功能,无需手写 Excel 处理代码。

联系我们