暂无搜索历史
上次写了Pinecone、Milvus、Qdrant、Weaviate的横评,评论区有粉丝问:
我见过太多人——上周有个朋友问我:"Milvus和Pinecone到底选哪个?"我说看你需求。他又问:"那到底哪个好?"我说看你预算。他急了:"你就告诉我选哪个...
我打开代码编辑器,Claude帮我半小时写完了原来要搞一下午的接口联调。OpenClaw每天帮我自动写文章、发草稿、查天气、管日程。我用的RAG系统准确率从60...
一开始觉得很简单:调用GitHub API获取PR diff,扔给GPT-4,拿到意见返回。
上个月我用 LangChain 搭了个 Agent,跑了三天就重构了。后来换成 LangGraph,又试了 Spring AI 和 AgentScope Jav...
在 Java AI 智能体框架的竞争中,无耳科技的 Solon AI Harness 走了一条完全不同的路。不同于 AgentScope Java 的"大而全"...
当阿里巴巴推出 AgentScope Java 时,很多人以为这只是 Python 版本的简单移植。但实际上,AgentScope Java 是一个完全不同的产...
在 AI 智能体开发的浪潮中,阿里巴巴开源的 AgentScope 以其"大而全"的设计理念脱颖而出。
手撕 GPT 系列第 9 篇。前 8 篇我们训练了一个 3M 模型,发现天花板在容量。上一篇最后选了知识蒸馏这条路——让大模型教小模型。
走到这儿,你已经不零基础了。但你可能不确定自己到底学会了什么,也不知道接下来该往哪走。
手撕 GPT 系列第 7 篇。前 6 篇我们跑通了训练,模型通过了 6/6 验收。这篇记录的是:当我们试图让模型变得更好时,发现了什么。
问:什么是注意力机制? 答:注意力机制通过计算查询和键的相关性分配权重,让模型动态关注最相关的部分。 问:你是谁? 答:我是一个基于 Transformer...
但你可能注意到,我们的模型用了 GQA、SwiGLU、RMSNorm 这些词——它们不是原始论文里的东西。
这件事发生在我训练一个3M中文GPT小模型的时候。所有教程都不会告诉你答案。今天我来讲。
你可能好奇:模型里面到底在干什么?注意力机制是什么?位置编码是什么?因果掩码又是什么?
先忘掉"人工智能"、"神经网络"这些词。把模型想象成一个黑盒子,里面装了 316 万个数字。
问:什么是注意力机制? 答:注意力机制通过计算查询和键的相关性分配权重,让模型动态关注最相关的部分。 问:RoPE 是什么? 答:RoPE 是旋转位置编码,...
查天气、定闹钟、发邮件、整理文件、看新闻、记笔记...这些事每件都要5分钟,一天加起来就是1-2小时。
跟着教程一步步来,代码没报错,loss 从 7 一路降到 0.05,完美收敛。心想成了!赶紧问模型一个问题——
但如果你之前学过 Kafka,你的笔记里可能写着:你所在的项目用 RocketMQ 做过类似的事,consumer lag 的根因其实是 rebalance 太...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市