如何打造成功的AI代理数据？

链媒体 ChainMedia

December 12, 2024 0

如何打造成功的AI代理数据？

原文作者：jlwhoo7，加密 Kol
原文编译：zhouzhou，BlockBeats

编者按：本文分享了有助于提高 AI 代理性能的工具和方法，重点在于数据收集和清洗。推荐了多种无代码工具，如将网站转化为 LLM 友好格式的工具，以及用于 Twitter 数据抓取和文档摘要的工具。还介绍了存储技巧，强调数据的组织性比复杂的架构更重要。通过这些工具，用户能够高效整理数据，为 AI 代理的训练提供高质量的输入。

以下为原文内容（为便于阅读理解，原内容有所整编）：

我们今天看到了许多 AI 代理的推出，其中 99% 将会消失。

是什么让成功的项目脱颖而出？数据。

以下是一些能够使您的 AI 代理脱颖而出的工具。

好数据=好 AI。

把它想象成一个数据科学家在构建管道：

收集 → 清洗 → 验证 → 存储。

在优化向量数据库之前，先调整好您的少样本示例和提示词。

图片推文链接

我将当今的大多数 AI 问题视为 StevenBartlett 的「水桶理论」——逐步解决。

先打好数据基础，这是构建优秀 AI 代理管道的根基。

以下是一些用于数据收集和清洗的优秀工具：

无代码的 llms.txt 生成器：将任何网站转换为适合 LLM 的文本。

图片推文链接

需要生成 LLM 友好的 Markdown？试试 JinaAI 的工具：

用 JinaAI 爬取任何网站，将其转换为适合 LLM 的 Markdown 格式。

只需在网址前加上以下前缀，就可以获取一个 LLM 友好的版本：
http://r.jina.ai<URL>

想获取 Twitter 数据？

试试 ai16zdao 的 twitter-scraper-finetune 工具：

只需一条命令，即可爬取任何公共 Twitter 账户的数据。

（查看我之前的推文了解具体操作方法）

图片推文链接

数据源推荐：elfa ai（目前处于封闭测试阶段，可私信 tethrees 获取访问权限）

他们的 API 提供：

最受关注的推文

智能粉丝筛选

最新的 $ 提及内容

账户信誉检查（用于过滤垃圾内容）

非常适合用于高质量的 AI 训练数据！

用于文档摘要：试试 Google 的 NotebookLM。

上传任意 PDF/TXT 文件 → 让它为您的训练数据生成少样本示例。

非常适合从文档中创建高质量的少样本提示词！

存储小贴士：

如果使用 virtuals io 的 CognitiveCore，可直接上传生成的文件。

如果运行 ai16zdao 的 Eliza，可以将数据直接存储到向量存储中。

专业建议：井井有条的数据比花哨的架构更重要！

「原文链接」

声明：本内容为作者独立观点，不代表 ChainMedia 立场，不承担法律责任。文章及观点也不构成投资意见，请谨慎对待。如有侵权，请联系客服删除。

链媒体快讯 Quick News

尼日利亚证券交易委员会将打击无监管的加密货币平台

尼日利亚证券交易委员会将打击无监管的加密货币平台

监管政策 · ChainMedia 链媒体

尼日利亚证券交易委员会（SEC）正准备对未遵守其监管框架的个人和加密货币交易所采取行动。当地媒体Nairametrics报道称，SEC总干事埃莫莫蒂米·阿加马博士（Dr….

Aave获得英国FCA颁发的电子货币机构许可证

Aave获得英国FCA颁发的电子货币机构许可证

监管政策 · ChainMedia 链媒体

去中心化借贷协议Aave的英国公司已经获得了英国金融行为监管局（FCA）颁发的电子货币机构(EMI)许可证。据The Block报道，非托管借贷协议Aave的英国实体公司已经获得了英国金融行为监管局（FCA）颁发的电子货币机构(EMI)许可证。…

美联储重大鸽派转向，全球资产狂欢

美联储重大鸽派转向，全球资产狂欢

监管政策 · ChainMedia 链媒体

来源：华尔街见闻作者：杜玉、李丹、何浩…

ETF、美联储降息以及大选事件能否助推加密市场迎来牛市？

ETF、美联储降息以及大选事件能否助推加密市场迎来牛市？

专栏 · ChainMedia 链媒体

整理：Uweb ETF、美联储降息以及大选事件能否助推加密市场迎来牛市？前高盛亚洲…