网站首页 > 技术文章 正文
本地安装了dify,通过创建应用(工作流),爬取网页信息,如图所示:
创建应用:
配置开始节点:
通过配置开始节点,传递URL采集链接参数。
配置工具节点(Firecrawl):
前提进入Firecrawl网页进行注册,注册后提供key进行授权。
选择输入变量,选择上一个开始节点的URL输出。
配置大模型deepseek:
设置提示词:
请严格按以下规则处理文本中的磁力链接:
1. **定位锚点**
- 主特征:以`magnet:?xt=urn:btih:`开头
- 辅助特征:包含40位十六进制字符(0-9, a-f)
- 容错策略:
允许前后有空格/换行符
允许被HTML标签包裹(如)
排除非BTIH协议的磁力链(如`urn:ed2k`)
2. **提取规则**
- 完整截取从`magnet:`开始到最后一个有效字符为止
- 若同一文本含多个链接,用JSON数组输出
- 示例:
输入 → "下载地址:(magnet:?xt=urn:btih:123...abc)"
输出 → ["magnet:?xt=urn:btih:123...abc"]
3. **验证环节**
- 检查哈希值长度是否为40位(不区分大小写)
- 自动过滤跟踪器参数(如`&tr=http://...`可保留但非必需)
4. **异常处理**
- 当检测到哈希值长度不足时,返回错误类型:
`{"error": "INVALID_HASH_LENGTH", "expected":40, "actual":20}`
- 遇到编码问题(如URLEncode转换)时自动解码:
输入`magnet:?xt=urn%3Abtih%3Dabc...` → 输出解码后标准格式
5. **防御性编程**
- 屏蔽含高危参数的链接(如`&xs=恶意识别码`)
- 对非标准端口做警告标记(如`:8080`)
配置结束节点:
结束节点的输入是上一节点大模型的输出。
这样点击运行验证就可以查看了,需要采集什么,通过大模型的提示词来分析过滤。
猜你喜欢
- 2025-03-19 从右至左查找数据,你在加班,同事用10种方法解决!
- 2025-03-19 Excel的使用技巧快来看看有哪些是你不知道的。
- 2025-03-19 EXCEL如何实现从右向左的逆向查询?INDEX和VLOOKUP都能实现
- 2025-03-19 新手通关Excel快捷键大全!(excel快捷键大全和excel 常用技巧整理)
- 2025-03-19 数字转整形骚操作(数字转换数字)
- 2025-03-19 分离字符串的操作(分离字符串的操作过程)
- 2025-03-19 VBA数组:打造Excel高效数据处理引擎
- 2025-03-19 Go 语言中不可不知的语法糖,使得代码更加简洁、高效
- 2025-03-19 vlookup你真的学会了吗?提取数据它比Ctrl+E更好用,就是太难了
- 2025-03-19 EXCEL技巧——身份证号码如何提取出星座
- 最近发表
- 标签列表
-
- cmd/c (57)
- c++中::是什么意思 (57)
- sqlset (59)
- ps可以打开pdf格式吗 (58)
- phprequire_once (61)
- localstorage.removeitem (74)
- routermode (59)
- vector线程安全吗 (70)
- & (66)
- java (73)
- org.redisson (64)
- log.warn (60)
- cannotinstantiatethetype (62)
- js数组插入 (83)
- resttemplateokhttp (59)
- gormwherein (64)
- linux删除一个文件夹 (65)
- mac安装java (72)
- reader.onload (61)
- outofmemoryerror是什么意思 (64)
- flask文件上传 (63)
- eacces (67)
- 查看mysql是否启动 (70)
- java是值传递还是引用传递 (58)
- 无效的列索引 (74)