:p[网上有很多人在宣传这个工具如何好用,但还是找不到任何一个完整的教程]{.center}
:p[这篇文章会教你如何运行这个工具]{.center}
:p[由于爬虫这种东西并不太安全,本文没有解决网页不能正常爬取的教程,请自行解决信息抓取问题]{.center}
:p[本文是基于Windows的教程,其他系统可能需要酌情修改步骤]{.center}
首席情报官(Wiseflow)是一个敏捷的信息挖掘工具,可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息,自动做标签归类并上传数据库。
python(实测3.11.6可以正常运行)
ollama客户端
git
wiseflow项目本体
pocketbase数据库
https://www.python.org/ftp/python/3.11.6/python-3.11.6-amd64.exe
下载并安装,记得勾选add path
https://github.com/git-for-windows/git/releases/download/v2.46.0.windows.1/Git-2.46.0-64-bit.exe
下载并安装,默认不需要修改一直下一步就行
https://ollama.com/download/OllamaSetup.exe
下载并安装
然后打开命令行输入代码更换pip源为华为源
pip config set global.index-url https://mirrors.huaweicloud.com/repository/pypi/simple
然后输入,克隆项目
git clone https://github.com/TeamWiseFlow/wiseflow
下载备用
cd wiseflow
cd core
pip install -r requirements.txt
将上文下载的pockeybase数据库解压到 /wiseflow/core/pb
进入pb目录然后命令行执行
.\pocketbase migrate up
.\pocketbase --dev admin create 随意设置邮箱 随意设置密码
将/core/scripts文件夹内的.sh脚本移动到/core目录
修改start_backend.sh
#!/bin/bash
set -o allexport
source ../.env
set +o allexport
exec uvicorn backend:app --reload --host localhost --port 8077
修改start_tasks.sh
#!/bin/bash
set -o allexport
source ./env
set +o allexport
exec python tasks.py
修改内容是“../env”删掉一个“.”
然后右键sh文件,点击打开方式旁边的修改,改成下图中的程序
将wiseflow文件夹内的env_sample复制一份改成env
然后修改成如下内容
export LLM_API_KEY=" " ##这里是个空格,不加会报错
export LLM_API_BASE="http://127.0.0.1:11434/v1/" ##for local model services or calling non-OpenAI services with openai_wrapper
##strongly recommended to use the following model provided by siliconflow (consider both effect and price)
export GET_INFO_MODEL="qwen2:7b"
export REWRITE_MODEL="qwen2:7b"
export HTML_PARSE_MODEL="qwen2:7b" ##or"01-ai/Yi-1.5-9B-Chat"
export PROJECT_DIR="work_dir"
export PB_API_AUTH="上文设置的邮箱|上文设置的密码"
# export "PB_API_BASE"="" ##only use if your pb not run on 127.0.0.1:8090
export WS_LOG="verbose" ##for detail log info. If not need, just delete this item.
然后把env这个文件复制到core文件夹内
由于官方建议使用 qwen2:7b,那么就用这个模型,有更好的可以在评论区推荐
然后命令行输入
ollama pull qwen2:7b
先双击启动core文件夹内的 start_backend.sh和start_pb.sh
浏览器输入 http://127.0.0.1:8090/_/
然后输入上文设置的邮箱和密码
要添加 sites和tags
别忘了打开activated
然后运行start_tasks.sh
就能看到命令行显示爬取的文章内容,也可以在articles看到
目前项目不支持rsshub,要爬取某些网站请自行解决问题
由于笔者使用的电脑是AMD 7600MXT显卡直接爆显存了,不知道效果如何,只能确定这样配置能运行
项目官方说
SiliconFlow官宣Qwen2-7B-Instruct、glm-4-9b-chat等数款LLM在线推理服务即日起免费,这意味着您可以“零成本”使用首席情报官进行信息挖掘啦!
截至本文发布时间已经改成付费了,按照程序抓取数据量来看,用付费api成本会很高