xChar
·15 days ago

:p[网上有很多人在宣传这个工具如何好用,但还是找不到任何一个完整的教程]{.center}

:p[这篇文章会教你如何运行这个工具]{.center}

:p[由于爬虫这种东西并不太安全,本文没有解决网页不能正常爬取的教程,请自行解决信息抓取问题]{.center}

:p[本文是基于Windows的教程,其他系统可能需要酌情修改步骤]{.center}

还是介绍一下这个项目罢

首席情报官(Wiseflow)是一个敏捷的信息挖掘工具,可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息,自动做标签归类并上传数据库。

屏幕截图 2024-08-24 215708

运行环境准备

python(实测3.11.6可以正常运行)

ollama客户端

git

wiseflow项目本体

pocketbase数据库

安装环境

安装python

https://www.python.org/ftp/python/3.11.6/python-3.11.6-amd64.exe

下载并安装,记得勾选add path

安装git

https://github.com/git-for-windows/git/releases/download/v2.46.0.windows.1/Git-2.46.0-64-bit.exe

下载并安装,默认不需要修改一直下一步就行

安装ollama

https://ollama.com/download/OllamaSetup.exe

下载并安装

换pip源

然后打开命令行输入代码更换pip源为华为源

pip config set global.index-url https://mirrors.huaweicloud.com/repository/pypi/simple

克隆项目

然后输入,克隆项目

git clone https://github.com/TeamWiseFlow/wiseflow

pocketbase数据库

https://github.com/pocketbase/pocketbase/releases/download/v0.22.19/pocketbase_0.22.19_windows_amd64.zip

下载备用

安装项目环境

cd wiseflow
cd core
pip install -r requirements.txt

配置项目

wiseflow配置

将上文下载的pockeybase数据库解压到 /wiseflow/core/pb

进入pb目录然后命令行执行

.\pocketbase migrate up
.\pocketbase --dev admin create 随意设置邮箱 随意设置密码

将/core/scripts文件夹内的.sh脚本移动到/core目录

修改start_backend.sh

#!/bin/bash
set -o allexport
source ../.env
set +o allexport
exec uvicorn backend:app --reload --host localhost --port 8077

修改start_tasks.sh

#!/bin/bash
set -o allexport
source ./env
set +o allexport
exec python tasks.py

修改内容是“../env”删掉一个“.”

然后右键sh文件,点击打开方式旁边的修改,改成下图中的程序

屏幕截图 2024-08-24 213503

将wiseflow文件夹内的env_sample复制一份改成env

然后修改成如下内容

export LLM_API_KEY=" " ##这里是个空格,不加会报错
export LLM_API_BASE="http://127.0.0.1:11434/v1/" ##for local model services or calling non-OpenAI services with openai_wrapper
##strongly recommended to use the following model provided by siliconflow (consider both effect and price)
export GET_INFO_MODEL="qwen2:7b"
export REWRITE_MODEL="qwen2:7b"
export HTML_PARSE_MODEL="qwen2:7b" ##or"01-ai/Yi-1.5-9B-Chat"
export PROJECT_DIR="work_dir"
export PB_API_AUTH="上文设置的邮箱|上文设置的密码"
# export "PB_API_BASE"="" ##only use if your pb not run on 127.0.0.1:8090
export WS_LOG="verbose" ##for detail log info. If not need, just delete this item.

然后把env这个文件复制到core文件夹内

ollama配置

由于官方建议使用 qwen2:7b,那么就用这个模型,有更好的可以在评论区推荐

然后命令行输入

ollama pull qwen2:7b 

运行项目

先双击启动core文件夹内的 start_backend.sh和start_pb.sh

浏览器输入 http://127.0.0.1:8090/_/

然后输入上文设置的邮箱和密码

要添加 sites和tags

屏幕截图 2024-08-24 214655

屏幕截图 2024-08-24 214748

别忘了打开activated

然后运行start_tasks.sh

就能看到命令行显示爬取的文章内容,也可以在articles看到

后记

目前项目不支持rsshub,要爬取某些网站请自行解决问题

由于笔者使用的电脑是AMD 7600MXT显卡直接爆显存了,不知道效果如何,只能确定这样配置能运行

项目官方说

SiliconFlow官宣Qwen2-7B-Instruct、glm-4-9b-chat等数款LLM在线推理服务即日起免费,这意味着您可以“零成本”使用首席情报官进行信息挖掘啦!

截至本文发布时间已经改成付费了,按照程序抓取数据量来看,用付费api成本会很高

Loading comments...