xChar

CaCl2

其他语言版本: 简体中文, English

一、CaCl2 简介

CaCl2(CaCl2: Chinese Lexicon)中文名称:CA中文语言词库,源于某国内金融行业NLP项目,通过分析既有语料获得海量词条数据,同时按金融行业标准进行词条编目和分类,在自然语言处理NLP过程中,可以用于分词,关键词提取、内容摘要,实体识别等用途。 CaCl2项目目标在于向互联网提供行业性的、完整的、准确的的词库,完成中文语言NLP的基础性工作,让用户将更多精力投入业务研究。 CaCl2是开放项目CaOCl(CA开放中文词法分析工具包)重要组成部分。

统计数据

1.词条数

时间总词条数候选词条已公开词条预览版词条
2021-02-01约21,000,000约3,000,0002,553,806280,000

2.行业字典数

时间行业词典数已公开预览版未公开
2021-02-01一级行业282260
2021-02-01二级行业1045990

**详细统计状态,请参考链接:CaCl2开放状态统计

二、快速开始

1.Clone或按需下载CaCl2词库

Clone

git clone https://github.com/limccn/cacl2.git

下载

wget https://github.com/limccn/cacl2/blob/master/archive/v0.2/\[字典代码\].zip

2.导入和配置词库

CaCl2公开的词库支持在多种分词工具和环境中使用。

使用示例

import jieba
dict_name = '480000.txt'
jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))

使用示例

<properties>
<entry key="ext_dict">480000.txt;480100.txt;</entry>
</properties>

3.测试和开始使用CaCl2,Enjoy!

三、词库开源进度表

1.已开源

行业代码词库名称词条数量公开时间当前版本格式下载地址
480000银行-通用406122021-02v0.2txt480000.zip
480100银行-银行2244332021-02v0.2txt480100.zip
490000非银金融-通用3412352021-02v0.2txt490000.zip
490100非银金融-证券3111212021-02v0.2txt490100.zip
490200非银金融-保险310202021-02v0.2txt480200.zip

2.计划开源

行业代码词库名称词条数量计划公开时间当前版本格式下载地址
490300非银金融-多元金融10,0002Q 2021v0.2txt490300.zip

3.技术预览版

公开发布词典前,我们提供28个一级行业的各1万个词条的技术预览,词典实际包含的词条数量,请参考链接:CaCl2开放状态统计

行业代码词库名称收录数量格式下载地址
110000农林牧渔-通用10,000txt110000.zip
210000采掘-通用10,000txt210000.zip
220000化工-通用10,000txt220000.zip
230000钢铁-通用10,000txt230000.zip
240000有色金属-通用10,000txt240000.zip
270000电子-通用10,000txt270000.zip
280000汽车-通用10,000txt280000.zip
330000家用电器-通用10,000txt330000.zip
340000食品饮料-通用10,000txt340000.zip
350000纺织服装-通用10,000txt350000.zip
360000轻工制造-通用10,000txt360000.zip
370000医药生物-通用10,000txt370000.zip
410000公用事业-通用10,000txt410000.zip
420000交通运输-通用10,000txt420000.zip
430000房地产-通用10,000txt430000.zip
450000商业贸易-通用10,000txt450000.zip
460000休闲服务-通用10,000txt460000.zip
480000银行-通用10,000txt480000.zip
490000非银金融-通用10,000txt490000.zip
510000综合-通用10,000txt510000.zip
610000建筑材料-通用10,000txt610000.zip
620000建筑装饰-通用10,000txt620000.zip
630000电气设备-通用10,000txt630000.zip
640000机械设备-通用10,000txt640000.zip
650000国防军工-通用10,000txt650000.zip
710000计算机-通用10,000txt710000.zip
720000传媒-通用10,000txt720000.zip
730000通信-通用10,000txt730000.zip

**原始格式的词条,请参考:/dicts **详细的开放状态,请参考链接:CaCl2开放状态统计

四、使用效果

1.工具测试对比

1.1 使用CaCl2标准词库和Jieba标准库测试分词结果对比(@CaoWJ)

对比Jieba标准库测试分词结果对比图

1.2 使用CaCl2和金融行业词库对比【招金词酷】进行分词(@CaoWJ)

CaCl2和金融行业词库对比【招金词酷】进行分词

1.3 使用CaCl2和金融行业词库对比【招金词酷】进行分词提出摘要(@CaoWJ)

使用CaCl2和金融行业词库对比【招金词酷】进行分词提出摘要

2.指标和得分

2.1 行业数据集测试

2.1.1 金融行业(银行行业),分词测试

金融行业(银行行业),分词测试

2.1.2 金融行业(金融行业,不包含银行),分词测试

金融行业(金融行业,不包含银行),分词测试

2.2 标准数据集测试

标准数据集CTB5上测试分词

标准数据集ICWB2上测试分词

五、历史和变更日志

1.定期发布版本

版本发布时间变更日志
0.22021发布中的版本
0.1.12020使用申万行业分类对词库进行编目和分类,共28个一级行业和104个二级行业
0.12019第一个发布版本,包含来自互联网的2100万中文词条,主要来自百度百科,维基中文百科等来源

2.自动发布版本

最新版本发布周期发布时间变更日志
v0.2.21.01monthly2021-02-01金融行业(银行和非银金融)行业词库发布
v0.2.20.12monthly2021-01-01版本0.2的初版,开源第一版,提供28个一级行业的各1万个词条预览

**历史自动发布版本,请参考链接: 版本历史

六、License 许可证

1.开源软件许可证

CaCl2的源代码在Apache License 2.0许可下开源。

    Copyright 2021 limc.cn All rights reserved.
    
    Licensed under the Apache License, Version 2.0 (the "License");
    you may not use this file except in compliance with the License.
    You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

    Unless required by applicable law or agreed to in writing, software
    distributed under the License is distributed on an "AS IS" BASIS,
    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    See the License for the specific language governing permissions and
    limitations under the License.

2.共同创作许可证

CaCl2开放的词库,语料,模型等资料沿用Creative Commons BY-NC-SA 4.0知识共享许可协议。 CC BY-NC-SA

七、贡献和贡献者

感谢所有CaCl2贡献者的努力,我们欢迎所有愿意参与并贡献CaCl2项目的贡献者

1.如何贡献?

1.1 Fork或Star我们的CaCl2

1.2 在Github上参与CaCl2社区讨论

2.贡献者

@CaoWJ

八、常见问题

九、其他说明

CaCl2的部分内容来自互联网公开的信息和数据资料,CaCl2不保证数据的完整性和正确性,不构成任何建议。 我们没有持有本文提及的相关证券,与本文提及的相关公司没有任何关联关系。

十、参考资料

1.申银万国研究院行业分类标准.2014

Loading comments...