我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...

腾讯ai实验室出品的nlp语料库是如何利用的?这个nlp语料库如何下载?这个txt文件如何转化为bin文件?这些就是本文要解决的问题。

苏南大叔:腾讯ai实验室发布的nlp语料库,如何转化为向量bin文件? - nlp-bin
腾讯ai实验室发布的nlp语料库,如何转化为向量bin文件?(图3-1)

这里是苏南大叔的平行空间笔记本博客,感谢您的访问。本文测试环境:win10python@3.6.8gensim@4.1.2

腾讯ai实验室语料库下载

下载地址:

苏南大叔:腾讯ai实验室发布的nlp语料库,如何转化为向量bin文件? - ailab的nlp语料库
腾讯ai实验室发布的nlp语料库,如何转化为向量bin文件?(图3-2)

下载到的是个压缩包,压缩包解压之后是个超级大的txt文件。这里,苏南大叔选择了一个最小最精简的版本,解压缩后也是有1.8g巨大的占地面积。

转化为vec.bin文件

在做预料分析的时候,需要的是个基于向量的bin文件。当然,使用txt文件也是可以的。但是,影响效率,显得不是那么专业。所以,这里需要做预先处理。

pip install gensim

基于python的转化代码如下:

from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('./tencent-ailab-embedding-zh-d100-v0.2.0-s.txt', binary=False)
model.save_word2vec_format('./vec.bin',binary=True)

苏南大叔:腾讯ai实验室发布的nlp语料库,如何转化为向量bin文件? - 转换代码
腾讯ai实验室发布的nlp语料库,如何转化为向量bin文件?(图3-3)

经过了十多分钟的漫长等待,然后1.8gtxt文件变成了786Mbin文件,这个vec.bin文件留作后续文章中使用。

可能存在的问题

如果执行代码的时候,提示语料库文件无法找到的话(文件确实存在)。

FileNotFoundError: [Errno 2] No such file or directory: './tencent-ailab-embedding-zh-d100-v0.2.0-s.txt'

可以考虑增加下面的代码:

import os
os.chdir(os.path.dirname(__file__))

更多方案,可以参考文章:

相关链接

总结

nlp的道路上,苏南大叔也是刚刚学习,所以,这里和大家共同进步。欢迎关注苏南大叔的系列文章。

如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。

 【福利】 腾讯云最新爆款活动!1核2G云服务器首年50元!

 【源码】本文代码片段及相关软件,请点此获取更多信息

 【绝密】秘籍文章入口,仅传授于有缘之人   nlp