腾讯云 – 编码无悔 / Intent & Focused

前段时间我看到腾讯云的促销广告，其“轻量应用服务器”首年的费用才85元（配置：1核CPU，2GB内存，50GB磁盘，带宽4Mbps，流量包500GB/月），可谓相当便宜，于是入手一台，安装了Ubuntu系统，用于一些简单的测试场景。

轻量应用服务器（Lighthouse）是新一代面向中小企业和开发者的云服务器产品，具备轻运维、开箱即用的特点，适用于小型网站、博客、论坛、电商以及云端开发测试和学习环境等轻量级业务场景，相比传统云服务器更加简单易用，并通过一站式融合常用基础云服务帮助用户便捷高效的构建应用，是您使用腾讯云的最佳入门途径。

查看本系列文章合集，请看这里。

为 training 数据做标注，这可能是一个艰巨的任务，也可能是一个有捷径的任务。
有时候，我们可以依据一些已知的规则来标注文本，比如不同的数据是从不同的来源获取到的，从来源可以知道它们所属的类别，这是一个捷径。不过我这里不具备这样的条件。
我的数据来源是网上的各种新闻，不是某些专业领域的数据，这种比较常见的文本分类任务，可以利用国内的几大云服务商提供的免费接口来完成。阿里云、腾讯云都有这样的接口。
以腾讯云为例，其“人工智能→自然语言处理”产品提供了文本分类功能：

文本分类接口能够对用户输入的文本进行自动分类，将其映射到具体的类目上，用户只需要提供待分类的文本，而无需关注具体实现。

该功能基于千亿级大规模互联网语料和LSTM、BERT等深度神经网络模型进行训练，并持续迭代更新，以保证效果不断提升。

目前已提供：

● 通用领域分类体系，包括15个分类类目，分别是汽车、科技、健康、体育、旅行、教育、职业、文化、军事、房产、娱乐、女性、奥运、财经以及其他，适用于通用的场景。

● 新闻领域分类体系，包括37个一级分类类目，285个二级分类（详细请见类目体系映射表），已应用于腾讯新闻的文章分类。

更多垂直领域的分类体系即将推出，敬请期待。

默认接口请求频率限制：20次/秒。

该API每天有50万次免费调用额度，用来标注数据够用了：

如果你对这个接口的分类结果准确性有疑虑的话，可以亲自拿一些新闻的文本试一试，就会发现它的效果真的不错，完全可以用来当作人工标注的结果了，毕竟是大厂出品嘛。

[原创] 在腾讯云的轻量应用服务器Lighthouse上用Squid开启HTTP代理服务

[原创] 使用 fastText 做中文文本分类(3)