NLP抽取合同文本信息,全面增强基金分类基金分类是FOF管理流程的起点,传统的分类方法大都过度依赖文本或持仓信息。本文则以NLP技术深挖基金合同的文本信息,对未建仓的主动权益基金实施有监督的文本分类算法;对已建仓的基金则在聚合文本、持仓、净值等信息的基础上采用无监督的层次化聚类方法,全面增强基金分类的效果。
对未建仓基金进行有监督的文本分类合同文本是未建仓基金唯一可用的信息,且人们常以既有的标签体系对新基金归类。本文即根据业界习惯预定义一个含15个类别的标签体系,按基金名称标注部分样本作为训练集,然后采用中文NLP领域领先的百度 ERNIE模型对主动权益基金实施有监督的文本分类。模型在测试集上的准确率达89.83%,对行业、主题类基金的预测准确率多在80%以上。
对已建仓基金聚合文本、持仓等信息实施无监督聚类在以TF-IDF算法将量化抽取文本主题的基础上,本文从持仓组合、净值走势、交易偏好、截面特征、合同文本维度对已建仓基金画像,并实施基于预定义距离矩阵的层次化聚类。针对平替产品投资的需求,我们使用距离阈值横切出组内相似度高的社区结构;针对FOF组合投资的需求,我们先以CH指标遴选构建组间异质性强的文本聚类结构,然后结合持仓等信息优化迭代出细化、稳健的聚类体系。
结合文本、持仓信息识别基金“风格漂移”基金分类的事前法、事后法均无法识别风格漂移现象。本文在结合文本、持仓信息聚类的基础上,提出了两种量化识别基金“风格漂移”的方法。第一种是通过度量与基准产品的文本、持仓向量距离差来定义风格漂移的产品;第二种则是在文本聚类的基础上根据组内样本的行业分布差异进行定义。
风险提示:基金的业绩分析基于历史数据,计量模型则带有一定的假设,据此预测未来收益存在失准、失效的可能。
相关报告
《指数基金投资指南》读书笔记:一本从零开始给投资新手的实用入门书籍
1.1w+
类型:读书笔记
上传时间:2021-01
标签:基金、投资)
语言:中文
金额:8.8元
国家各部委定调2022年工作重点
9015
类型:政策法规
上传时间:2022-01
标签:国家部委、2022、工作重点)
语言:中文
金额:5积分
高盛2022年经济展望--2022.01
7915
类型:宏观
上传时间:2022-01
标签:高盛、2022、经济展望)
语言:中文
金额:免费
2022年全球消费者洞察(中国报告)
6954
类型:专题
上传时间:2022-09
标签:2022、消费者洞察、中国报告)
语言:中文
金额:5积分
《投资的60个基本》读书笔记
6947
类型:读书笔记
上传时间:2022-09
标签:投资理财、基金、股票)
语言:中文
金额:9.9元
2022中国消费者洞察主报告(中)
6430
类型:行研
上传时间:2022-05
标签:消费者、2022)
语言:中文
金额:5积分
2022年元宇宙Meta知识精选笔记分享
5177
类型:专题
上传时间:2022-07
标签:2022、元宇宙、Meta)
语言:中文
金额:5积分
传媒大学118页PPT:2022元宇宙研究报告:多元视角
4694
类型:专题
上传时间:2022-01
标签:2022、元宇宙)
语言:中文
金额:5积分
看DAO 2022
4583
类型:专题
上传时间:2022-01
标签:投资、技术、2022)
语言:中文
金额:5积分
Jungle Scout-亚马逊2022年卖家状况报告(中文版)
4473
类型:专题
上传时间:2022-04
标签:亚马逊、2022、卖家状况)
语言:中文
金额:5积分
积分充值
30积分
6.00元
90积分
18.00元
150+8积分
30.00元
340+20积分
68.00元
640+50积分
128.00元
990+70积分
198.00元
1640+140积分
328.00元
微信支付
余额支付
积分充值
应付金额:
0 元
请登录,再发表你的看法
登录/注册