365股票网 - 股票资讯综合门户

您的位置:首页 >股指 >

数据实验室 | 词云与词频,一个关于基金定期报告的“大项目”

时间:2021-09-16 18:23:38 | 来源:新浪基金

最近搞了个大项目。

给基金的中期报告和年度报告做了个语义分析。选了全市场上的,470只股票型基金,从2010年至2020年的基金中报和年报,一共一万多份报告,120多万字。本来想用excel处理数据,结果电脑硬生生给跑宕机了。

后来用了3个工具:

第一个是jieba分词,120万字的素材,分解出来5100多个汉语词汇,“结巴”中文分词,是一个挺好用的中文分词组件,把文字内容拆解成,许多关键词的组合

第二个是pandas,做数据处理

解出来的词汇,数量加总,倒序,再批量删掉那些出现频率很高的“废话”的语气词、标点符号、空话套话,的在了么,等等。

其实这些功能,Excel也能做,就是数据量太大啦,pandas效率会更高。

最后用WordCloud生成词云,字体越大,代表这个词出现频率越多,权重越高。

其实一点儿也不复杂。

先说大的结论吧,在这120万字的基金中报和年报中,出现频率最高的5个关键词是

经济,8283次,

市场,7603次,

投资,4907次,

行业,4764次,

估值,4600次,

这也好理解,股票市场是国家经济的晴雨表,而我们A股市场的气候在它的成长史中,虽然说显得比较情绪化,但大体上是和市场经济发展的脉络同方向的。

近几年的投资者,会越来越关注价格(估值)和赛道(行业),毕竟在一切都用数据说话的投资市场上,没有什么是真正的无价之宝。

如果我们把这些几乎每个报告都会提到的比较“宏大”的关键词删掉,或许可以更直观地看到每个报告,或者说每个时代,真正关心的东西。

同时,我也发现了一些,像我们这样年轻人,并不那么了解的历史情况,

从2010年和2011年的词云中可以看见,2011年的时候,通胀有多严重?

来源:上海期货交易所发展研究中心《上海期货交易所发展研究中心》

2012年开始,曾经上演过的,牛股倍出的创业板大行情。

2012年年报

我们也看到了市场相对风格极端的年份,市场曾经的机会与风险。

从2019年底开始,新冠疫情,和对抗疫情,成为全人类避之不及、但始终挥之不去的主旋律。

而科学技术的战略地位,正在越来越得到资金的关注和认可。

而如果我们拆解掉那些,宏大的词汇,重复的叙事,可能会找到更多,权重不断上升的,不断变化的,代表了新生事物、新的时代的关键词。消费,5G,新能源,以及,一些在更长远的话语体系里,永恒的命题:中国,复苏,增长,机会,长期。

最后,我们还是会建议大家,可以再去仔细地阅读一下基金的定期报告,我们的词频其实更像是把基金经理的市场观点,那些智慧的碎片和片段,拆解,重组,碰撞出一些火花。

其实完整的文字,完整的报告数据,是更加有温度和时代的共振的。那些基金隐藏在水面下的全部持仓,甚至有的基金经理可能定期会买自己的基金,也会体现在报告中。

在中国的资本市场上,赛道宽阔,产业纵深,不断有行业的消亡与新生,交替往复,你会看到,有人笃守信仰,有人改变方向,有人打破常规,有人从深渊走向辉煌。你会看到赛道宽阔,产业纵深,不断有行业的消亡与新生,交替往复,也总有一些痕迹,把这一切记录下来。

注:观点仅供参考,不构成投资建议或承诺。市场有风险,投资需谨慎。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。