大数据炒股

发布时间:2015-06-22 22:16:36

大数据炒股

大数据时代

(一)概念

这是一个变革时代,是信息时代,是大数据时代。大数据正在以不可阻拦的磅礴气势,与当代同样具有革命意义的最新科技进步 (如纳米技术、生物工程、全球化等)一起,揭开人类新世纪的序幕。那么到底大数据是什么,规范来讲,大数据即为巨量资料(big data),是由数量巨大、结构复杂、类型众多数据构成的数据集合;是基于云计算的数据处理与应用模式,通过数据的整合共享、交叉复用形成的智力资源和知识服务能力,其核心的价值是依托互联网的云计算对于海量数据进行存储和分析。

(二)特征

大数据的4V特点:

Volume(大量)数据体量巨大:从TB级别,跃升到PB级别;

Velocity(高速)处理速度快:1秒定律,与传统的数据挖掘技术有本质的不同;

Variety(多样)数据类型繁多:网络日志、视频、图片、地理位置信息等等;

Value(价值)价值密度低: 以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。

(三)发展领域

大数据技术离你我都并不遥远,它已经来到我们身边,渗透进入我们每个人的日常生活消费之中,时时刻刻,事事处处,我们无法逃遁,因为它无微不至:它提供了光怪陆离的新媒体,难以琢磨的云计算,无法抵御的仿真环境。大数据让人类对一切事物的认识回归本源,它通过影响经济生活、政治博弈、社会管理、文化教育科研、医疗保健休闲等等行业,与每个人产生密切的联系。

而尤为引人注目之处,便是大数据在现今时代在股票投资中的应用。虽然大数据是眼下炙手可热的词汇,但在投资界,利用大数据投资不算新鲜事。从当年英格兰报社的信鸽、费城股票交易所的信号灯到报纸电话,再到如今的互联网、云计算、大数据,前沿技术迅速在投资领域落地。

如何利用大数据炒股?具体来讲,在资本市场中,传统的技术分析主要是“量价分析”,分析对象是股价和成交量,看均线、RSI、OBV等。而通过“大数据”分析市场,显然是量价之外的技术“第三维”,即包括量化非结构化的信息(政策文件、自然事件、地理环境、科技创新等)以及市场情绪(通过计算机做出分析新闻、研究报告、社交信息、搜索行为得到)来度量股价变动因素,以此来有效预测未来股市活跃度(以交易量指标衡量)及股价走势的变化。

大数据炒股——“互联网+股市”、“互联网+证券”

(一)案例解读——以中证百度百发策略100指数、财经大数据策略指数为例

随着互联网技术的发展,资本市场的跨界合作进行地如火如荼。2014年7月8日,中证指数有限公司、百度、广发基金管理有限公司跨界合作,宣布推出“中证百度百发策略100指数”。这是国内首只互联网大数据金融市场指数和首个可直接反映市场情绪的指数。此次三方的跨界合作,成为互联网金融向纵深发展的创新标杆,同时颠覆性地改造了传统股票市场指数编制方法和量化投资方法。

中证百度百发策略100指数指数以2008年12月31日为基日,以该日收盘后所有样本股的调整市值为基期,以1000点为基点。该炒股模型除了运用百度提供的用户搜索和行为数据指标之外,还融入了8个财务指标的财务因子、动量因子和动量反转策略两大数据,筛选出100只基本面好、成长空间良好,能反映未来一个月内市场行业轮动热点的样本股。

同时,百度率先推出一款可以利用全网“大数据”的炒股APP,百度股市通。得益于百度的大数据引擎和深度学习研究院等积累,百度股市通实现了信息搜集方式和大数据应用的创新突破。产品聚合了百度每天数亿量级的政经类搜索数据和数百万新闻资讯信息,并创建了一套基于中国股市的“知识图谱”,通过专业的数据挖掘和分析技术,将每天产生的新闻信息、搜索数据等与股票建立起相应的关系,从而实现通过各种信息的热度变化来实时分析股票市场板块、个股的异动。目前,“百度股市通”独家提供的“智能选股”服务,基于大数据的“知识图谱”,帮助用户快速获知全网关注的投资热点,并掌握这些热点背后的驱动事件及相关个股,有效解决了股民最基础、最迫切的“信息不对称”问题,使普通股民可以跨越信息搜集难题,享受机构大户VIP式的高端信息服务。

另一方面,新浪财经与东方基金也以不甘落后的态势推出财经大数据策略指数,通过新闻、评论、微博、点击量和点击路径等多位途径量化“民意”,测量股票“热度”,并衡量器成长固执指标后,再遴选个股纳入指数。

(二)大数据炒股的核心及优势分析

事实上,无论是百度、新浪财经还是南方基金的互联网金融大数据,从某种意义上看都是度量非结构化投资数据、捕捉投资者情绪的量化方法之一,可用它反映市场的投资意愿或预期。这也是利用大数据炒股的核心思想。

从一定程度上来讲,大数据炒股利用的是巨量数据汇集而成的整合性信息对股价的预测,这给股民们带来的是好的讯息,对于股价变动的因素进行不断地完善与改进,使其更为准确,有用性更强。从历史数据可以看到,百发100指数自发布以来表现不俗。累计收益方面,百发100自2009年以来已经取得了545%(截至2014年6月30日)的收益,远高于同期沪深300指数19%的收益,更高于上证综指的12%,也远胜全市场业绩基准中证全指56%的累计收益。此外,截至9月24日,百发100指数自去年以来涨幅已达47.42%。含着大数据“金钥匙”出身的大数据策略指数表现同样大幅超越大盘,2010年1月29日至2014年9月12日,i300涨幅超过180%,i100涨幅超过290%,同期沪深300指数下跌了近24%。此外i100去年以来则累计上涨了35.56%。有目共睹,运用大数据炒股诚然给大家到来了切实的收益。

、大数据炒股存在的问题

(一案例解读——以华尔街长期资本管理公司为例

华尔街曾利用股价大数据赚了很多钱,当然随后也亏了很多钱。这个领域的代表就是由两位诺贝尔经济学奖得主创办的长期资本管理公司(LTCM)长期资本管理公司以"不同市场证券间不合理价差生灭自然性"为基础,制定了"通过电脑精密计算,发现不正常市场价格差,资金杠杆放大,入市图利"的投资策略。斯科尔斯和默顿将金融市场历史交易资料,已有的市场理论、学术研究报告和市场信息有机结合在一起,形成了一套较完整的电脑数学自动投资模型。他们利用计算机处理大量历史数据,通过连续而精密的计算得到两种不同金融工具间的正常历史价格差,然后结合市场信息分析它们之间的最新价格差。如果两者出现偏差,并且该偏差正在放大,电脑立即建立起庞大的债券和衍生工具组合,大举套利入市投资;经过市场一段时间调节,放大的偏差会自动恢复到正常轨迹上,此时电脑指令平仓离场,获取偏差的差值。

但是模型假设前提和计算结果都是在历史统计基础上得出的,但历史统计永不可能完全涵盖未来现象;LTCM投资策略是建立在投资组合中两种证券的价格波动的正相关的基础上。尽管它所持核心资产德国债券与意大利债券正相关性为大量历史统计数据所证明,但是历史数据的统计过程往往会忽略一些小概率事件,亦即上述两种债券的负相关他们基于大数据统计的套利模型遭遇了亚洲金融危机、俄罗斯债券危机这样的“非常态事件”,半年亏了43亿美元,最后被迫由美联储接管

(二大数据炒股缺陷

1. 在收集并判断用户情绪的过程中,计算机对于语意的理解存在不准确的情况。

有的人在表达的过程中,不自然语意的语义分析技术尚不成熟。会直抒胸臆,而会使用反语、双关语等间接的方式表达。如果通过搜索关键词来分析,可能会漏掉一些表意不明的用户情绪,造成分析的误差。

2. 大数据讲求相关性而非因果。

大数据通过分析用户的搜索量以及情绪来预测股票走势。虽然有数据表明用户的搜索量和热情程度与股价的走势有较高的相关性,但是并不能说明这两者之间有因果关系。用户的搜索量高不一定就必然导致股价的上升,因为关注度不一定带来股票的需求

3. 个股分析中难以排除人为制造的扰动。

如果是在一篮子股票中,分析结果取决与所有关键字的加权搜索量和众多用户的不同反应,某个关键字的搜索量变动对整体数据分析结果的影响或许是较小的,对股价的预期走势也不会产生过大的影响。但是当分析个股时,如果“水军”故意刷关键字,提高了某个关键字的搜索量,会在很大程度上影响数据分析结果。

4. 大数据炒股具有一定的滞后性。

有一种说法是,股票市场中真正赚到钱的都是各个上市公司的董秘,他们有自己的小群体,并掌握着各个上市公司内部的重要信息。按规定,他们不能购买自己公司的股票,但是他们可以使用这些信息在彼此之间进行交换。在这些重要信息被市场上的一般股民知道之前,他们已经完成了股票的买入或卖出。而当这些有效信息被一般股民所知,也就变成了无效信息,因为公开信息所产生的效果已经反映到了股价中。因此我认为,大数据利用搜索量和用户的情绪分析来进行股价的预期,当有大量用户在搜索某个关键词时,说明这个关键词的热度已经达到了一定的程度,低价买入的用户已经完成了买入操作,股价已经涨上去了。此时再进行买入操作,股价的上升空间很小,甚至已经达到了顶峰,或者已经开始进入下降阶段。

大数据炒股

相关推荐