《量化金融R语言初级教程》一2.3　使用真实数据

更新时间：2022-09-27 23:05:53

本节书摘来异步社区《量化金融R语言初级教程》一书中的第2章，第2.3节，作者：【匈牙利】Gergely Daróczi（盖尔盖伊） , 等译者：高蓉 , 李茂责编：胡俊英，更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.3　使用真实数据

投资组合的最优化完全整合在随后我们会讨论的多个R包中，知道这一点非常有用。但是，跑步之前***先会走路。因此，我们从一个简单的自制R函数开始，我们把它一行行地在下面列出来。

minvariance <- function(assets, mu = 0.005) {
　　 return <- log(tail(assets, -1) / head(assets, -1))
　　 Q　　　<- rbind(cov(return), rep(1, ncol(assets)),
　　　　　　　 colMeans(return))
　　 Q　　　<- cbind(Q, rbind(t(tail(Q, 2)), matrix(0, 2, 2)))
　　 b　　　<- c(rep(0, ncol(assets)), 1, mu)
　　 solve(Q, b)
}

这就是我们在“（拉格朗日）定理”这一节讨论的算法的直接运用。

为了做出示范，我们从Quandl超集中选取了一些IT股票的价格(http://www.quandl.com/USER_1KR/1KT)，Quandl是一种公共服务，提供了轻松获取大批定量数据的途径。这个超链接［（http://www.quandl.com/api/v1/datasets/USER_1KR/1KT.csv）］指向一个可下载的逗号分隔值（CSV）文件，可以保存在硬盘上，并通过read.csv导入到R中，此外还有一种更直观的方法来完成这种操作，就是借助于包括在上述超链接中的键的帮助。

> library(Quandl)
> IT <- Quandl('USER_1KR/1KT',
+　　　　　 start_date = '2008-01-01', end_date = '2012-12-31')
Warning message:
In Quandl("USER_1KR/1KT", start_date = "2008-01-01", end_date = 
"2012-12-31"):

如果你没有使用认证令牌，可能会出现上面的警告信息。请访问http://www.quandl.com/help/r，或者每天仅从Quandl下载10个数据集。

> str(IT)
'data.frame': 1259 obs. of 6 variables:
$ Date: Date, format: "2008-01-02" "2008-01-03" ...
$ AAPL: num 199 195 191 181 180 ...
$ GOOG: num 693 685 680 654 653 ...
$ MSFT: num 35.8 35.2 35.2 34.5 34.7 ...
$ IBM : num 109 105 104 100 100 ...
$ T　 : num 41.5 41.2 41 41.1 41.3 ...

因此，我们载入Quandl包，它提供的Quandl函数需要以下这几个参数。

第一个参数（code=USER_1KR/1KT）是数据集在Quandl上的代码。
start_date和end_date参数可以任意指定我们感兴趣的时间段，在这里我们设置为从五年前到现在。
更多的选择请参考?Quandl。例如，可以使用type导入已经存储在某些时间序列对象中的数据，来代替最初的data.frame。
在新创建的IT变量上运行str命令，结果显示了R对象的内部结构，它当前包括一个Date域和5个数值格式的资产价格。

将价格从IT中指派给assets之后（不包括第一列Date），我们来逐行运行之前的minvariance函数的主体部分。首先，我们计算资产收益率，除了第一个值，每个值都除以自身的前一个值，再对每个商计算log。

> assets <- IT[, -1]
> return <- log(tail(assets, -1) / head(assets, -1))

请注意，收益率也可以直接由timeSeries包的returns函数计算，为了教学的目标，我们在这里不调用它。为了确认命令做了什么，我们来检查新创建的变量的前一些值。

> head(return)
　　　　 AAPL　　　　GOOG　　　　　MSFT　　　　　IBM　　　　　　T
2 -0.019560774 -0.011044063 -0.0160544217 -0.038916144 -0.0072534167
3 -0.020473237 -0.008161516 -0.0008521517 -0.008429976 -0.0043774389
4 -0.054749384 -0.038621208 -0.0183544011 -0.036242948  0.0007309051
5 -0.006142967 -0.001438475  0.0046202797 -0.001997005  0.0051014322
6 -0.050317921 -0.035793820 -0.0396702524 -0.023154566 -0.0514590970
7  0.036004806  0.023482511  0.0292444412 -0.003791959 -0.0123204844

接着，我们来建立拉格朗日定理指定的线性等式系统的左侧：left[ {begin{array}{*{20}{c}}Q{overrightarrow 1 }\{overrightarrow r }end{array}} right]，其中我们按行（rbind）把协方差矩阵（cov），根据数据集列数（ncol）重复（rep）次数的1的组合向量，以及收益率的均值（colMeans）结合在一起。

> Q <- rbind(cov(return), rep(1, ncol(assets)), colMeans(return))

最后，结果如下。

> round(Q, 5)
　　　　AAPL　　GOOG　　MSFT　　 IBM　　　　 T
AAPL 0.00063 0.00034　0.00025 0.00023　0.00022
GOOG 0.00034 0.00046　0.00023 0.00019　0.00018
MSFT 0.00025 0.00023　0.00034 0.00018　0.00018
IBM　0.00023 0.00019　0.00018 0.00024　0.00016
T　　0.00022 0.00018　0.00018 0.00016　0.00028
　　 1.00000 1.00000　1.00000 1.00000　1.00000
　　 0.00075 0.00001 -0.00024 0.00044 -0.00018

请注意，为了结果易读，我们已经将运算结果保留至5位小数。还有请注意，微软（Microsoft，MSFT）和美国电话电报公司（AT&T）的均值都为负。现在，我们也需要将矩阵tail的最后两行结合在一起生成新列放在矩阵左部，为了拉格朗日定理（2×2矩阵）指定的线性系统的完整性，再将其他部分设置为零。

> Q <- cbind(Q, rbind(t(tail(Q, 2)), matrix(0, 2, 2)))
> round(Q, 5)
　　　　AAPL　　GOOG　　 MSFT　　 IBM　　　　T
AAPL 0.00063 0.00034　0.00025 0.00023　0.00022 1　0.00075
GOOG 0.00034 0.00046　0.00023 0.00019　0.00018 1　0.00001
MSFT 0.00025 0.00023　0.00034 0.00018　0.00018 1 -0.00024
IBM　0.00023 0.00019　0.00018 0.00024　0.00016 1　0.00044
T　　0.00022 0.00018　0.00018 0.00016　0.00028 1 -0.00018
　　 1.00000 1.00000　1.00000 1.00000　1.00000 0　0.00000
　　 0.00075 0.00001 -0.00024 0.00044 -0.00018 0　0.00000

在默认情形下，mu是0.005（在最小方差函数的参数中指定）。这是线性系统右侧向量left[ {begin{array}{*{20}{c}}0\1\mu end{array}} right]的最后一个值。

> mu <- 0.005
> b <- c(rep(0, ncol(assets)), 1, mu)
> b
[1] 0.000 0.000 0.000 0.000 0.000 1.000 0.005

在成功建立线性系统的各个部分之后，你只剩下了求解的任务。

> solve(Q, b)
　　　　AAPL　　 GOOG　　　　　　　MSFT　　　　　IBM　　　　　　T
2.3130600636  -1.0928257246 -2.7830264740 4.9871895547 -2.4243974197 
-0.0001254637 -1.2082468413

上面的代码等价于一步运行这个函数，它会取数据集和最优的可选收益率作为参数。为了在想要的预期收益率水平下获得最小方差，计算结果给出了最优权重和朗格朗日乘子。

> minvariance(IT[, -1])
　　　　AAPL　　　　　GOOG　　　　 MSFT　　　　 IBM　　　　　　 T
2.3130600636　-1.0928257246 -2.7830264740 4.9871895547 -2.4243974197
-0.0001254637 -1.2082468413

注意，在Microsoft和AT&T的股票前面，Google的最优化头寸为做空。我们可以使用这个结果进而寻找最优化问题的完整解，借助其他软件和“write.csv”函数，这个求解过程还可以进一步深化。除了在给定的收益率水平上计算最小方差，我们还可以对更大范围的收益率求解最小方差。如果我们修正这份代码，可以得到如下的结果。

frontier <- function(assets) {
　　return <- log(tail(assets, -1) / head(assets, -1))
　　Q <- cov(return)
　　n <- ncol(assets)
　　r <- colMeans(return)
　　Q1 <- rbind(Q, rep(1, n), r)
　　Q1 <- cbind(Q1, rbind(t(tail(Q1, 2)), matrix(0, 2, 2)))
　　rbase <- seq(min(r), max(r), length = 100)
　　s <- sapply(rbase, function(x) {
　　　　y <- head(solve(Q1, c(rep(0, n), 1, x)), n)
　　　　y %*% Q %*% y
　　})
　　plot(s, rbase, xlab = 'Return', ylab = 'Variance')
}

除了在资产的最小收益率和最大收益率之间（seq）取过一个不同的收益率值（length = 100），和除了计算了最优投资组合的方差，这份代码与之前的版本一样。因此，我们可以画出收益率-方差对（s和rbase）来表示问题的解。结果显示在图2-2中。

《量化金融R语言初级教程》一2.3　使用真实数据

在方差-收益率平面上，理想的收益率-最小方差曲线叫作投资组合前沿（Portfolio Frontier）。忽略它向下方倾斜的部分（同样的方差可以用更高的预期收益率达到），我们得到了有效前沿（Efficient Frontier），毫无疑问必须选择有效前沿上的组合。

众所周知，两个给定的收益率水平就足以计算投资组合前沿，把得到的投资组合连接起来就得到了整个前沿。

相似的结果可以通过R包中的一些内置函数来计算，无需太多代码。例如，fPortfolio包提供了一组有用方法，适合于timeSeries对象的应用问题。为了完成这个目的，我们必须把最初的IT数据集资产列转换为一个根据第一列定义的timeSeries对象。

> library(timeSeries)
> IT <- timeSeries(IT[, 2:6], IT[, 1])

就像我们在均值-方差函数中所做的那样，通过对每一个元素除以前一个值再计算对数，收益率可以定义为时间序列，但是，一些有用的时间序列命令（比如lag）可以更轻松地实现这个目的。

> log(lag(IT) / IT)

或者，使用其他内置函数可以是更简单的方式。

> IT_return <- returns(IT)

现在，我们已经有了一个时间序列对象，因此绘出收益率很容易。

> chart.CumReturns(IT_return, legend.loc = 'topleft', main ='')

IT_return中5个股票的收益率看上去和图2-3所示的一样。

《量化金融R语言初级教程》一2.3　使用真实数据

通过绘出portfolioFrontier的结果，可以通过交互方式画出上述的前沿图像（图2-3）。

> library(fPortfolio)
> plot(portfolioFrontier(IT_return))

Make a plot selection (or 0 to exit):

1:　 Plot Efficient Frontier
2:　 Add Minimum Risk Portfolio
3:　 Add Tangency Portfolio
4:　 Add Risk/Return of Single Assets
5:　 Add Equal Weights Portfolio
6:　 Add Two Asset Frontiers [LongOnly Only]
7:　 Add Monte Carlo Portfolios
8:　 Add Sharpe Ratio [Markowitz PF Only]

为了模仿我们在上述代码中实现的内容，我们绘出带有卖空约束的前沿图像。

> Spec = portfolioSpec()
> setSolver(Spec) = "solveRshortExact"
> Frontier <- portfolioFrontier(as.timeSeries(IT_return),
+　　　　　　　　 Spec, > constraints = "Short")
> frontierPlot(Frontier, col = rep('orange', 2), pch = 19)
> monteCarloPoints(Frontier, mcSteps = 1000, cex = 0.25, pch =19)
> grid()

在上面的这段代码中，我们通过一个使无限制卖空卖出的投资组合最优化的函数（solveRshortExact），设置了一个特定的portfolioSpecS4对象。通过橙色圆点（pch = 19）表示的前沿图形（frontierPlot）给出了计算的结果（portfolioFrontier）。一些小（cex =0.25）的蒙特卡罗模拟的点以及作为背景的网格线也添加到了图上，这些都显示在图2-4中。

《量化金融R语言初级教程》一2.3　使用真实数据

上一篇 : ：《Wireshark网络分析就这么简单》—你一定会喜欢的技巧下一篇 : 《写给程序员的数据挖掘实践指南》——5.5Kappa统计量

《量化金融R语言初级教程》一2.3　使用真实数据

2.3　使用真实数据

相关阅读

推荐文章

《量化金融R语言初级教程》一2.3 使用真实数据

2.3 使用真实数据

相关阅读

推荐文章

《量化金融R语言初级教程》一2.3　使用真实数据

2.3　使用真实数据