中国台湾地区在1995年开启了健康保险系统,在经历了一系列支出、共保率、医药报销比例等改革后,其健康保险系统已经逐渐趋于稳定。然而,自1998年来,健康保险系统持续出现财政赤字,而持续的经济损失也成为了中国台湾地区健康保险系统的主体问题之一,而健康保险系统的稳定与否是其能否继续正常运行的关键。在文章通过不同的方法来发现健康保险系统的关键影响因子,并预测未来的医保支出。
反向传播神经网络是学习模型最常见的网络。在本文中,作者对主模型应用了反向传播神经网络来预测中国台湾地区的健康保险系统的医疗支出。反向传播神经网络的结构大致上可以分为输入层、隐藏层与输出层。其模型结构如图1所示。
其中,输入层用来描述整个网络的输入变量与过程单元数量,且不同单元之间的转化关系为线性。隐藏层描述了过程单元之间的相互关系。过程单元的数量一般在实验基础上决定,且不同过程单元之间其为非线性关系。输出层的单元之间为非线性关系,用于描述网络的输出变量。
蒙特卡洛模拟主要运用系统的随机抽样,通过百万次的模拟后来计算健康保险系统的期望医疗花费支出。具体来说,通过建立lognormal分布并选择正真适合的均值与方差,来描述健康保险系统的治疗支出水平。
多因子回归分析大多数都用在两个或多个独立因子构成的回归方程。多因子回归分析已经被广泛的应用于科学,管理,工程,医学等领域。一般多因子方程的公式如下,其中y代表因变量,x代表自变量,β代表因子参数,ε代表随即误差。
在比较模型的不同输出方式时,作者使用了两种判断方法。第一种是平均绝对差异(MAPE),MAPE是一个相对量,当MAPE的值趋近于0时,说明模型的预测效果越好。MAPE的公式如下:
第二种判断方法是预测误差率和不平等系数(TIC),TIC的范围在0和1之间,当TIC等于0的时候证明预测结果完全等于实际结果。TIC的公式如下:
先前研究表明了个人的健康医疗支出的水平极大的取决于个人当时的健康状态。而通过筛选一系列风险因子是建立健康医疗模型的重要步骤。医疗花费的水平不仅取决于医疗前的费用,更取决于人口结构因素、医药渠道、个人健康测试和当前经济发展形势。经过研究,作者确定了四个变量:
数据方面,该研究汇总了从1996年1月到2008年12月的样本数据,用于建立健康医疗预测模型。样本数据包括了被保人数,被保人的平均薪资,年龄指数,药企数量、人口死亡率、通胀率以及失业率。而目标变量则为实际的医疗保险支出。作者对得到的样本数据做了初步的总结,如下表所示。
在该文章中,作者使用了1996年到2007年的144组数据作为训练组,并使用2008年的12个数据作为测试组。表2显示了模型的结构。模型分为了三个阶段,第一阶段为输入层,包括了七个独立因子,而输出层为费用支出。
研究用了不同的模拟次数(50,100,250,500,750,1000)来预测健康医保支出。结果见表3。蒙特卡洛模拟预测了2008年几个月的医疗费用。用偏离实际的健康医保支出和绩效指标来衡量预测误差的程度。根据结果得出,不同次数的模拟得到的性能指标非常相似。经过750次模拟,性能指标得到了较好的改善。蒙特卡洛模拟的结果能作为对健康医保支出模型的评估。
我们观察因变量的残差。实际医疗费用没有严重偏离45度线。因此,可以断言正态性假设是有效的。此外,标准化预测值和标准化残差呈现随机分布。因此,建立了独立等方差假设。另外,其他自变量采用连续变量,包括参保人口、参保人口平均薪资总额、人口老龄化指数、定点医疗机构数量、死亡率、通货膨胀率、失业率。下列公式显示了结果, 多变量回归分析的P值达到了5%,MAPE和TIC的值分别为6.345,0.0043.
下表代表了不同方法下模型模拟值和实际值的比较情况。测试结果为了反向传播神经网络是最好的预测模型,其次是多因子回归方程,最后是蒙特卡洛模拟。然而,在估计预测模型高估支出时将损失的机会成本和模型低估支出时所损失的资源时,蒙特卡洛模拟和多因子线性回归有一定的概率会是更好的预测方法。同时,作者分析了三个影响健康费用支出的重要因子。他们分别是:人群年龄参数,通胀率以及参保人的数量。
作者通过三种不同的模型研究了中国台湾地区的健康保险系统下医疗费用支出的预测,并比较了不同模型下对于费用支出的预测能力。使用反向传播神经网络的方法来预测医保支出的方法是具有借鉴意义的。这或许能为其他医疗保险体系的支出预测提供一个可行的方向。