st 数据分析解答
1. 疑惑
提示
为什么要将特殊处理上移一位
根据代码,数据集包括时间序列数据(如年度的标签数据,表示是否 ST 或 *ST
)。
将“特殊处理“这一列上移一位,实际上是为了使用前一时期的数据来预测下一时期的情况,这是时间序列预测模型常见的做法。
在金融领域,尤其是在股票市场监管中,了解公司未来可能被特殊处理(如 ST)的风险是很重要的,这种方法可以帮助构建这种预测模型。
例子:假设数据集中有一个股票在 2018年被标记为 ST(特殊处理),在 2019 年没有被标记为 ST。这进行时间序列预测时,我们希望用 2018 年的数据来预测 2019年的特殊处理状态。通过 2018 年的 ST 标记向前移动到 2019 年的行,我们就可以使用 2018 年的财务指标来预测 2019 年的 ST 状态。
这样的数据处理方式有助于模型学习如何根据一年的数据预测下一年的结果。
提示
data.iloc[:,2:19] = scaler.fit_transform(data.iloc[:,2:19])
这一步是什么意思
这一步是数据的标准化处理。
使用 StandardScaler 进行标准化,可以将数据调整为均值为 0,标准差为 1 的分布。这主要用于模型输入前的数据预处理,有助于改善模型的收敛速度和性能,特别是在使用梯度下降算法时。在您的代码中,选择了第3到第19列(基于0索引)进行这种处理,通常包括了各种财务指标。
提示
为什么可以剔除那些因子:
data1=data.drop(columns=['毛利','速动比率','现金比率','营业收入(同比增长率)','净利润(同比增长率)','扣除非经常损益后的净利润/净利润','基本每股收益(同比增长率)','总资产','总资产(同比增长率)','资产负债率'])
- 多重共线性
- 冗余信息「删除和保留:高度相关」简化模型,提高模型计算效率
- 数据缺失和不完整
- 平均值
- 众数填充
- 前一个数据填充
- 模型的解释性
- 为什么可以剔除那些因子
- 怎么实现的逻辑回归, 预测结果说明了啥什么
`data.iloc[:,1:17].corr()` 是一个在Pandas中用来计算数据帧中列之间的相关系数矩阵的函数。这个命令具体地说,`data.iloc[:,1:17]` 选取了数据帧 `data` 的第2列到第17列(Python 的索引从0开始),而 `.corr()` 则是计算这些选定列之间的相关系数。
### 什么是相关系数?
相关系数是衡量两个变量之间线性关系强度和方向的统计指标。在Pandas中,默认使用的是Pearson相关系数,它的值范围从-1到1:
- **1 表示完全正相关**:一个变量的增加伴随着另一个变量的增加。
- **-1 表示完全负相关**:一个变量的增加伴随着另一个变量的减少。
- **0 表示没有线性相关**:两个变量之间没有明显的线性关系。
### 应用实例
假设您的数据帧 `data` 包含了金融指标如股价、交易量、财务指标等。使用 `data.iloc[:,1:17].corr()` 可以帮助您理解这些指标之间的关系。例如,您可能发现:
- 营业收入与净利润高度正相关,这很符合常理,因为收入增加通常会带来利润的增加。
- 股价与市盈率之间可能也有一定的相关性,这有助于您分析市场对公司估值的态度。
### 结论
通过计算相关系数矩阵,您可以快速识别出数据中的某些关键关系,这在金融分析、风险管理、特征选择等领域尤为重要。此外,相关系数的计算也常常是构建更复杂统计模型、机器学习模型的前期重要步骤。
欢迎关注我公众号:AI悦创,有更多更好玩的等你发现!
公众号:AI悦创【二维码】
AI悦创·编程一对一
AI悦创·推出辅导班啦,包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发、Linux、Web 全栈」,全部都是一对一教学:一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然,还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线,随时响应!微信:Jiabcdefh
C++ 信息奥赛题解,长期更新!长期招收一对一中小学信息奥赛集训,莆田、厦门地区有机会线下上门,其他地区线上。微信:Jiabcdefh
方法一:QQ
方法二:微信:Jiabcdefh
- 0
- 0
- 0
- 0
- 0
- 0