下面的代码是通过东财的 api 的获取数据,然后对数据进行线性回归,求得不同时间段的线性回归数据,包括线性回归期望值、残差标准差、斜率、截距、相关系数、P 值、标准误差。
代码
import pandas as pd
import requests
import numpy as np
import json
from scipy import stats
from datetime import datetime, timedelta
# 通过东方财富api获取K线数据
def json_to_dfcf(secid, fields1, fields2, klt, fqt, beg, end, lmt): # 参数参考我的东方财富api文档
url = f'http://push2his.eastmoney.com/api/qt/stock/kline/get?&secid={secid}&fields1={fields1}&fields2={fields2}&klt={klt}&fqt={fqt}&beg={beg}&end={end}&lmt={lmt}'
response = requests.get(url)
data = response.json()['data']['klines'] # 获取json数据下的'data',再获取'data'下的'klines'数据
data = [x.split(',') for x in data] # 数据以',',将数据循环的放到pandas中
df = pd.DataFrame(data, columns=['close'],dtype=float)
return df
print(json_to_dfcf('0.000001','f1','f53',101,1,20230101,20230314,0))
json_to_dfcf('0.000001','f2','f53',101,1,20230101,20230314,0).to_csv('东方财富.csv')
# 东方财富api获取指数、股票、场内基金的线性回归期望值和残差标准差等
def linear_regression_dfcf(symbol, years_list): # 参数分别为代码,种类和调取数据年份列表
df_list = []
for many_years in years_list: # 将调取年份列表放入循环
# 获取指定股票近多少年的收盘价数据
today = datetime.now().date() # 获取当前时间
start_date = (today - timedelta(days=365*many_years)).strftime('%Y%m%d') # 获取多少年之前的时间
end_date = today.strftime('%Y%m%d') # 对今天的时间设置取结束时间,总设定格式
y = json_to_dfcf(symbol,'f1','f53',101,1,start_date,end_date,0)["close"] # 调取自定义函数中的"close"列
x = np.arange(len(y))
slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
expected_value = intercept + slope * len(y) # 计算期望值
residuals = y - (intercept + slope * x) # 残差
std_residuals = np.std(residuals) # 残差标准差
# 构建结果DataFrame
index=[f"{many_years}year_expected_value", f"{many_years}year_std_residuals", f"{many_years}year_slope", f"{many_years}year_intercept", f"{many_years}year_r_value", f"{many_years}year_p_value", f"{many_years}year_std_err"]
data = [expected_value, std_residuals, slope, intercept, r_value, p_value, std_err]
# 上面数据分别表示线性回归期望值、残差标准差、斜率、截距、相关系数、P值、标准误差
result_df = pd.DataFrame(data=[data], index=[symbol], columns=index)
df_list.append(result_df)
result = pd.concat(df_list, axis=1)
return result
# 通过读取excel中的列“代码”(注意导入的是str,不是int),进行怎么,需要借助自定义函数dustom_functions(code, kind)
def get_circulate_xslx_str(kind, file_index_code,sheet): # 参数为导入的excel表格和第几张表
codes = pd.read_excel(file_index_code, sheet_name=sheet, engine='openpyxl')['代码'].astype(str).tolist() # 读取csv文件,选择“代码”列,并将其转换为列表。int导入的是整数型
all_data = pd.DataFrame()
for code in codes:
ratios = dustom_functions(code,kind) # 假设有一个名为get_valuation_ratios的函数,返回指定股票的估值比率数据。
all_data = pd.concat([all_data, ratios])
return all_data
# 调取自定义函数,进行循环获取数据
def dustom_functions(code, kind):
if kind == 'api线性回归':
return linear_regression_dfcf(code, [7,3,1])
print(linear_regression_dfcf('1.000300', [7,3,1]))
print(get_circulate_xslx_str('api线性回归','测试.xlsx',0)) # 注意,需要更改测试中的代码,在东财api中需要加入市场,比如0.000001
代码说明
代码主要是对于 Python 中常用的数据处理、Web 开发、爬虫和机器学习等领域的应用进行了展示。具体包括:
- 使用 pandas、requests、numpy、json、scipy 等库对于数据进行处理和分析。
- 自定义函数 json_to_dfcf,通过东方财富 api 获取 K 线数据,并将数据放到 pandas 中。
- 自定义函数 linear_regression_dfcf,通过东方财富 api 获取指数、股票、场内基金的线性回归期望值和残差标准差等。
- 自定义函数 get_circulate_xslx_str,通过读取 excel 中的列“代码”,进行循环获取数据。
- 调用自定义函数 dustom_functions,进行循环获取数据。
其中,代码中的一些具体细节需要注意,比如:
- 在使用 selenium 包时,需要改用 Edge 浏览器的框架。
- 在调用自定义函数 get_circulate_xslx_str 时,需要注意导入的是 str,而不是 int 类型的数据。
- 在调用自定义函数 linear_regression_dfcf 时,需要将代码加入市场,比如 0.000001。