优秀的编程知识分享平台

网站首页 > 技术文章 正文

获取收盘数据,处理为线性回归数据,Python库让你轻松搞定

nanyue 2025-02-13 13:32:12 技术文章 8 ℃


下面的代码是通过东财的 api 的获取数据,然后对数据进行线性回归,求得不同时间段的线性回归数据,包括线性回归期望值、残差标准差、斜率、截距、相关系数、P 值、标准误差。

代码

import pandas as pd
import requests
import numpy as np
import json
from scipy import stats
from datetime import datetime, timedelta
# 通过东方财富api获取K线数据
def json_to_dfcf(secid, fields1, fields2, klt, fqt, beg, end, lmt):     # 参数参考我的东方财富api文档
    url = f'http://push2his.eastmoney.com/api/qt/stock/kline/get?&secid={secid}&fields1={fields1}&fields2={fields2}&klt={klt}&fqt={fqt}&beg={beg}&end={end}&lmt={lmt}'
    response = requests.get(url)
    data = response.json()['data']['klines']    # 获取json数据下的'data',再获取'data'下的'klines'数据
    data = [x.split(',') for x in data]     # 数据以',',将数据循环的放到pandas中
    df = pd.DataFrame(data, columns=['close'],dtype=float)
    return df
print(json_to_dfcf('0.000001','f1','f53',101,1,20230101,20230314,0))
json_to_dfcf('0.000001','f2','f53',101,1,20230101,20230314,0).to_csv('东方财富.csv')

# 东方财富api获取指数、股票、场内基金的线性回归期望值和残差标准差等
def linear_regression_dfcf(symbol, years_list):    # 参数分别为代码,种类和调取数据年份列表
    df_list = []    
    for many_years in years_list:   # 将调取年份列表放入循环
        # 获取指定股票近多少年的收盘价数据
        today = datetime.now().date()   # 获取当前时间
        start_date = (today - timedelta(days=365*many_years)).strftime('%Y%m%d')    # 获取多少年之前的时间
        end_date = today.strftime('%Y%m%d')     # 对今天的时间设置取结束时间,总设定格式        
        y = json_to_dfcf(symbol,'f1','f53',101,1,start_date,end_date,0)["close"]    # 调取自定义函数中的"close"列
        x = np.arange(len(y))
        slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
        expected_value = intercept + slope * len(y)     # 计算期望值
        residuals = y - (intercept + slope * x)     # 残差
        std_residuals = np.std(residuals)   # 残差标准差
        # 构建结果DataFrame
        index=[f"{many_years}year_expected_value", f"{many_years}year_std_residuals", f"{many_years}year_slope", f"{many_years}year_intercept", f"{many_years}year_r_value", f"{many_years}year_p_value", f"{many_years}year_std_err"]
        data = [expected_value, std_residuals, slope, intercept, r_value, p_value, std_err]
        # 上面数据分别表示线性回归期望值、残差标准差、斜率、截距、相关系数、P值、标准误差
        result_df = pd.DataFrame(data=[data], index=[symbol], columns=index)
        df_list.append(result_df)
    result = pd.concat(df_list, axis=1)
    return result
    
# 通过读取excel中的列“代码”(注意导入的是str,不是int),进行怎么,需要借助自定义函数dustom_functions(code, kind)
def get_circulate_xslx_str(kind, file_index_code,sheet):   # 参数为导入的excel表格和第几张表
    codes = pd.read_excel(file_index_code, sheet_name=sheet, engine='openpyxl')['代码'].astype(str).tolist() # 读取csv文件,选择“代码”列,并将其转换为列表。int导入的是整数型
    all_data = pd.DataFrame()
    for code in codes:
        ratios = dustom_functions(code,kind) # 假设有一个名为get_valuation_ratios的函数,返回指定股票的估值比率数据。
        all_data = pd.concat([all_data, ratios])
    return all_data
    
# 调取自定义函数,进行循环获取数据
def dustom_functions(code, kind):
    if kind == 'api线性回归':
        return linear_regression_dfcf(code, [7,3,1])
print(linear_regression_dfcf('1.000300', [7,3,1]))
print(get_circulate_xslx_str('api线性回归','测试.xlsx',0))   # 注意,需要更改测试中的代码,在东财api中需要加入市场,比如0.000001


代码说明

代码主要是对于 Python 中常用的数据处理、Web 开发、爬虫和机器学习等领域的应用进行了展示。具体包括:

  1. 使用 pandas、requests、numpy、json、scipy 等库对于数据进行处理和分析。
  2. 自定义函数 json_to_dfcf,通过东方财富 api 获取 K 线数据,并将数据放到 pandas 中。
  3. 自定义函数 linear_regression_dfcf,通过东方财富 api 获取指数、股票、场内基金的线性回归期望值和残差标准差等。
  4. 自定义函数 get_circulate_xslx_str,通过读取 excel 中的列“代码”,进行循环获取数据。
  5. 调用自定义函数 dustom_functions,进行循环获取数据。

其中,代码中的一些具体细节需要注意,比如:

  1. 在使用 selenium 包时,需要改用 Edge 浏览器的框架。
  2. 在调用自定义函数 get_circulate_xslx_str 时,需要注意导入的是 str,而不是 int 类型的数据。
  3. 在调用自定义函数 linear_regression_dfcf 时,需要将代码加入市场,比如 0.000001。
最近发表
标签列表