更新日志
tsfresh 使用 语义化版本控制
版本 0.21.0
- 重大变更
停止支持 python 3.7 和 3.8 (#1100)
- Bug修复/拼写错误/文档
通过依赖
pywavelets
包进行 cwt 计算,修复与 scipy 1.15 及更高版本的不兼容性 (#1097)改进特征提取器的代码质量 (#1103)
通过 tox, bisect 和 docker 改进开发者体验 (#1093, #994, #1102)
版本 0.20.3
- Bug修复/拼写错误/文档
修复问题 #1073: 更新 setup.cfg 以要求更高版本的 scipy (#1081)
extract_relevant_features 现在将 chunksize 传递给 extract_features (#1083)
修复适用于 numpy >= 2.0 的代码和测试 (#1085)
更新 tsfresh.feature_extraction.feature_calculators.skewness 使其与不忽略 nan 的设计原则保持一致 (#1066)
修复 pipeline 笔记本中的拼写/语法错误 (#1082)
添加了恢复线程限制的建议 (#1069)
修复 01 示例笔记本,避免训练集和测试集之间信息泄露
特征计算器返回类型文档 (#1070)
版本 0.20.2
- 新增功能
使 Dask 和 Distributed 成为可选依赖项 (#1061)
查看和设置并行作业数(N Jobs)(#1029)
- Bug修复/拼写错误/文档
并行化效率的额外说明 (#1046)
更新文档提取设置为清晰和格式 (#1033)
拼写错误 (#1031, #1034, #1049, #1048)
版本 0.20.1
- 新增功能
使 tsfresh 与 numpy 1.24 (#1018) 和 pandas 2.0 (#1028) 兼容
- Bug修复/拼写错误/文档
在 check_if_pandas_series 中使用 pandas Index.equals (#963)
包布局、CI/CD 和开发者设置更新
版本 0.20.0
- 重大变更
matrixprofile 包成为可选依赖项
- Bug修复/拼写错误/文档
修复适用于 pandas>1.3.5 的 Friedrich coefficients 特征提取
移动示例笔记本后修复文件路径
版本 0.19.0
- 重大变更
由于依赖 statsmodels 0.13,停止支持 Python 3.6
- 新增功能
改进文档 (#831, #834, #851, #853, #870)
添加 absolute_maximum 和 mean_n_absolute_max 特征 (#833)
使设置可序列化 (#845, #847, #910)
对于 n_jobs=1 禁用多进程 (#852)
添加 black, isort 和 pre-commit (#876)
- Bug修复/拼写错误/文档
修复用于 lempel_ziv_complexity 的时间序列到序列的转换 (#806)
修复 range count 配置 (#827)
重新措辞文档 (#893)
修复 statsmodels 弃用问题 (#898, #912)
修复 requirements 中的拼写错误 (#903)
将 statsmodels 版本提升至 v0.13 (#
更新了参考文献
版本 0.18.0
- 新增功能
允许任意滚动大小 (#766)
允许进行多类显著性检验 (#762)
为 RelevantFeatureAugmenter 添加多类选项 (#782)
新增 matrix_profile 特征 (#793)
新增 query similarity counter 特征 (#798)
新增均方根特征 (#813)
- Bug修复/拼写错误/文档
不将笔记本测试的覆盖率发送到 codecov (#759)
修复笔记本中的拼写错误 (#757, #780)
修复 make_forecasting_frame 的输出格式 (#758)
修复徽章并删除基准测试
修复 BY 笔记本绘图 (#760)
改进时间序列预测示例 (#763)
也在 dask 中抑制警告 (#769)
更新 relevant_feature_augmenter.py (#779)
修复 quick_start.rst 中的列名 (#778)
改进相关性表格函数文档 (#781)
修复问题 #789 “如何添加自定义特征”中的拼写错误 (#790)
警告时转换为正确的类型 (#799)
修复文档中的小拼写错误 (#802)
将不需要的文件类型添加到 gitignore (#819)
修复构建和测试失败 (#815)
修复 imputing 文档 (#800)
提升 scikit-learn 版本 (#822)
版本 0.17.0
我们将默认分支从“master”更改为“main”。
- 重大变更
将 roll_time_series 中构建的 id 从字符串更改为元组 (#700)
add_sub_time_series_index 同样如此 (#720)
- 新增功能
实现了 Lempel-Ziv-Complexity 和 Fourier Entropy (#688)
通过添加一个针对通用标识符的断言来防止 #524 (#690)
添加了 permutation entropy (#691)
添加了徽标 :-) (#694)
实现了 benford distribution 特征 (#689)
重构了笔记本 (#701, #704)
加速结果透视 (#705)
为 dask 绑定添加测试 (#719)
重构输入数据迭代以减少内存需求 (#707)
添加了基准测试 (#710)
使 dask 成为可能的输入格式 (#736)
- Bug修复
修复了选择中的一个错误,该错误导致所有索引无序的回归任务都出现错误 (#715)
修复了 readthedocs (#695, #696)
在 #705 后修复 spark 和 dask,并修复非 id 命名的 id 列问题 (#712)
修复预测笔记本中的问题 (#729)
如果可能,让 tsfresh 选择值列 (#722)
从 coveralls github action 迁移到 codecov (#734)
提高数据处理速度 (#735)
修复适用于更新、更严格的 pandas 版本的错误 (#737)
修复特征计算器文档 (#743)
版本 0.16.0
- 重大变更
修复特征名称中参数的排序 (#656)。现在,特征名称由所有参数的排序列表组成。对于所有非组合器特征而言,这曾经是正确的,现在对于组合器特征也同样适用。如果您依赖实际的特征名称,则这是一个重大变更。
滚动后更改 id (#668)。现在,数据原有的 id 仍然保留。此外,我们改进了没有时间列的 dataframe 的滚动方式以及新子时间序列的命名方式。文档也得到了很大改进。
- 新增功能
添加了变异系数 (#654)
将笔记本中的 datetimeindex 解释添加到文档中 (#661)
优化 RelevantFeatureAugmenter 以避免重复提取 (#669)
添加了函数 add_sub_time_series_index (#666)
添加了 Dockerfile
速度优化和速度测试脚本 (#681)
- Bug修复
将提取的 ar 系数增加到完整的参数范围。(#662)
文档修复 (#663, #664, #665)
重写了 sample_entropy 特征计算器 (#681)。现在它更快了,并且(希望)更准确。但您的结果会发生变化!
版本 0.15.1
更新日志和文档修复
版本 0.15.0
- 新增功能
添加 count_above 和 count_below 特征 (#632)
为 dask dataframes 和 pyspark dataframes 添加便利绑定 (#651)
- Bug修复
修复 sphinx 中的文档构建和特征表 (#637, #631, #627)
将脚本添加到 API 文档
对于旧版本的 python 跳过 dask 测试 (#649)
添加缺失的 distributor 关键字 (#648)
修复 cwt 的元组输入 (#645)
版本 0.14.1
修复 travis 部署
版本 0.14.0
- 重大变更
用 statsmodels 实现替换 Benjamini-Hochberg 实现 (#570)
- 重构和文档
travis.yml (#605)
gitignore (#608)
修复 c3 的 docstring (#590)
特性/pep8 (#607)
- 新增功能
提高测试覆盖率 (#609)
为 augmented_dickey_fuller() 添加“autolag”参数 (#612)
- Bug修复
特性/pep8 (#607)
修复 Windows 上使用多进程时警告过滤问题 (#610)
移除过时的日志配置 (#621)
用 statsmodels 实现替换 Benjamini-Hochberg 实现 (#570)
修复笔记本的内核和命名 (#626)
版本 0.13.0
停止支持 python 2.7 (#568)
- 修复的 Bug
修复 friedrich_coefficients 和 agg_linear_trend 中的缓存 (#593)
添加了对错误列名的检查以及此检查的测试 (#586)
确保不安装 tests 文件夹 (#599)
确保至少有一列可用作数据 (#589)
避免 energy_ratio_by_chunks 中的除零错误 (#588)
确保 get_moment() 使用浮点计算 (#584)
未提供 column_value 和 column_kind 时保留索引 (#576)
需要时添加 @set_property(“input”, “pd.Series”) (#582)
修复 longest strike 特征中的 off-by-one 错误(修复问题 #577)(#578)
添加 set_property 导入 (#572)
修复拼写错误 (#571)
修复熔化后的归一化输入的索引 (#563)
修复 travis (#569)
移除警告 (#583)
更新到最新的 python 版本 (#594)
- 优化
如果 ql >= qh,则从 change_quantiles 提前返回 (#591)
优化 mean_second_derivative_central (#587)
使用 Numpy 的 sum 函数提高性能 (#567)
优化 mean_change(修复问题 #542)并修正文档 (#574)
版本 0.12.0
- 修复的 Bug
friedrich coefficients 计算错误
特征选择选择了太多特征
roll_time_series 中被忽略的 max_timeshift 参数
添加 python 2 的弃用警告
添加了对基于索引的特征的支持
- 新的特征计算器
linear_trend_timewise
使 RelevantFeatureAugmenter 可用于交叉验证的 pipeline 中
将 scipy 依赖项提高到 1.2.0
版本 0.11.2
修改 energy_ratio_by_chunks 中的 chunking 以使用所有数据点
修复 spkt_welch_density 的警告
调整“value_count”和“range_count”的默认设置
- 新增内容
为 agg_autocorrelation 函数添加 maxlag 参数
现在,输入 DataFrame 的 kind 列被转换为 str 类型,旧的派生 FC_Settings 可能会失效
仅当 extract_features 中的 kind_to_fc_parameters 也设置为 None 时,才将 default_fc_parameters 设置为 ComprehensiveFCParameters()
移除了 pyscaffold
使用渐近算法推导 kendal tau
版本 0.11.1
整体性能改进
移除了对依赖项的硬性固定
- 修复的 Bug
股票价格预测笔记本
多分类笔记本
版本 0.11.0
- 新的特征计算器
fft_aggregated
cid_ce
将 mean_second_derivate_central 重命名为 mean_second_derivative_central
如果在特征选择中未找到相关特征,则添加警告
为 from_columns 方法添加 columns_to_ignore 参数
添加 distribution 模块,包含对 Dask 上分布式特征提取的支持
版本 0.10.1
将测试套件拆分为单元测试和集成测试
- 修复了以下 Bug
使用值列的名称作为时间序列的 kind
阻止导致高内存消耗的子进程生成
修复从 travis 到 pypi 的部署
版本 0.10.0
- 新的特征计算器
偏自相关
向文档添加了已计算特征列表
- 添加了两个 ipython 笔记本,用于
演示对特征进行 PCA
演示 Benjamini Yekutieli 过程
- 修复了以下 Bug
dickey fuller 设置的引用不当
版本 0.9.0
- 新的特征计算器
ratio_beyond_r_sigma
energy_ratio_by_chunks
number_crossing_m
c3
fft coefficients 的 angle 和 abs
agg_autocorrelation
augmented_dickey_fuller 的 p-Value 和 usedLag
change_quantiles
- 更改了以下特征的计算方法
fft_coefficients
autocorrelation
time_reversal_asymmetry_statistic
- 移除了以下特征计算器
large_number_of_peak
mean_autocorrelation
mean_abs_change_quantiles
在特征选择中添加对多分类的支持
改进了滚动机制的描述
添加了用于预测任务的函数 make_forecasting_frame 方法
内部放弃了时间序列的 pandas 表示,带来了显著的速度提升
将特征计算器类型从 aggregate/aggregate with parameter/apply 替换为 simple/combiner
为 ipython 笔记本添加测试
添加了用于检查 dft 特征的笔记本
确保 RelevantFeatureAugmentor 始终进行 impute
- 修复了以下 Bug
impute 会将整列替换为均值
fft 系数仅在截断部分计算
允许抑制 impute 函数的警告
在 time_reversal_asymmetry_statistic 中添加了缺失的 lag
版本 0.8.1
- 新特征
线性趋势
聚合趋势
- 新的 sklearn 兼容转换器
PerColumnImputer
- 修复的 Bug
使 mannwhitneyu 方法与 scipy > v0.18.0 兼容
向 travis 添加了缓存
内部添加了特征的串行计算
版本 0.8.0
- API 重大变更
移除了特征提取设置对象,由关键字参数和普通字典 (fc_parameters) 替代
移除了特征选择设置对象,由关键字参数替代
添加了包含新 API 示例的笔记本
在文档中添加了关于新 API 的章节
调整了旧的笔记本和文档以适应新 API
版本 0.7.1
向滚动工具添加了最大偏移量参数
在 FAQ 中添加了关于如何在 Windows 上使用 tsfresh 的条目
- 大幅降低了以下特征的运行时长
cwt_coefficient
index_mass_quantile
number_peaks
large_standard_deviation
symmetry_looking
移除了基线单元测试
- Bug修复
按样本进行的并行 imputing 在 chunks 上执行,导致结果不确定
在非 float32 的 dtypes 上进行 imputing 未能正常工作
多处文档改进
版本 0.7.0
新的滚动工具,用于将 tsfresh 应用于时间序列预测任务
- Bug修复
index_mass_quantile 使用了时间序列容器的全局索引
与 id_column 同名的索引破坏了并行化
friedrich_coefficients 和 max_langevin_fixed_point 偶尔会停滞
版本 0.6.0
特征选择的进度条
新特征:确定性动力学最大不动点的估计
新笔记本:演示如何在包含训练集和测试集的数据 pipeline 中使用 tsfresh
移除无日志处理程序警告
修复了 RelevantFeatureAugmenter 中关于 evaluate_only_added_features 参数的 Bug
版本 0.5.0
新示例:driftbif 模拟
进一步改进并行化
文档中的语言改进
一些特征的性能改进
impute 函数的性能改进
新特征和特征重命名:sum_of_recurring_values, sum_of_recurring_data_points
版本 0.4.0
修复了几个 Bug:检查 UCI 数据集,mean_abs_change_quantiles 的索引越界错误
添加了表示提取过程进度的进度条
添加了按样本并行化
添加了单元测试,用于将特征提取结果与旧快照进行比较
添加了“high_comp_cost”属性
添加了 ReasonableFeatureExtraction 设置,仅计算没有“high_comp_cost”属性的特征
版本 0.3.1
修复了几个 Bug:关闭多进程池 / cwt calculator 索引越界 / index_mass_quantile 中的除零错误
现在默认禁用所有警告
对于单一类型的时间序列数据,值列的名称用作特征前缀
版本 0.3.0
修复了解析“NUMBER_OF_CPUS”环境变量的 Bug
现在特征按类型并行计算
版本 0.2.0
现在 p 值并行计算
修复了常数特征的 Bug
允许时间序列列命名为 0
将 uci repository 数据集迁移到 github 镜像
添加了特征计算器 sample_entropy
添加了 MinimalFeatureExtraction 设置
修复了 fourier coefficients 计算中的 Bug
版本 0.1.2
添加了对 python 3.5.2 的支持
修复了导致特征命名不确定的 Bug
版本 0.1.1
主要是 read-the-docs 文档、pypi readme 等的修复
版本 0.1.0
初始版本 :)