更新日志

tsfresh 使用语义化版本控制

版本 0.21.0

重大变更
- 停止支持 python 3.7 和 3.8 (#1100)
Bug修复/拼写错误/文档
- 通过依赖 pywavelets 包进行 cwt 计算，修复与 scipy 1.15 及更高版本的不兼容性 (#1097)
- 改进特征提取器的代码质量 (#1103)
- 通过 tox, bisect 和 docker 改进开发者体验 (#1093, #994, #1102)

版本 0.20.3

Bug修复/拼写错误/文档
- 修复问题 #1073: 更新 setup.cfg 以要求更高版本的 scipy (#1081)
- extract_relevant_features 现在将 chunksize 传递给 extract_features (#1083)
- 修复适用于 numpy >= 2.0 的代码和测试 (#1085)
- 更新 tsfresh.feature_extraction.feature_calculators.skewness 使其与不忽略 nan 的设计原则保持一致 (#1066)
- 修复 pipeline 笔记本中的拼写/语法错误 (#1082)
- 添加了恢复线程限制的建议 (#1069)
- 修复 01 示例笔记本，避免训练集和测试集之间信息泄露
- 特征计算器返回类型文档 (#1070)

版本 0.20.2

新增功能
- 使 Dask 和 Distributed 成为可选依赖项 (#1061)
- 查看和设置并行作业数（N Jobs）(#1029)
Bug修复/拼写错误/文档
- 并行化效率的额外说明 (#1046)
- 更新文档提取设置为清晰和格式 (#1033)
- 拼写错误 (#1031, #1034, #1049, #1048)

版本 0.20.1

新增功能
- 使 tsfresh 与 numpy 1.24 (#1018) 和 pandas 2.0 (#1028) 兼容
Bug修复/拼写错误/文档
- 在 check_if_pandas_series 中使用 pandas Index.equals (#963)
- 包布局、CI/CD 和开发者设置更新

版本 0.20.0

重大变更
- matrixprofile 包成为可选依赖项
Bug修复/拼写错误/文档
- 修复适用于 pandas>1.3.5 的 Friedrich coefficients 特征提取
- 移动示例笔记本后修复文件路径

版本 0.19.0

重大变更
- 由于依赖 statsmodels 0.13，停止支持 Python 3.6
新增功能
- 改进文档 (#831, #834, #851, #853, #870)
- 添加 absolute_maximum 和 mean_n_absolute_max 特征 (#833)
- 使设置可序列化 (#845, #847, #910)
- 对于 n_jobs=1 禁用多进程 (#852)
- 添加 black, isort 和 pre-commit (#876)
Bug修复/拼写错误/文档
- 修复用于 lempel_ziv_complexity 的时间序列到序列的转换 (#806)
- 修复 range count 配置 (#827)
- 重新措辞文档 (#893)
- 修复 statsmodels 弃用问题 (#898, #912)
- 修复 requirements 中的拼写错误 (#903)
- 将 statsmodels 版本提升至 v0.13 (#
- 更新了参考文献

版本 0.18.0

新增功能
- 允许任意滚动大小 (#766)
- 允许进行多类显著性检验 (#762)
- 为 RelevantFeatureAugmenter 添加多类选项 (#782)
- 新增 matrix_profile 特征 (#793)
- 新增 query similarity counter 特征 (#798)
- 新增均方根特征 (#813)
Bug修复/拼写错误/文档
- 不将笔记本测试的覆盖率发送到 codecov (#759)
- 修复笔记本中的拼写错误 (#757, #780)
- 修复 make_forecasting_frame 的输出格式 (#758)
- 修复徽章并删除基准测试
- 修复 BY 笔记本绘图 (#760)
- 改进时间序列预测示例 (#763)
- 也在 dask 中抑制警告 (#769)
- 更新 relevant_feature_augmenter.py (#779)
- 修复 quick_start.rst 中的列名 (#778)
- 改进相关性表格函数文档 (#781)
- 修复问题 #789 “如何添加自定义特征”中的拼写错误 (#790)
- 警告时转换为正确的类型 (#799)
- 修复文档中的小拼写错误 (#802)
- 将不需要的文件类型添加到 gitignore (#819)
- 修复构建和测试失败 (#815)
- 修复 imputing 文档 (#800)
- 提升 scikit-learn 版本 (#822)

版本 0.17.0

我们将默认分支从“master”更改为“main”。

重大变更
- 将 roll_time_series 中构建的 id 从字符串更改为元组 (#700)
- add_sub_time_series_index 同样如此 (#720)
新增功能
- 实现了 Lempel-Ziv-Complexity 和 Fourier Entropy (#688)
- 通过添加一个针对通用标识符的断言来防止 #524 (#690)
- 添加了 permutation entropy (#691)
- 添加了徽标 :-) (#694)
- 实现了 benford distribution 特征 (#689)
- 重构了笔记本 (#701, #704)
- 加速结果透视 (#705)
- 为 dask 绑定添加测试 (#719)
- 重构输入数据迭代以减少内存需求 (#707)
- 添加了基准测试 (#710)
- 使 dask 成为可能的输入格式 (#736)
Bug修复
- 修复了选择中的一个错误，该错误导致所有索引无序的回归任务都出现错误 (#715)
- 修复了 readthedocs (#695, #696)
- 在 #705 后修复 spark 和 dask，并修复非 id 命名的 id 列问题 (#712)
- 修复预测笔记本中的问题 (#729)
- 如果可能，让 tsfresh 选择值列 (#722)
- 从 coveralls github action 迁移到 codecov (#734)
- 提高数据处理速度 (#735)
- 修复适用于更新、更严格的 pandas 版本的错误 (#737)
- 修复特征计算器文档 (#743)

版本 0.16.0

重大变更
- 修复特征名称中参数的排序 (#656)。现在，特征名称由所有参数的排序列表组成。对于所有非组合器特征而言，这曾经是正确的，现在对于组合器特征也同样适用。如果您依赖实际的特征名称，则这是一个重大变更。
- 滚动后更改 id (#668)。现在，数据原有的 id 仍然保留。此外，我们改进了没有时间列的 dataframe 的滚动方式以及新子时间序列的命名方式。文档也得到了很大改进。
新增功能
- 添加了变异系数 (#654)
- 将笔记本中的 datetimeindex 解释添加到文档中 (#661)
- 优化 RelevantFeatureAugmenter 以避免重复提取 (#669)
- 添加了函数 add_sub_time_series_index (#666)
- 添加了 Dockerfile
- 速度优化和速度测试脚本 (#681)
Bug修复
- 将提取的 ar 系数增加到完整的参数范围。(#662)
- 文档修复 (#663, #664, #665)
- 重写了 sample_entropy 特征计算器 (#681)。现在它更快了，并且（希望）更准确。但您的结果会发生变化！

版本 0.15.1

更新日志和文档修复

版本 0.15.0

新增功能
- 添加 count_above 和 count_below 特征 (#632)
- 为 dask dataframes 和 pyspark dataframes 添加便利绑定 (#651)
Bug修复
- 修复 sphinx 中的文档构建和特征表 (#637, #631, #627)
- 将脚本添加到 API 文档
- 对于旧版本的 python 跳过 dask 测试 (#649)
- 添加缺失的 distributor 关键字 (#648)
- 修复 cwt 的元组输入 (#645)

版本 0.14.1

修复 travis 部署

版本 0.14.0

重大变更
- 用 statsmodels 实现替换 Benjamini-Hochberg 实现 (#570)
重构和文档
- travis.yml (#605)
- gitignore (#608)
- 修复 c3 的 docstring (#590)
- 特性/pep8 (#607)
新增功能
- 提高测试覆盖率 (#609)
- 为 augmented_dickey_fuller() 添加“autolag”参数 (#612)
Bug修复
- 特性/pep8 (#607)
- 修复 Windows 上使用多进程时警告过滤问题 (#610)
- 移除过时的日志配置 (#621)
- 用 statsmodels 实现替换 Benjamini-Hochberg 实现 (#570)
- 修复笔记本的内核和命名 (#626)

版本 0.13.0

停止支持 python 2.7 (#568)
修复的 Bug
- 修复 friedrich_coefficients 和 agg_linear_trend 中的缓存 (#593)
- 添加了对错误列名的检查以及此检查的测试 (#586)
- 确保不安装 tests 文件夹 (#599)
- 确保至少有一列可用作数据 (#589)
- 避免 energy_ratio_by_chunks 中的除零错误 (#588)
- 确保 get_moment() 使用浮点计算 (#584)
- 未提供 column_value 和 column_kind 时保留索引 (#576)
- 需要时添加 @set_property(“input”, “pd.Series”) (#582)
- 修复 longest strike 特征中的 off-by-one 错误（修复问题 #577）(#578)
- 添加 set_property 导入 (#572)
- 修复拼写错误 (#571)
- 修复熔化后的归一化输入的索引 (#563)
- 修复 travis (#569)
移除警告 (#583)
更新到最新的 python 版本 (#594)
优化
- 如果 ql >= qh，则从 change_quantiles 提前返回 (#591)
- 优化 mean_second_derivative_central (#587)
- 使用 Numpy 的 sum 函数提高性能 (#567)
- 优化 mean_change（修复问题 #542）并修正文档 (#574)

版本 0.12.0

修复的 Bug
- friedrich coefficients 计算错误
- 特征选择选择了太多特征
- roll_time_series 中被忽略的 max_timeshift 参数
添加 python 2 的弃用警告
添加了对基于索引的特征的支持
新的特征计算器
- linear_trend_timewise
使 RelevantFeatureAugmenter 可用于交叉验证的 pipeline 中
将 scipy 依赖项提高到 1.2.0

版本 0.11.2

修改 energy_ratio_by_chunks 中的 chunking 以使用所有数据点
修复 spkt_welch_density 的警告
调整“value_count”和“range_count”的默认设置
新增内容
- 为 agg_autocorrelation 函数添加 maxlag 参数
现在，输入 DataFrame 的 kind 列被转换为 str 类型，旧的派生 FC_Settings 可能会失效
仅当 extract_features 中的 kind_to_fc_parameters 也设置为 None 时，才将 default_fc_parameters 设置为 ComprehensiveFCParameters()
移除了 pyscaffold
使用渐近算法推导 kendal tau

版本 0.11.1

整体性能改进
移除了对依赖项的硬性固定
修复的 Bug
- 股票价格预测笔记本
- 多分类笔记本

版本 0.11.0

新的特征计算器
- fft_aggregated
- cid_ce
将 mean_second_derivate_central 重命名为 mean_second_derivative_central
如果在特征选择中未找到相关特征，则添加警告
为 from_columns 方法添加 columns_to_ignore 参数
添加 distribution 模块，包含对 Dask 上分布式特征提取的支持

版本 0.10.1

将测试套件拆分为单元测试和集成测试
修复了以下 Bug
- 使用值列的名称作为时间序列的 kind
- 阻止导致高内存消耗的子进程生成
- 修复从 travis 到 pypi 的部署

版本 0.10.0

新的特征计算器
- 偏自相关
向文档添加了已计算特征列表
添加了两个 ipython 笔记本，用于
- 演示对特征进行 PCA
- 演示 Benjamini Yekutieli 过程
修复了以下 Bug
- dickey fuller 设置的引用不当

版本 0.9.0

新的特征计算器
- ratio_beyond_r_sigma
- energy_ratio_by_chunks
- number_crossing_m
- c3
- fft coefficients 的 angle 和 abs
- agg_autocorrelation
- augmented_dickey_fuller 的 p-Value 和 usedLag
- change_quantiles
更改了以下特征的计算方法
- fft_coefficients
- autocorrelation
- time_reversal_asymmetry_statistic
移除了以下特征计算器
- large_number_of_peak
- mean_autocorrelation
- mean_abs_change_quantiles
在特征选择中添加对多分类的支持
改进了滚动机制的描述
添加了用于预测任务的函数 make_forecasting_frame 方法
内部放弃了时间序列的 pandas 表示，带来了显著的速度提升
将特征计算器类型从 aggregate/aggregate with parameter/apply 替换为 simple/combiner
为 ipython 笔记本添加测试
添加了用于检查 dft 特征的笔记本
确保 RelevantFeatureAugmentor 始终进行 impute
修复了以下 Bug
- impute 会将整列替换为均值
- fft 系数仅在截断部分计算
- 允许抑制 impute 函数的警告
- 在 time_reversal_asymmetry_statistic 中添加了缺失的 lag

版本 0.8.1

新特征
- 线性趋势
- 聚合趋势
新的 sklearn 兼容转换器
- PerColumnImputer
修复的 Bug
- 使 mannwhitneyu 方法与 scipy > v0.18.0 兼容
向 travis 添加了缓存
内部添加了特征的串行计算

版本 0.8.0

API 重大变更
- 移除了特征提取设置对象，由关键字参数和普通字典 (fc_parameters) 替代
- 移除了特征选择设置对象，由关键字参数替代
添加了包含新 API 示例的笔记本
在文档中添加了关于新 API 的章节
调整了旧的笔记本和文档以适应新 API

版本 0.7.1

向滚动工具添加了最大偏移量参数
在 FAQ 中添加了关于如何在 Windows 上使用 tsfresh 的条目
大幅降低了以下特征的运行时长
- cwt_coefficient
- index_mass_quantile
- number_peaks
- large_standard_deviation
- symmetry_looking
移除了基线单元测试
Bug修复
- 按样本进行的并行 imputing 在 chunks 上执行，导致结果不确定
- 在非 float32 的 dtypes 上进行 imputing 未能正常工作
多处文档改进

版本 0.7.0

新的滚动工具，用于将 tsfresh 应用于时间序列预测任务
Bug修复
- index_mass_quantile 使用了时间序列容器的全局索引
- 与 id_column 同名的索引破坏了并行化
- friedrich_coefficients 和 max_langevin_fixed_point 偶尔会停滞

版本 0.6.0

特征选择的进度条
新特征：确定性动力学最大不动点的估计
新笔记本：演示如何在包含训练集和测试集的数据 pipeline 中使用 tsfresh
移除无日志处理程序警告
修复了 RelevantFeatureAugmenter 中关于 evaluate_only_added_features 参数的 Bug

版本 0.5.0

新示例：driftbif 模拟
进一步改进并行化
文档中的语言改进
一些特征的性能改进
impute 函数的性能改进
新特征和特征重命名：sum_of_recurring_values, sum_of_recurring_data_points

版本 0.4.0

修复了几个 Bug：检查 UCI 数据集，mean_abs_change_quantiles 的索引越界错误
添加了表示提取过程进度的进度条
添加了按样本并行化
添加了单元测试，用于将特征提取结果与旧快照进行比较
添加了“high_comp_cost”属性
添加了 ReasonableFeatureExtraction 设置，仅计算没有“high_comp_cost”属性的特征

版本 0.3.1

修复了几个 Bug：关闭多进程池 / cwt calculator 索引越界 / index_mass_quantile 中的除零错误
现在默认禁用所有警告
对于单一类型的时间序列数据，值列的名称用作特征前缀

版本 0.3.0

修复了解析“NUMBER_OF_CPUS”环境变量的 Bug
现在特征按类型并行计算

版本 0.2.0

现在 p 值并行计算
修复了常数特征的 Bug
允许时间序列列命名为 0
将 uci repository 数据集迁移到 github 镜像
添加了特征计算器 sample_entropy
添加了 MinimalFeatureExtraction 设置
修复了 fourier coefficients 计算中的 Bug

版本 0.1.2

添加了对 python 3.5.2 的支持
修复了导致特征命名不确定的 Bug

版本 0.1.1

主要是 read-the-docs 文档、pypi readme 等的修复

版本 0.1.0

初始版本 :)