更新日志

tsfresh 使用 语义化版本控制

版本 0.21.0

  • 重大变更
    • 停止支持 python 3.7 和 3.8 (#1100)

  • Bug修复/拼写错误/文档
    • 通过依赖 pywavelets 包进行 cwt 计算,修复与 scipy 1.15 及更高版本的不兼容性 (#1097)

    • 改进特征提取器的代码质量 (#1103)

    • 通过 tox, bisect 和 docker 改进开发者体验 (#1093, #994, #1102)

版本 0.20.3

  • Bug修复/拼写错误/文档
    • 修复问题 #1073: 更新 setup.cfg 以要求更高版本的 scipy (#1081)

    • extract_relevant_features 现在将 chunksize 传递给 extract_features (#1083)

    • 修复适用于 numpy >= 2.0 的代码和测试 (#1085)

    • 更新 tsfresh.feature_extraction.feature_calculators.skewness 使其与不忽略 nan 的设计原则保持一致 (#1066)

    • 修复 pipeline 笔记本中的拼写/语法错误 (#1082)

    • 添加了恢复线程限制的建议 (#1069)

    • 修复 01 示例笔记本,避免训练集和测试集之间信息泄露

    • 特征计算器返回类型文档 (#1070)

版本 0.20.2

  • 新增功能
    • 使 Dask 和 Distributed 成为可选依赖项 (#1061)

    • 查看和设置并行作业数(N Jobs)(#1029)

  • Bug修复/拼写错误/文档
    • 并行化效率的额外说明 (#1046)

    • 更新文档提取设置为清晰和格式 (#1033)

    • 拼写错误 (#1031, #1034, #1049, #1048)

版本 0.20.1

  • 新增功能
    • 使 tsfresh 与 numpy 1.24 (#1018) 和 pandas 2.0 (#1028) 兼容

  • Bug修复/拼写错误/文档
    • 在 check_if_pandas_series 中使用 pandas Index.equals (#963)

    • 包布局、CI/CD 和开发者设置更新

版本 0.20.0

  • 重大变更
    • matrixprofile 包成为可选依赖项

  • Bug修复/拼写错误/文档
    • 修复适用于 pandas>1.3.5 的 Friedrich coefficients 特征提取

    • 移动示例笔记本后修复文件路径

版本 0.19.0

  • 重大变更
    • 由于依赖 statsmodels 0.13,停止支持 Python 3.6

  • 新增功能
    • 改进文档 (#831, #834, #851, #853, #870)

    • 添加 absolute_maximum 和 mean_n_absolute_max 特征 (#833)

    • 使设置可序列化 (#845, #847, #910)

    • 对于 n_jobs=1 禁用多进程 (#852)

    • 添加 black, isort 和 pre-commit (#876)

  • Bug修复/拼写错误/文档
    • 修复用于 lempel_ziv_complexity 的时间序列到序列的转换 (#806)

    • 修复 range count 配置 (#827)

    • 重新措辞文档 (#893)

    • 修复 statsmodels 弃用问题 (#898, #912)

    • 修复 requirements 中的拼写错误 (#903)

    • 将 statsmodels 版本提升至 v0.13 (#

    • 更新了参考文献

版本 0.18.0

  • 新增功能
    • 允许任意滚动大小 (#766)

    • 允许进行多类显著性检验 (#762)

    • 为 RelevantFeatureAugmenter 添加多类选项 (#782)

    • 新增 matrix_profile 特征 (#793)

    • 新增 query similarity counter 特征 (#798)

    • 新增均方根特征 (#813)

  • Bug修复/拼写错误/文档
    • 不将笔记本测试的覆盖率发送到 codecov (#759)

    • 修复笔记本中的拼写错误 (#757, #780)

    • 修复 make_forecasting_frame 的输出格式 (#758)

    • 修复徽章并删除基准测试

    • 修复 BY 笔记本绘图 (#760)

    • 改进时间序列预测示例 (#763)

    • 也在 dask 中抑制警告 (#769)

    • 更新 relevant_feature_augmenter.py (#779)

    • 修复 quick_start.rst 中的列名 (#778)

    • 改进相关性表格函数文档 (#781)

    • 修复问题 #789 “如何添加自定义特征”中的拼写错误 (#790)

    • 警告时转换为正确的类型 (#799)

    • 修复文档中的小拼写错误 (#802)

    • 将不需要的文件类型添加到 gitignore (#819)

    • 修复构建和测试失败 (#815)

    • 修复 imputing 文档 (#800)

    • 提升 scikit-learn 版本 (#822)

版本 0.17.0

我们将默认分支从“master”更改为“main”。

  • 重大变更
    • 将 roll_time_series 中构建的 id 从字符串更改为元组 (#700)

    • add_sub_time_series_index 同样如此 (#720)

  • 新增功能
    • 实现了 Lempel-Ziv-Complexity 和 Fourier Entropy (#688)

    • 通过添加一个针对通用标识符的断言来防止 #524 (#690)

    • 添加了 permutation entropy (#691)

    • 添加了徽标 :-) (#694)

    • 实现了 benford distribution 特征 (#689)

    • 重构了笔记本 (#701, #704)

    • 加速结果透视 (#705)

    • 为 dask 绑定添加测试 (#719)

    • 重构输入数据迭代以减少内存需求 (#707)

    • 添加了基准测试 (#710)

    • 使 dask 成为可能的输入格式 (#736)

  • Bug修复
    • 修复了选择中的一个错误,该错误导致所有索引无序的回归任务都出现错误 (#715)

    • 修复了 readthedocs (#695, #696)

    • 在 #705 后修复 spark 和 dask,并修复非 id 命名的 id 列问题 (#712)

    • 修复预测笔记本中的问题 (#729)

    • 如果可能,让 tsfresh 选择值列 (#722)

    • 从 coveralls github action 迁移到 codecov (#734)

    • 提高数据处理速度 (#735)

    • 修复适用于更新、更严格的 pandas 版本的错误 (#737)

    • 修复特征计算器文档 (#743)

版本 0.16.0

  • 重大变更
    • 修复特征名称中参数的排序 (#656)。现在,特征名称由所有参数的排序列表组成。对于所有非组合器特征而言,这曾经是正确的,现在对于组合器特征也同样适用。如果您依赖实际的特征名称,则这是一个重大变更。

    • 滚动后更改 id (#668)。现在,数据原有的 id 仍然保留。此外,我们改进了没有时间列的 dataframe 的滚动方式以及新子时间序列的命名方式。文档也得到了很大改进。

  • 新增功能
    • 添加了变异系数 (#654)

    • 将笔记本中的 datetimeindex 解释添加到文档中 (#661)

    • 优化 RelevantFeatureAugmenter 以避免重复提取 (#669)

    • 添加了函数 add_sub_time_series_index (#666)

    • 添加了 Dockerfile

    • 速度优化和速度测试脚本 (#681)

  • Bug修复
    • 将提取的 ar 系数增加到完整的参数范围。(#662)

    • 文档修复 (#663, #664, #665)

    • 重写了 sample_entropy 特征计算器 (#681)。现在它更快了,并且(希望)更准确。但您的结果会发生变化!

版本 0.15.1

  • 更新日志和文档修复

版本 0.15.0

  • 新增功能
    • 添加 count_above 和 count_below 特征 (#632)

    • 为 dask dataframes 和 pyspark dataframes 添加便利绑定 (#651)

  • Bug修复
    • 修复 sphinx 中的文档构建和特征表 (#637, #631, #627)

    • 将脚本添加到 API 文档

    • 对于旧版本的 python 跳过 dask 测试 (#649)

    • 添加缺失的 distributor 关键字 (#648)

    • 修复 cwt 的元组输入 (#645)

版本 0.14.1

  • 修复 travis 部署

版本 0.14.0

  • 重大变更
    • 用 statsmodels 实现替换 Benjamini-Hochberg 实现 (#570)

  • 重构和文档
    • travis.yml (#605)

    • gitignore (#608)

    • 修复 c3 的 docstring (#590)

    • 特性/pep8 (#607)

  • 新增功能
    • 提高测试覆盖率 (#609)

    • 为 augmented_dickey_fuller() 添加“autolag”参数 (#612)

  • Bug修复
    • 特性/pep8 (#607)

    • 修复 Windows 上使用多进程时警告过滤问题 (#610)

    • 移除过时的日志配置 (#621)

    • 用 statsmodels 实现替换 Benjamini-Hochberg 实现 (#570)

    • 修复笔记本的内核和命名 (#626)

版本 0.13.0

  • 停止支持 python 2.7 (#568)

  • 修复的 Bug
    • 修复 friedrich_coefficients 和 agg_linear_trend 中的缓存 (#593)

    • 添加了对错误列名的检查以及此检查的测试 (#586)

    • 确保不安装 tests 文件夹 (#599)

    • 确保至少有一列可用作数据 (#589)

    • 避免 energy_ratio_by_chunks 中的除零错误 (#588)

    • 确保 get_moment() 使用浮点计算 (#584)

    • 未提供 column_value 和 column_kind 时保留索引 (#576)

    • 需要时添加 @set_property(“input”, “pd.Series”) (#582)

    • 修复 longest strike 特征中的 off-by-one 错误(修复问题 #577)(#578)

    • 添加 set_property 导入 (#572)

    • 修复拼写错误 (#571)

    • 修复熔化后的归一化输入的索引 (#563)

    • 修复 travis (#569)

  • 移除警告 (#583)

  • 更新到最新的 python 版本 (#594)

  • 优化
    • 如果 ql >= qh,则从 change_quantiles 提前返回 (#591)

    • 优化 mean_second_derivative_central (#587)

    • 使用 Numpy 的 sum 函数提高性能 (#567)

    • 优化 mean_change(修复问题 #542)并修正文档 (#574)

版本 0.12.0

  • 修复的 Bug
    • friedrich coefficients 计算错误

    • 特征选择选择了太多特征

    • roll_time_series 中被忽略的 max_timeshift 参数

  • 添加 python 2 的弃用警告

  • 添加了对基于索引的特征的支持

  • 新的特征计算器
    • linear_trend_timewise

  • 使 RelevantFeatureAugmenter 可用于交叉验证的 pipeline 中

  • 将 scipy 依赖项提高到 1.2.0

版本 0.11.2

  • 修改 energy_ratio_by_chunks 中的 chunking 以使用所有数据点

  • 修复 spkt_welch_density 的警告

  • 调整“value_count”和“range_count”的默认设置

  • 新增内容
    • 为 agg_autocorrelation 函数添加 maxlag 参数

  • 现在,输入 DataFrame 的 kind 列被转换为 str 类型,旧的派生 FC_Settings 可能会失效

  • 仅当 extract_features 中的 kind_to_fc_parameters 也设置为 None 时,才将 default_fc_parameters 设置为 ComprehensiveFCParameters()

  • 移除了 pyscaffold

  • 使用渐近算法推导 kendal tau

版本 0.11.1

  • 整体性能改进

  • 移除了对依赖项的硬性固定

  • 修复的 Bug
    • 股票价格预测笔记本

    • 多分类笔记本

版本 0.11.0

  • 新的特征计算器
    • fft_aggregated

    • cid_ce

  • 将 mean_second_derivate_central 重命名为 mean_second_derivative_central

  • 如果在特征选择中未找到相关特征,则添加警告

  • 为 from_columns 方法添加 columns_to_ignore 参数

  • 添加 distribution 模块,包含对 Dask 上分布式特征提取的支持

版本 0.10.1

  • 将测试套件拆分为单元测试和集成测试

  • 修复了以下 Bug
    • 使用值列的名称作为时间序列的 kind

    • 阻止导致高内存消耗的子进程生成

    • 修复从 travis 到 pypi 的部署

版本 0.10.0

  • 新的特征计算器
    • 偏自相关

  • 向文档添加了已计算特征列表

  • 添加了两个 ipython 笔记本,用于
    • 演示对特征进行 PCA

    • 演示 Benjamini Yekutieli 过程

  • 修复了以下 Bug
    • dickey fuller 设置的引用不当

版本 0.9.0

  • 新的特征计算器
    • ratio_beyond_r_sigma

    • energy_ratio_by_chunks

    • number_crossing_m

    • c3

    • fft coefficients 的 angle 和 abs

    • agg_autocorrelation

    • augmented_dickey_fuller 的 p-Value 和 usedLag

    • change_quantiles

  • 更改了以下特征的计算方法
    • fft_coefficients

    • autocorrelation

    • time_reversal_asymmetry_statistic

  • 移除了以下特征计算器
    • large_number_of_peak

    • mean_autocorrelation

    • mean_abs_change_quantiles

  • 在特征选择中添加对多分类的支持

  • 改进了滚动机制的描述

  • 添加了用于预测任务的函数 make_forecasting_frame 方法

  • 内部放弃了时间序列的 pandas 表示,带来了显著的速度提升

  • 将特征计算器类型从 aggregate/aggregate with parameter/apply 替换为 simple/combiner

  • 为 ipython 笔记本添加测试

  • 添加了用于检查 dft 特征的笔记本

  • 确保 RelevantFeatureAugmentor 始终进行 impute

  • 修复了以下 Bug
    • impute 会将整列替换为均值

    • fft 系数仅在截断部分计算

    • 允许抑制 impute 函数的警告

    • 在 time_reversal_asymmetry_statistic 中添加了缺失的 lag

版本 0.8.1

  • 新特征
    • 线性趋势

    • 聚合趋势

  • 新的 sklearn 兼容转换器
    • PerColumnImputer

  • 修复的 Bug
    • 使 mannwhitneyu 方法与 scipy > v0.18.0 兼容

  • 向 travis 添加了缓存

  • 内部添加了特征的串行计算

版本 0.8.0

  • API 重大变更
    • 移除了特征提取设置对象,由关键字参数和普通字典 (fc_parameters) 替代

    • 移除了特征选择设置对象,由关键字参数替代

  • 添加了包含新 API 示例的笔记本

  • 在文档中添加了关于新 API 的章节

  • 调整了旧的笔记本和文档以适应新 API

版本 0.7.1

  • 向滚动工具添加了最大偏移量参数

  • 在 FAQ 中添加了关于如何在 Windows 上使用 tsfresh 的条目

  • 大幅降低了以下特征的运行时长
    • cwt_coefficient

    • index_mass_quantile

    • number_peaks

    • large_standard_deviation

    • symmetry_looking

  • 移除了基线单元测试

  • Bug修复
    • 按样本进行的并行 imputing 在 chunks 上执行,导致结果不确定

    • 在非 float32 的 dtypes 上进行 imputing 未能正常工作

  • 多处文档改进

版本 0.7.0

  • 新的滚动工具,用于将 tsfresh 应用于时间序列预测任务

  • Bug修复
    • index_mass_quantile 使用了时间序列容器的全局索引

    • 与 id_column 同名的索引破坏了并行化

    • friedrich_coefficients 和 max_langevin_fixed_point 偶尔会停滞

版本 0.6.0

  • 特征选择的进度条

  • 新特征:确定性动力学最大不动点的估计

  • 新笔记本:演示如何在包含训练集和测试集的数据 pipeline 中使用 tsfresh

  • 移除无日志处理程序警告

  • 修复了 RelevantFeatureAugmenter 中关于 evaluate_only_added_features 参数的 Bug

版本 0.5.0

  • 新示例:driftbif 模拟

  • 进一步改进并行化

  • 文档中的语言改进

  • 一些特征的性能改进

  • impute 函数的性能改进

  • 新特征和特征重命名:sum_of_recurring_values, sum_of_recurring_data_points

版本 0.4.0

  • 修复了几个 Bug:检查 UCI 数据集,mean_abs_change_quantiles 的索引越界错误

  • 添加了表示提取过程进度的进度条

  • 添加了按样本并行化

  • 添加了单元测试,用于将特征提取结果与旧快照进行比较

  • 添加了“high_comp_cost”属性

  • 添加了 ReasonableFeatureExtraction 设置,仅计算没有“high_comp_cost”属性的特征

版本 0.3.1

  • 修复了几个 Bug:关闭多进程池 / cwt calculator 索引越界 / index_mass_quantile 中的除零错误

  • 现在默认禁用所有警告

  • 对于单一类型的时间序列数据,值列的名称用作特征前缀

版本 0.3.0

  • 修复了解析“NUMBER_OF_CPUS”环境变量的 Bug

  • 现在特征按类型并行计算

版本 0.2.0

  • 现在 p 值并行计算

  • 修复了常数特征的 Bug

  • 允许时间序列列命名为 0

  • 将 uci repository 数据集迁移到 github 镜像

  • 添加了特征计算器 sample_entropy

  • 添加了 MinimalFeatureExtraction 设置

  • 修复了 fourier coefficients 计算中的 Bug

版本 0.1.2

  • 添加了对 python 3.5.2 的支持

  • 修复了导致特征命名不确定的 Bug

版本 0.1.1

  • 主要是 read-the-docs 文档、pypi readme 等的修复

版本 0.1.0

  • 初始版本 :)