原文:http://pandas.pydata.org/pandas-docs/stable/release.html
校对:(虚位以待)
这是每个版本之间对pandas的更改列表。有关完整详细信息,请参阅提交日志http://github.com/pandas-dev/pandas
什么是
pandas是一个Python包,提供快速,灵活和表达性的数据结构,旨在使用“关系”或“标记”数据,既方便又直观。它旨在成为在Python中进行实际,真实世界数据分析的基本高级构建块。此外,它具有更广泛的目标,成为任何语言中可用的最强大和灵活的开源数据分析/操作工具。
在哪里取得
发布日期: 2016年12月24日
这是0.19.x系列中的一个小错误修复版本,包括一些小的回归修复,错误修复和性能改进。
亮点包括:
有关已在0.19.2中修复的所有错误的概述,请参阅v0.19.2 Whatsnew页面。
发布日期: 2016年11月3日
这是一个从0.19.0的小错误修复版本,并包括一些小的回归修复,错误修复和性能改进。
有关已在0.19.1中修复的所有错误的概述,请参阅v0.19.1 Whatsnew页面。
发布日期: 2016年10月2日
这是0.18.1的主要版本,包括多个API更改,几个新功能,增强功能和性能改进以及大量错误修复。我们建议所有用户升级到此版本。
亮点包括:
merge_asof()用于asof风格的时间序列连接,请参阅here.rolling()现在是时间序列感知,请参阅hereread_csv()现在支持解析Categorical数据,请参阅hereunion_categorical()用于组合分类,请参阅herePeriodIndex现在有自己的period dtype,并且更改为与其他Index类更一致。请参阅hereint和bool dtypes的支持,参见hereSeries的比较操作不再忽略索引,有关API更改的概述,请参阅here。Panel4D和PanelND。我们建议使用xarray软件包来表示这些类型的n维数据。pandas.io.data, pandas.io.wb, pandas.tools.rplot.有关已在0.19.0中修复的所有增强功能和错误的详细列表,请参见v0.19.0 Whatsnew概述。
发布日期:(2016年5月3日)
这是一个从0.18.0的小版本,包括大量的错误修复以及几个新的功能,增强和性能改进。
亮点包括:
.groupby(...) has been enhanced to provide convenient syntax when working with .rolling(..), .expanding(..) and .resample(..) per group, see herepd.to_datetime()已获得从DataFrame汇编日期的能力,请参阅heresparse的许多错误修复,请参阅here有关已在0.18.1中修复的所有增强功能和错误的详细列表,请参见v0.18.1 Whatsnew概述。
发布日期:(2016年3月13日)
这是从0.17.1的主要版本,包括少量的API更改,几个新功能,增强功能和性能改进以及大量的错误修复。我们建议所有用户升级到此版本。
亮点包括:
.groupby,请参阅here。RangeIndex的支持,作为Int64Index的特殊形式,以节省内存,请参阅here。.resample方法,使其更多.groupby,例如,请参阅here。TypeError,请参阅here。.to_xarray()函数,请参阅here。read_sas函数已增强以读取sas7bdat文件,请参阅here。pd.test()顶级鼻梁测试跑步机可用(GH4327)。有关已在0.18.0中修复的所有增强功能和错误的详细列表,请参见v0.18.0 Whatsnew概述。
发布日期:(2015年11月21日)
这是一个从0.17.0的小版本,包括大量的错误修复以及几个新的功能,增强功能和性能改进。
亮点包括:
DataFrame.drop_duplicates中从0.16.2回归,导致对整数值的不正确结果(GH11376)有关已在0.17.1中修复的所有增强功能和错误的详细列表,请参阅v0.17.1 Whatsnew概述。
发布日期:(2015年10月9日)
这是从0.16.2的主要版本,包括少量的API更改,几个新功能,增强功能和性能改进以及大量的错误修复。我们建议所有用户升级到此版本。
亮点包括:
.plot存取器的属性,请参见heredatetime64[ns],请参阅hereto_datetime的默认值现在为raise,当呈现不可解析的格式时,以前这将返回原始输入。此外,日期解析函数现在返回一致的结果。请参阅heredropna in HDFStore has changed to False, to store by default all rows even if they are all NaN, see heredt)现在支持Series.dt.strftime生成datetime-like和Series.dt.total_seconds的格式化字符串timedelta的每个持续时间(以秒为单位)。请参阅herePeriod和PeriodIndex可以处理类似于3D的倍频,其对应于3天跨度。请参阅herePEP440的版本字符串(GH9518)有关已在0.17.0中修复的所有增强功能和错误的详细列表,请参阅v0.17.0 Whatsnew概述。
发布日期:(2015年6月12日)
这是从0.16.1的一个小版本,包括大量的错误修复以及几个新的功能,增强功能和性能改进。
亮点包括:
有关已在0.16.2中修复的所有增强功能和错误的详细列表,请参阅v0.16.2 Whatsnew概述。
发布日期:(2015年5月11日)
这是一个从0.16.0的小版本,包括大量的错误修复以及几个新的功能,增强和性能改进。需要少量的API更改来修复现有的错误。
有关已在0.16.1中修复的所有API更改,增强和错误的详细列表,请参阅v0.16.1 Whatsnew概述。
发布日期:(2015年3月22日)
这是0.15.2的主要版本,包括许多API更改,几个新功能,增强功能和性能改进以及大量错误修复。
亮点包括:
DataFrame.assign方法,请参阅hereSeries.to_coo/from_coo与scipy.sparse交互的方法,请参阅hereTimedelta的向后不兼容更改符合.seconds属性与datetime.timedelta,请参阅here.loc切片API的更改符合.ix的行为,请参阅hereCategorical构造函数中的排序默认值,请参阅herepandas.tools.rplot,pandas.sandbox.qtpandas和pandas.rpy模块。We refer users to external packages like seaborn, pandas-qt and rpy2 for similar or equivalent functionality, see here有关已在0.16.0中修复的所有API更改,增强和错误的详细列表,请参阅v0.16.0 Whatsnew概述或GitHub上的问题跟踪器。
发布日期:(2014年12月12日)
这是从0.15.1的次要版本,包括大量的错误修复以及几个新的功能,增强和性能改进。需要少量的API更改来修复现有的错误。
有关已在0.15.2中修复的所有API更改,增强和错误的详细列表,请参阅v0.15.2 Whatsnew概述。
发布日期:(2014年11月9日)
这是0.15.0的小版本,包括少量的API更改,几个新功能,增强功能和性能改进以及大量的错误修复。
有关已在0.15.1中修复的所有API更改,增强和错误的详细列表,请参阅v0.15.1 Whatsnew概述。
发布日期:(2014年10月18日)
这是从0.14.1的主要版本,包括许多API更改,几个新功能,增强和性能改进以及大量的错误修复。
亮点包括:
Categorical类型已集成为一类pandas类型,请参阅hereTimedelta和新的索引类型TimedeltaIndex,请参阅heredf.info()以包括内存使用,请参阅Memory Usage.dt,请参阅Datetimelike Propertiesread_csv现在默认会在解析时忽略空行,请参阅hereIndex类不再是子类ndarray的内部重构,请参阅Internal RefactoringPyTables和小于版本2.1(GH7990)的numexpr有关已在0.15.0中修复的所有API更改,增强和错误的详细列表,请参阅v0.15.0 Whatsnew概述或GitHub上的问题跟踪器。
发布日期:(2014年7月11日)
这是一个从0.14.0的小版本,包括少量的API更改,几个新功能,增强功能和性能改进以及大量的错误修复。
亮点包括:
select_dtypes()基于dtype和sem()选择列来计算平均值的标准误差。read_csv()文本解析器中的整行注释。有关已在0.14.1中修复的所有API更改,增强和错误的详细列表,请参阅v0.14.1 Whatsnew概述或GitHub上的问题跟踪器。
发布日期:(2014年5月31日)
这是从0.13.1的主要版本,包括许多API更改,几个新功能,增强功能和性能改进以及大量的错误修复。
亮点包括:
sqlalchemy,请参阅here。CustomBusinessDay,请参阅here有关已在0.14.0中修复的所有API更改,增强和错误的详细列表,请参阅v0.14.0 Whatsnew概述或GitHub上的问题跟踪器。
发布日期:(2014年2月3日)
date_format和datetime_format属性添加到ExcelWriter。(GH4133)Series.sort在对另一个对象进行排序时会引发ValueError(而不是TypeError)(GH5856 ,GH5853)SettingWithCopyError (according to the option chained_assignment in more cases, when detecting chained assignment, related (GH5938, GH6025)autocorrelation_plot现在接受**kwargs。(GH5623)convert_objects现在接受convert_timedeltas='coerce'参数以允许对timedeltas进行强制dtype转换(GH5458,:issue:5689 )-NaN和-nan添加到默认的NA值集合(GH5952)。请参阅NA Values。NDFrame现在有一个equals方法。(GH5283)DataFrame.apply will use the reduce argument to determine whether a Series or a DataFrame should be returned when the DataFrame is empty (GH6007).axis=1,DataFrame count/dropnaSeries/Panel/Panel4D上的dtypes属性Panel.apply以允许任意函数(而不只是ufuncs)(GH1148)允许多个轴用于操作Paneldatetime和timedelta64的ArrayFormatter现在根据数组中的值智能地限制精度(GH3401)pd.show_versions()现在可以方便地报告问题。dtypes/ftypes方法中改进效果(GH5968)timedelta的改进的类型推断(GH5458,GH5689)DataFrame.apply(GH6013)pd.read_csv和pd.to_datetime学习了一个新的infer_datetime_format关键字,这在很多情况下大大提高了解析perf。感谢@lexual的建议和@danbirken快速实现。(GH5490,:issue:6021)io.wb.get_countries中的错误不包括所有国家/地区(GH6008).ixNaT中的错误(GH5443)np.nan或整数datelike和格式字符串(GH5863)时,to_datetimeBusinessDayresample(GH5862)中的中继资料时发生错误NaT的字符串表示形式固定为“NaT”(GH5708)pd.match未返回通过的哨兵major_axis为MultiIndex(GH5402)时,Panel.to_frame()pd.read_msgpack中错误地推断了DateTimeIndex频率(GH5947)NaT(GH5961)的数组的to_datetimeinterpolate方法中的错误pd.concat的错误timedelta dtypes(GH5695)时出错to_sql没有遵守if_exists(GH4110 GH4304).get(None)从0.12(GH5652)索引iloc索引bug,出现在(GH6059)DataFrame.applyDataFrame.append中出现错误.loc setitem索引与rhs上的数据框,多项目设置和datetimelike(GH6152)query / eval中的错误。query中的一个错误,其中单元素Series的索引被丢弃(GH6148)。HDFStore中有错误HDFStore上进行选择nanops.var中的错误与ddof=1和1个元素有时会返回inf而不是nan (GH6136)use_index关键字(GH6209)的Series和DataFrame条形图中出现错误argsort失败(GH6212)发布日期: 2014年1月3日
plot(kind='kde')现在接受传递给scipy.stats.gaussian_kde()的可选参数bw_method和ind > = 0.11.0)来设置带宽,并使用gkde.evaluate()来分别指定要评估的指标。参见scipy文档。(GH4298)isin方法(GH4211)df.to_clipboard()学习了一个新的excel关键字,让您将df数据直接粘贴到excel中(默认启用)。(GH5070)。extract字符串方法更方便地返回正则表达式匹配(GH4685)to_csv()现在通过date_format关键字(GH4313)根据指定的格式字符串输出datetime对象LastWeekOfMonth DateOffset(GH4637)cumcount groupby方法(GH4646)FY5253和FY5253Quarter DateOffsets(GH4511)mode()方法添加到Series和DataFrame以获取列/系列的统计模式。(GH5367)eval()函数在后台使用numexpr实现表达式求值。这导致涉及大型DataFrames / Series的复杂表达式的大幅加速。DataFrame有一个新的eval(),用于评估DataFrame的上下文中的表达式;允许内联表达式赋值query()方法,该方法允许您使用与Python语法几乎相同的自然查询语法来选择DataFrame的元素。pd.eval and friends now evaluate operations involving datetime64 objects in Python space because numexpr cannot handle NaT values (GH4897).pd.read_msgpack()和pd.to_msgpack() / df.to_msgpack()添加msgpack支持用于任意pandas(和python对象)以轻便的便携式二进制格式(GH686,GH5506)pandas.io.gbq,用于从Google BigQuery读取(和写入)DataFrame。(GH4140)read_html现在提出URLError,而不是捕捉并提高ValueError(GH4303,GH4305 t7 >)read_excel现在在其sheetname参数中支持一个整数,给出要读入的工作表索引(GH4301)。get_dummies适用于NaN(GH4446)read_clipboard()和to_clipboard()(GH4282)的测试value_counts(GH3945)添加了箱子参数,也排序和升序,现在可用于Series方法以及顶级函数。read_table,read_csv等。HDFStore中显着改善表的写入性能drop_level参数添加到xs(GH4180)Index.copy() and MultiIndex.copy() now accept keyword arguments to change attributes (i.e., names, levels, labels) (GH4039)rename and set_names methods to Index as well as set_names, set_levels, set_labels to MultiIndex. (GH4039,GH4794)的改善的验证(GH4039timedelta64[ns]除以/乘以整数系列(GH4521)timedelta64[ns]除以另一个timedelta64[ns]对象,产生一个float64这是频率转换;也支持astyping。fillna/ffill/bfill整数解释为秒,或timedelta(GH3371)timedelta系列(GH4984)上的方框数字操作ffill/bfillDataFrames上的__getitem__提高性能DatetimeIndex/PeriodsIndex。 s-s.index(GH4629)axis和level关键字添加到where,以便other参数现在可以是可对齐的pandas对象。to_datetime现在解析速度更快ExcelWriter并注册您的引擎)。您可以在to_excel或ExcelWriter中指定engine。您还可以使用config选项io.excel.xlsx.writer和io.excel.xls.writer来指定要使用的编写器。(GH4745,GH4750)Panel.to_excel()现在接受将传递到其DataFrame的to_excel()方法的关键字参数。(GH4750)ExcelWriter引擎。这比默认的openpyxl xlsx写入器快约5倍,并且在速度上等同于xlwt xls写入器模块。(GH4542)collections.Sequence和array.Array对象(GH3783,GH4297,GH4851 t6 >),感谢@lgautier__getitem__ with tuple key (e.g., [:, 2]) on Series without MultiIndex raises ValueError (GH4759, GH4837)read_json现在在字典包含错误键和orient='split'(GH4730)时引发(更多信息性的)ValueError t6>,GH4838)read_stata现在接受Stata 13格式(GH4291)ExcelWriter和ExcelFile可用作上下文管理器。(GH3441,GH4933)pandas现在使用两个不同版本的statsmodels(0.4.3和0.5.0)(GH4981)进行测试。MultiIndex(包括通过repr往返的能力)的字符串表示。(GH3347,GH4935)concat现在在传递的无法连接的对象(GH4608)时会提供更多的信息错误消息。halflife选项添加到指数加权移动函数(PR GH4998)to_dict现在将records视为可能的类型。返回一个列键字典数组。(GH4936)tz_localize可以基于非本地化数据的结构(GH4230)推断秋天夏令时转换read_html()现在支持parse_dates,tupleize_cols和thousands参数(GH4770) 。json_normalize()是一种新方法,允许您从半结构化JSON数据创建平面表。See the docs(GH1067)DataFrame.from_records()现在将接受生成器(GH4910)DataFrame.interpolate()和Series.interpolate()已扩展为包括来自scipy的插值方法。(GH4434,GH1892)Series现在支持to_frame方法将其转换为单列DataFrame(GH5164)closed参数(GH4579)以向左或向右打开的方式构造DatetimeIndex(和date_range)NDFrame.drop()现在接受轴参数的名称以及整数。(GH5354)NDFrame.drop(),NDFrame.dropna()和.drop_duplicates()全部接受inplace(GH1960,GH5247,GH5628和相关GH2325read_excel()现在尝试将默认情况下将整数浮点数(如1.0)转换为int。(GH5394)to_excel()中具有默认选项merge_cells,以合并MultiIndex和Hierarchical Rows中的单元格。注意:使用此选项,不再可能使用合并的MultiIndex和分层行舍入Excel文件。将merge_cells设置为False以恢复先前的行为。(GH5254)DataFrame.reindex()和向前/向后填充现在在任一索引不是单调的(GH4483,GH4484)时引发ValueError。pandas现在是Python 2/3兼容,而不需要2to3感谢@jtratner。因此,pandas现在更广泛地使用迭代器。这也导致本杰明·彼得森的six图书馆的实质性部分被引入compat。(GH4384,GH4375,GH4372)pandas.util.compat和pandas.util.py3compat已合并到pandas.compat中。pandas.compat现在包括许多允许2/3兼容性的功能。它包含range,filter,map和zip的列表和迭代器版本,以及Python 3兼容性的其他必要元素。lmap, lzip, lrange and lfilter all produce lists instead of iterators, for compatibility with numpy, subscripting and pandas constructors. (GH4384,GH4375,GH4372)iterkv,它将在以后的版本中删除(只是用于修改2to3的iteritems的别名)。(GH4384,GH4375,GH4372)Series.get现在返回与[](GH4390)相同ix/loc,即使单个键当前未包含在该轴的索引中(GH2578, GH5226,GH5632,GH5720,GH5744,GH5756to_clipboard的默认导出为csv,其中sep为tat现在将放大对象inplace(并返回相同)(GH2578)DataFrame.plot会通过传递kind='scatter'(GH2215)HDFStoreappend_to_multiple自动同步将行写入多个表,并添加dropna kwarg(GH4698)Series(GH4330)is_open属性以指示底层文件是否处理is_open;关闭的商店现在将在查看商店时报告“关闭”(而不是引发错误)(GH4409)HDFStore现在将关闭HDFStore的实例,但只有在引用计数(由PyTables)w.r.t.时才会关闭实际文件。所有打开的句柄都为0。实质上,您有一个变量引用的HDFStore的本地实例。一旦你关闭它,它会报告关闭。其他引用(到同一文件)将继续操作,直到它们自己关闭。对封闭文件执行操作会产生ClosedFileError_quiet属性,如果从表(GH4367)检索重复行,请替换为DuplicateWarningopen删除warn参数。如果您尝试使用OPEN文件句柄(GH4367)使用mode='w',则会引发PossibleDataLossError异常where condition (GH4467)dropna=True添加到append以更改是否所有的行都不写入商店(默认值为True NOT written),也可通过选项io.hdf.dropna_table(GH4625)设置format关键字现在替换table关键字;允许的值为fixed(f)|table(t) Storer格式已重命名为Fixedselect_as_coordinates现在将返回结果选择集的Int64Indextimedelta64[ns]为序列化类型(GH3577)numexpr 2.2.2修复PyTables 2.4中的不兼容性(GH4908)flush现在接受fsync参数,其默认为False(GH5364)table格式(GH5386)不支持unicodeJSON
Index和MultiIndex更改(GH4039):MultiIndex上直接设置levels和labels现已弃用。相反,您可以使用set_levels()和set_labels()方法。levels,labels和names属性不再返回列表,而是返回不允许设置项目的容器('mostly immutable')levels,labels和names在设置时有效,复制或浅复制。levels或labels现在可正确无效缓存的属性。(GH5238)。__deepcopy__现在返回数据的浅拷贝(当前:视图) - 允许元数据更改。MultiIndex.astype()现在只允许np.object_类似dtypes,现在返回MultiIndex而不是Index(GH4039)is_ method to Index that allows fast equality comparison of views (similar to np.may_share_memory but no false positives, and changes on levels and labels setting on MultiIndex). (GH4859,GH4909)__iadd__别名至__add__。(GH4996)is_ method to Index that allows fast equality comparison of views (similar to np.may_share_memory but no false positives, and changes on levels and labels setting on MultiIndex). (GH4859,GH4909)downcast='infer'的转换和向下转换dtype传递到fillna/ffill/bfill(GH4604)__nonzero__对于所有NDFrame对象,现在将生成ValueError,将回到(GH1073,GH4633)行为。将.bool()方法添加到NDFrame对象以方便评估单元素布尔系列DataFrame.update()不再引发DataConflictError,它现在将引发一个ValueError(如有必要)(GH4732 )Series.isin()和DataFrame.isin()现在在传递字符串(GH4763)时引发TypeError传递一个元素(包含字符串)的list。read_excel和ExcelFile中删除未记录/未使用的kind关键字参数。(GH4713,GH4712)NDFrame.replace()的method参数再次有效,因此aa列表可以传递到to_replace(GH4743 )。to_csv和read_csv,tupleize_cols的默认值现在为False。0.12(GH3604)中的公平警告to_timedelta函数NDFrame现在与Python的toplevel abs()函数(GH4821)兼容。TypeErrorFloat64Index。当在索引创建中传递浮动值时,将自动创建。这使得纯标签的切片范例使[],ix,loc用于标量索引和切片工作完全相同。保留其他索引类型的索引(并且[],ix)的位置回退,例外情况是,非Float64Index上的索引上的浮点切片将产生TypeError,例如Series(range(5))[3.5:4.5](GH263,:issue:5375)Factor(GH3650)set_printoptions/reset_printoptions(:issue:3046)_verbose_info(GH3215)GroupBy对象(GH4887)上无效的方法。pandas.io.parsers(GH3717)中删除已弃用的read_clipboard/to_clipboard/ExcelFile/ExcelWriterSeries,DataFrame,Panel,Panel4D,SparsePanel ,等等。),现在支持整套算术运算符和算术flex方法(add,sub,mul等)。SparsePanel不支持使用非标量的pow或mod。(GH3765)np.prod(pandas_object)之类的调用约定,使用附加关键字args(GH4435)为numpy调用提供numpy兼容性.truncate will raise a ValueError if invalid before and afters dates are given (GH5242)Timestamp现在支持now/today/utcnow类方法(GH5339)NDFrame - 喜欢现在是truedivision,无论将来导入。您可以使用//和floordiv进行整数除法。In [3]: arr = np.array([1, 2, 3, 4])
In [4]: arr2 = np.array([5, 3, 2, 1])
In [5]: arr / arr2
Out[5]: array([0, 0, 1, 4])
In [6]: pd.Series(arr) / pd.Series(arr2) # no future import required
Out[6]:
0 0.200000
1 0.666667
2 1.500000
3 4.000000
dtype: float64
SettingWithCopyError/Warning异常/警告,可通过选项mode.chained_assignmentNA值列表。将N/A,#NA添加为独立的默认na值(GH5521)NDFrame的``Series``的重构打破了rpy2<=2.3.8已针对rpy2打开了一个问题,并且在GH5698中详细说明了解决方法。谢谢@JanSchulz。Series.argmin和Series.argmax现在别名为Series.idxmin和Series.idxmax。这些分别返回min或max元素的索引。在0.13.0之前,这些将返回min / max元素的位置(GH6214)在0.13.0中有一个主要的重构,主要是从NDFrame子类化Series,这是当前DataFrame和Panel,统一方法和行为。系列以前直接从ndarray子类化。(GH4080,GH3862,GH816)参见Internal Refactoring
- 添加了
_setup_axes以创建通用NDFrame结构- 移动方法
from_axes,_wrap_array,axes,ix,loc,iloc,shape,empty,swapaxes,transpose,pop__iter__,keys,__contains__,__len__,__neg__,__invert__convert_objects,as_blocks,as_matrix,values__getstate__,__setstate__(compat保留在框架/面板中)__getattr__,__setattr___indexed_same,reindex_like,align,where,maskfillna,replace(Seriesreplace现在与DataFrame一致)filter(也可以添加轴参数,以选择性地在不同的轴上进行过滤)reindex,reindex_axis,taketruncate(移动成为NDFrame的一部分)isnull/notnull现在可在NDFrame物件上使用
Panel与DataFrame更一致
Panel上指定相同轴的swapaxes现在返回副本- 支持属性访问设置
filter支持与原始DataFrame过滤器相同的APIfillna重构为core/generic.py,而> 3ndim为NotImplemented
NDFrame,而不是直接从ndarray。有几个影响API的细微更改。
- 不支持数组接口的numpy函数现在返回
ndarrays而不是系列,例如。np.diff,np.ones_like,np.whereSeries(0.5)之前会返回标量0.5,不再支持TimeSeries现在是Series的别名。属性is_time_series可以用于区分(如果需要)
- 在内部创建了一个新的块类型,
SparseBlock,它可以容纳多个类型并且是不可合并的。SparseSeries和SparseDataFrame现在从其中继承了更多的方法(Series / DataFrame),并且不再继承自SparseArraySparseBlock)- 稀疏套件现在支持与非稀疏数据的集成。非浮动稀疏数据是可支持的(部分实现)
- 对DataFrames中的稀疏结构的操作应当保留稀疏,合并类型操作将转换为密集(并且返回稀疏),因此可能有些低效
- 在
SparseSeries上启用setitem以获取布尔值/整数/切片SparsePanels实现未更改(例如,不使用BlockManager,需要工作)
ftypes方法添加到Series / DataFame,类似于dtypes,但指示底层是稀疏/密集(以及dtype)NDFrame对象现在都有一个_prop_attributes,可用于指示各种值传播到现有对象(例如Seriesisinstance(value, t> klass),而不必直接导入klass,courtesy的@jtratnerSeries.reindex到核心/ generic.py(GH4604,GH4618),允许method=Series.copy不再接受order参数,现在与NDFrame copyrename方法重写为core / generic.py;修复Series.rename(GH4605),并为Panel添加renameclip方法复制到core / generic.py(GH4798)_get_numeric_data/_get_bool_data到core / generic.py,允许系列/面板功能Series与ndarray的复合相容。(GH4819)rwproperty,有利于内置属性。(GH4843)core/generic.py(GH4435)的重构对象级别数字方法(平均值/ sum / min / max ...)。read_html()现在使用TextParser来解析bs4 / lxml(GH4770)中的HTML数据。pandas/core/groupby.py中的keep_internal关键字参数,因为它未被使用(GH5102)。DateOffsets在导入pandas时不再被实例化,而是随时生成和缓存。DateOffsets的内部表示和处理也已经澄清。(GH5189,相关GH5004)MultiIndex构造函数现在验证传递的级别和标签是否兼容。(GH5213,GH5214)dropna用于Series / DataFrame签名(GH5250),测试来自GH5234,由@rockg提供_update_inplace方法,以方便更新inplace ops中的NDFrame包装器(仅为了方便调用者,实际上不会防止复制)。(GH5247)HDFStoreTypeError而不是ValueErrorread_hdf不符合传递mode(GH4504)to_hdf在传递append和table(GH4584)ValueError未正确引发的错误data_columnsby argument now works correctly with the layout argument (GH4102, GH4014) in *.hist plotting methodsPeriodIndex.map中的错误,其中使用str将返回索引的str表示形式(GH4136)test_time_series_plot_color_with_empty_kwargsDataFrame.sum慢于DataFrame.mean的问题read_html测试现在可以使用Python 2.6(GH4351)network测试抛出NameError的错误,因为局部变量未定义(GH4381)to_json中,如果由于重复的索引(GH4359),传递的orientto_json中,修复日期处理,因此毫秒是docstring说的默认时间戳(GH4362)。as_indexkeep_default_na=False时na_values=None(GH4318)values在具有重复列和混合dtyf的DataFrame上出现错误(GH4377)orient='split'(GH4377)时,read_jsonPeriodIndex(GH4390)修正.iatPeriodIndex与self加入正在返回新实例而不是同一实例(GH4379)的问题;还为其他索引类型添加了一个测试Series.astype(str)会截断字符串(GH4405,GH4437)的错误xs中发出的固定面板切片返回了不正确的暗淡对象(GH4016)Series构造函数(GH4482,GH4480)中DataFrame.set_values中的错误,导致在扩展索引时名称属性丢失。(GH3742,GH4039)names, levels and labels could be set on MultiIndex without validation (GH3714, GH4039)np.timedelta64或np.offsets.DateOffset的rhs的错误np.timedelta64不兼容算法(GH4134)和buggy timedelta在numpy 1.6(GH4135pd.read_clipboard中的错误无法正确解码tslib.get_period_field()和tslib.get_period_field_arr()现在提高代码参数超出范围(GH4519,GH4520 t5 >)DataFrame.apply不正确地重新处理异常(导致原始堆栈跟踪被截断)的问题。ix/loc and non_unique selectors (GH4619)Series/DataFrame(GH4667)上使用setitem None修复错误/ dtype转换pd.read_stata(GH4626)中传递的非默认编码解决解码问题ndarray修复DataFrame.from_records。(GH4727)Index.rename和MultiIndex.rename等不一致的问题。(GH4718,GH4628)iloc/loc时出错QUOTE_NONE并使用to_csv导致Exception,可能会出现错误。(GH4328)ValueError(GH4746)loc/ix设置具有多索引轴和numpy数组的单个索引器(GH3777)时出错iloc中错误切片索引失败(GH4771)read_fwf中没有colspecs或width。(GH4774)read_fwf读取压缩文件的错误。(GH3963)bytes而不是str的错误。简化Python 3(GH3963,GH4785)中产生字节的文件处理。.loc(GH4825)的问题)DataFrame.sort_index的问题,其中,当通过单个列排序并传递ascending的列表时,ascending的参数被解释作为True(GH4839,GH4846)Panel.tshift不工作。添加了freq支持Panel.shift(GH4853)_ensure_numeric不检查复数(GH4902)Series.hist中的一个错误,其中通过by参数创建了两个数字(GH4112,GH4113 t5 >)。convert_objects中为> 2 ndims(GH4937)的错误FrozenNDArray和FrozenList(GH4929)的字符串方法copy()固定到浅复制轴/索引,从而保持单独的元数据。(GH4202,GH4830)cut使用np.inf级别而未显式传递标签的错误(GH3415)DatetimeIndex.union(GH4564)中修复错误的重叠检查Timestamp对象现在可以出现在使用Series或DataFrame对象(GH4982 )。iloc/loc(GH5016)通过np.nanSeries重新塑造为其自身形状引起TypeError(GH4554)和其他重塑问题的错误。ix/loc和混合int /字符串索引(GH4544)设置错误read_html()无法使用逗号(GH5029)正确推断表格值的错误read_html()未提供返回表(GH4770,GH5029)的稳定排序的错误。read_html()在传递index_col=0(GH5066)时解析不正确的错误。read_html()错误地推断标题类型(GH5048)的错误。DatetimeIndex与PeriodIndex联接导致堆栈溢出(GH3899)的错误。groupby对象不允许绘图(GH5102)的错误。groupby对象不是制表符完成列名称(GH5102)的错误。groupby.plot()和朋友多次重复图形(GH5102)的错误。object在fillna上的dtypes,相关(GH5103)ilocMultiIndex.get_level_values()(GH5074)TestReadHtml未调用正确的read_html()函数(GH5150)的错误。NDFrame.replace()的错误。isnull(MultiIndex)上修复了错误(现在出现错误)(GH5123,GH5125NotImplementedError(GH5191)to_datetime中出现格式错误,coerce=True不提高(GH5195)loc中设置多个索引器和需要广播的系列的rhs(GH5206)MultiIndex上的级别或标签的内置设置不会清除缓存的values属性,因此返回错误的values的错误。(GH5215)Period,其业务日期为freq,以便在非营业日期总是前滚。(GH5203)drop的问题,以及系列上的非唯一索引(GH5248)Series.isin与日期/时间样dtypes(GH5021)initObjToJSON()的返回值/类型签名以与numpy的import_array()(GH5334,GH5326 )head/tail基于iloc,(GH5370)PeriodIndex字符串表示的错误,如果有1或2个元素。(GH5372)transform和filter可用于具有重复(非唯一)索引的Series和DataFrames。(GH4620)pd.to_timedelta返回标量(GH5410)pd.to_timedelta接受NaN和NaT,返回NaT而不是提高(GH5437 )isnulliloc(GH5528)中的错误loc(GH5553)从非唯一索引中进行选择None,(GH5592)时,groupby中的错误返回非一致类型ndarray.item(GH5666)提高IndexError发布日期: 2013-07-24
pd.read_html()现在可以解析HTML字符串,文件或网址,并返回DataFrame的列表由@cpcloud提供。(GH3477,GH3605,GH3606)to_json DataFrame / Series方法和read_json顶级读取器各种问题(GH1226,GH3804,GH3876,GH3867,GH1305)to_stata DataFrame方法和read_statato_csv中写入并读入read_csv多索引列的支持。read_csv中的header选项现在接受从中读取索引的行的列表。添加了选项tupleize_cols以提供对通过元组列表写入和读取多索引列的前0.12行为的兼容性。在0.12中的默认值是写入元组列表,并且不将元组列表解释为多索引列。注意:默认值将更改为0.12,以使默认的到以新格式写入和读取多索引列。(GH3571,GH1651,GH3141)Series.str(GH3638)pd.set_option()现在允许N个选项,值对(GH3667)。filter方法返回原始子集(GH3680,GH919)colormap关键字从Matplotlib色彩映射采样列颜色。(GH3860 T0>)convert_objects现在接受copy参数(默认为True)HDFStore
date方法添加到DatetimeIndexdropna参数添加到pivot_table(:issue:3820)melt现在接受可选参数var_name和value_name以指定返回的DataFrame(GH3649)的自定义列名称,感谢@hoechenberger。如果未指定var_name且dataframe.columns.name不为None,那么将用作var_name(GH4144 )。还支持MultiIndex列。object(GH1818,GH3572),绘图函数现在在尝试绘制任何内容之前引发TypeError / t5>,GH3911,GH3912),但是如果可能,它们会尝试将对象数组转换为数字数组,以便您仍然可以绘制浮动。这发生在任何绘图发生之前,消除任何虚假的图表出现。where导致块分裂的操作要快得多(GH3733)figsize参数(GH3834)unit keyword to Timestamp and to_datetime to enable passing of integers or floats that are in an epoch unit of D, s, ms, us, ns, thanks @mtkini (GH3969) (e.g. unix timestamps or epoch s, with fractional seconds allowed) (GH3540)network测试装饰器捕获IOError(因此也URLError)。添加了with_connectivity_check装饰器,以允许显式检查网站作为代理,以查看是否存在网络连接。另外,新的optional_args装饰工厂。(GH3910,GH3914)read_csv现在会在文件不包含列时抛出更多的信息错误消息,例如,所有换行符layout关键字到DataFrame.hist()以获得更多可自定义布局(GH4050)read_html现在在没有找到表并且检测到BeautifulSoup == 4.2.0时发生(GH4214)HDFStore
datetime64[ns] except to object, and timedelta64[ns] to object/int (GH3425)datetime64 dtypes的行为相对于某些所谓的缩减操作(GH3726)已经改变。The following operations now raise a TypeError when performed on a Series and return an empty Series when performed on a DataFrame similar to performing these operations on, for example, a DataFrame of slice objects: - sum, prod, mean, std, var, skew, kurt, corr, and covdatetime64[ms])(GH3423),否则不允许创建datetimelike / timedeltalikesqueeze关键字添加到groupby以允许从DataFrame - > Series中减少。从0.10.1回归,部分恢复(GH2893)与(GH3596)iloc上提高一个布尔系列,甚至带有整数标签,将提高。由于iloc纯粹基于位置,所以系列上的标签不可对齐(GH3631)raise_on_error选项绘制方法由GH3572消除,因此被删除。当数据无法绘制或绘制的对象具有object的dtype时,绘图始终会提高。DataFrame.interpolate()现已弃用。Please use DataFrame.fillna() and DataFrame.replace() instead (GH3582, GH3675, GH3676).DataFrame.replace()的method和axis参数已弃用DataFrame.replace的infer_types参数已删除,现在默认执行转换。(GH3907)allow_duplicates添加到DataFrame.insert以允许在True时插入重复的列,默认值为False (与0.12之前相同)(GH3679)pandas.io.apiExcel支持pandas.io.excelpd.read_sql和to_sql DataFrame方法clipboard支持pandas.io.clipboardsave and load with top-level read_pickle and to_pickle instance method, save and load will give deprecation warning.DataFrame.replace()的method和axis参数已弃用DataFrame.replace()的method和axis参数已弃用NDFrame对象(GH3691,GH3696)实施__nonzero__as_matrix将导致2 x无符号的lcd作为int,最大与int64,以避免精度问题(GH3733 )read_csv/read_excel提供的列表中的na_values将匹配字符串和数字版本。 na_values=['99']将匹配99列是否为int,float或string(GH3611)read_html现在在阅读时默认为None,当lxml无法解析时,返回bs4 + html5lib。直到成功为止的解析器列表也是有效的pandas类层次结构已更改(略)。The previous PandasObject now is called PandasContainer and a new PandasObject has become the baseclass for PandasContainer as well as Index, Categorical, GroupBy, SparseList, and SparseArray (+ their base classes). 目前,PandasObject提供字符串方法(从StringMixin)。(GH4090,GH4092)StringMixin,给定一个__unicode__方法,获得python2和python3兼容的字符串方法(__str__,__bytes__ ,和__repr__)。加上字符串安全。现在在整个熊猫图书馆的许多地方。(GH4090,GH4092)CustomBusinessDay类,以支持DateOffsets和自定义假日日历和自定义周密码。(GH2301)NaT的to_csv问题.loc在传递整数列表(GH3449)时未提升loc和朋友固定(GH3659)切片的非唯一索引reindex以正确处理非唯一索引(GH3679)DataFrame.itertuples()现在可用于具有重复列名称的框架(GH3873)iloc(GH4017)的非唯一索引中出现错误;为reindex添加了takeable参数,以进行基于位置的拍摄.ix/.loc和__getitem__(GH4246)允许非唯一索引.ix/.loc(GH4280)修复非唯一索引内存分配问题TypeError例如添加数据时间,多个timedelta x datetime.diffcombine_first在可能的情况下不会返回相同的dtype(GH3552)Panel.transpose引数别名(GH3556)的错误PeriodIndex.take(GH3579)中修正平台错误combine_first(GH3593)中的datetime64 [ns]NaN的reset_index中的错误value参数是list或tuple时,fillna方法现在产生TypeError 。float dtypes to return np.nan or np.inf as appropriate (GH3590)as_index=False(GH3610)修正groupby上的不正确dtyperead_csv/read_excel可正确编码相同的na_values,例如na_values=[-999.0,-999]失败(GH3611)iloc(GH3617)parse_dates(GH3062)时,正确解析read_csv中的嵌入式日期列(nan / NaT)为datetime64 [ns] dtypesql.write_frame在将单列写入sqlite(GH3628)时失败,感谢@stonebignan的旋转(GH3558)read_html()现在只允许一个后端:html5lib(GH3616)convert_objects与convert_dates='coerce'将一些单字母字符串解析为今天的日期DataFrame.from_records不接受空重复列表(GH3682)DataFrame.to_csv将会成功使用已弃用的选项nanRep,@tdsmithDataFrame.to_html和DataFrame.to_latex现在接受第一个参数的路径(GH3702)read_html现在可正确跳过测试(GH3741)read_csv(GH3795)中的dtype=str(或其他变量连字符串dtypes)时正确解析loc/ix(GH3880)时传播的索引名称to_replace参数中编译的正则表达式中DataFrame.replace无效的错误(GH3907)numexpr的Python 2.7中的__truediv__,以便在将至少包含10000个单元格的整数数组(GH3764iterator=True但没有指定chunksize(GH3967),csv解析器将无限循环,python解析器失败与chunksize=1shift时不传播的索引名称Series.clip。NA / NaN阈值现在将抛出ValueError(GH3996)Series.hist现在将从当前环境中获取数字(如果没有通过)tox,其中pickle导入以不兼容的方式重写(GH4062,GH4063)HDFStore无法附加的错误DataFrame.replace中的错误,其中当regex = False(GH4115)时,不会迭代嵌套的字典convert_objects(convert_numeric=True)中的错误,其中混合数字和对象系列/帧无法正确转换(GH4119)to_datetime(GH4152)中使用format参数时解析微秒的错误PandasAutoDateLocator中的错误invert_xaxis不正确触发MilliSecondLocator(GH3990)Series.where中的错误,其中将单元素输入向量广播到序列的长度导致将输入内的值相乘(GH4192)DataFrame.plot(kind='kde')(GH4216)中显示的图例DatetimeIndex发布日期: 2013-04-22
10 分钟 到 Pandas Cookbookfloat32/float64/int32/int16/int8)在DataFrames中共存,并在操作中传播.iloc属性,以支持严格整数索引,类似于.ix(GH2922).loc属性,以支持严格的基于标签的索引,类似于.ix(GH3053).iat属性,支持通过整数快速进行标量访问(替换iget_value/iset_value).at属性,以支持通过标签进行快速标量访问(替换get_value/set_value)irow,icol,iget_value/iset_value移至.iloc索引器(通过每个对象中的_ixs方法)numexpr库的表达式求值的支持convert=boolean到take例程将负索引翻译为正,默认为True在某些情况下,将df.to_csv()的性能提高了10倍。(GH3059)
将blocks属性添加到DataFrames,将dtypes的dict返回到均匀分类的DataFrames
添加关键字convert_numeric到convert_objects()尝试将对象dtypes转换为数字类型(默认值为False)
convert_objects中的convert_dates现在可以是coerce,将返回一个datetime64 [ns] dtype,其中不可转换设置为NaT
默认情况下,系列打印输出包括dtype
describe_option()现在报告选项的默认值和当前值。
将format选项添加到pandas.to_datetime,可以更快地转换可以使用datetime.strptime解析的字符串
为了兼容性,将axes属性添加到Series
为了兼容性,将xs函数添加到Series
在只有混合数字的框架中允许setitem(例如int和float),(GH3037)
HDFStore
添加squeeze方法可能从对象中删除长度1维度。
In [1]: p = pd.Panel(np.random.randn(3,4,4),items=['ItemA','ItemB','ItemC'],
...: major_axis=pd.date_range('20010102',periods=4),
...: minor_axis=['A','B','C','D'])
...:
In [2]: p
Out[2]:
<class 'pandas.core.panel.Panel'>
Dimensions: 3 (items) x 4 (major_axis) x 4 (minor_axis)
Items axis: ItemA to ItemC
Major_axis axis: 2001-01-02 00:00:00 to 2001-01-05 00:00:00
Minor_axis axis: A to D
In [3]: p.reindex(items=['ItemA']).squeeze()
Out[3]:
A B C D
2001-01-02 0.469112 -0.282863 -1.509059 -1.135632
2001-01-03 1.212112 -0.173215 0.119209 -1.044236
2001-01-04 -0.861849 -2.104569 -0.494929 1.071804
2001-01-05 0.721555 -0.706771 -1.039575 0.271860
In [4]: p.reindex(items=['ItemA'],minor=['B']).squeeze()
Out[4]:
2001-01-02 -0.282863
2001-01-03 -0.173215
2001-01-04 -2.104569
2001-01-05 -0.706771
Freq: D, Name: B, dtype: float64
改进pd.io.data.Options(GH2758)中的Yahoo API访问
添加选项display.max_seq_items以控制打印每个序列打印的元素数量。(GH2979)
添加选项display.chop_threshold以控制小数值的显示。(GH2739)
添加选项display.max_info_rows以防止为1M以上的帧(可配置)的帧计算verbose_info。(GH2807,GH2918)
value_counts()现在接受归一化直方图的“normalize”参数。(GH2710)。
DataFrame.from_records现在不仅接受dicts,而且接受collections.Mapping ABC的任何实例。
允许通过具有类型索引的字符串在Series和DataFrames(GH3070)中工作的选择语义
In [5]: idx = pd.date_range("2001-10-1", periods=5, freq='M')
In [6]: ts = pd.Series(np.random.rand(len(idx)),index=idx)
In [7]: ts['2001']
Out[7]:
2001-10-31 0.838796
2001-11-30 0.897333
2001-12-31 0.732592
Freq: M, dtype: float64
In [8]: df = pd.DataFrame(dict(A = ts))
In [9]: df['2001']
Out[9]:
A
2001-10-31 0.838796
2001-11-30 0.897333
2001-12-31 0.732592
添加选项display.mpl_style为地块提供更时尚的视觉样式。基于https://gist.github.com/huyng/816622(GH3075)。
通过考虑数组的内存排序,提高了几个核心功能的性能。感谢@stephenwlin(GH3130)
改善groupby变换方法的性能(GH2121)
处理“ragged”CSV文件在缺少字段的行中缺少尾部分隔符,同时还提供了列名的明确列表(因此解析器知道结果中需要多少列)(GH2981)
在混合数据框架上,允许在rhs(GH3216)上使用ndarray / DataFrame设置索引器
将布尔值视为整数(值1和0)用于数字运算。(GH2641)
将time方法添加到DatetimeIndex(GH3180)
对于不够长的值(GH3223)使用Series.str [...]时,返回NA
在时间序列图中显示光标坐标信息(GH1670)
to_html() now accepts an optional “escape” argument to control reserved HTML character escaping (enabled by default) and escapes &, in addition to < and >. (GH2919)
无论平台如何,列表和标量的DataFrame构造,没有dtype存在,将导致转换到int64或float64。这不是API的明显变化,但注意到它。
保证Series / DataFrame的convert_objects()始终返回一个副本
groupby操作将尊重数字浮点型操作的数据类型(float32 / float64);其他类型将被操作,并将尝试回到输入dtype(例如,如果一个int被传递,只要输出没有nans,那么将返回一个int)
backfill / pad / take / diff / ohlc现在支持float32/int16/int8操作
块类型将根据需要在where / masking操作(GH2793)
系列现在将自动尝试根据传递的datetimelike对象(datetime / Timestamp)设置正确的dtype,
timedelta64与混合的NaN和/或NaTDataFrame.clip的参数与numpy和系列剪辑不一致(GH2747)
util.testing.assert_frame_equal现在检查列和索引名称(GH2964)
当传递无效形状时,构造函数将在失败时返回更多信息的ValueError
不要在GroupBy.agg(GH3238)中禁止TypeError
当inplace = True(GH1893)时,方法返回None
HDFStore
- 添加方法
select_column从表中选择单个列作为Series。- 不建议使用
unique方法,可以通过select_column(key,column).unique()min_itemsize参数现在将自动为传递的键创建data_columns
如果可能(GH3283)向下转播,将downcast添加到fillna
引入选项display.height / width用于以字符显式指定终端高度/宽度。已弃用的display.line_width,现在由display.width替换。这些默认值对脚本也有效,因此除非禁用,以前非常宽的输出现在将作为“expand_repr”样式输出。
经过简短的调查,他们对每个人都错了,选项(包括display.max_rows)的各种默认值被修改。现在在w = 80,h = 60。
IPython中的HTML repr输出qtconsole再次由选项display.notebook_repr_html控制,默认情况下为打开。
pad或backfill(GH2778)时,修复空数据帧上的seg错误int64的整数和一些混合类型列表(GH2845)修复DataFrame和Series构造函数的问题HDFStore
float(GH2746)的integer系列上就地屏蔽datetime64[ns]的序列中的错误NaT(GH2967)datetime64[ns]系列(GH3002)的值的计数错误NaTNaT(GH2982)的datetime64[ns]系列的idxmin / idxmax中的错误icol, 采取中阴性指示的错误产生不正确的返回值(参见GH2922,GH2892 ),还检查超出界限索引(GH3029)nan的索引的格式不一致或错误(将从其他值填充),(GH2850)axes=1和级别参数(GH2903)调用时执行.xs发布日期: 2013-01-22
HDFStoreput删除关键字compression(由关键字complib替换为跨库一致)HDFStoredata_columns关键字chunksize关键字附加index关键字自动索引到appendexpectedrows关键字在append中通知PyTables关于预期的表大小start和stop关键字以限制行选择空间get_store上下文管理器以使用pandas自动导入columns关键字添加列过滤unique在可索引或数据列中选择唯一值copy以复制现有存储(并可能升级)logx选项添加到DataFrame / Series.plot(GH2327,GH2565)pivot_table aggfunc可以是GroupBy.aggregate中使用的任何东西(GH2643)neg和inv添加到SeriesExcelFile中实施kind选项以指示其是XLS还是XLSX文件(GH2613)HDFStore
file:///Index.summary()中的错误,其中字符串格式的方法被错误地调用。(GH3869)发布日期: 2012-12-17
where和mask添加到Series(GH2337)corr和cov中的可选的min_periodsduplicated和drop_duplicates添加到系列(GH1923)HDFStore 表格添加文档格式ffill和bfill便利函数(GH2284)pandas.options.X访问作为属性的选项rolling_window(GH1270)resample的默认分级/标记行为已更改为closed ='left',label ='left'。这对用户来说是一个很大的混乱。请参阅“新功能”页面了解更多。(GH2410)inplace选项的方法现在返回None,而不是调用(修改)对象(GH1893)mode.use_inf_as_null(GH2050,GH1919)全局重新启用pandas.merge现在默认为sort=False。对于许多使用情况,排序连接键不是必需的,并且默认情况下这是浪费header=0以替换read_ *函数中文件中的现有列名。prefix='X'(GH2034)。进行此API更改是为了使默认列名称与DataFrame构造函数的默认列名称一致,当没有指定时。true_values和false_values选项(GH2360)进行自定义nrows选项添加到DataFrame.from_records中用于迭代器(GH1794)normalize选项添加到Series / DataFrame.asfreq(GH2137)HDFStore现在支持分层键(GH2397)HDFStore 表格(GH1996)的多种查询选择格式del store ['df']语法删除HDFStoresHDFStore 表添加多类型支持min_itemsize参数可以在HDFStore 表HDFStore 表中建立索引支持(GH698)melt中实施value_vars并将melt添加到pandas命名空间(GH2412)Series.str.strip/lstrip/rstrip方法接受参数(GH2411)get_level_values MultiIndex返回索引而不是ndarray方法(GH2449)convert_to_r_dataframe转换datetime值(GH2351)DataFrame.to_csv以不同的方式表示inf和nan(GH2026)min_i参数添加到nancorr以指定最小所需观察值(GH2002)inplace选项添加到sortlevel / sortsize参数(GH1794)DatetimeIndex的部分字符串切片to_html和to_string中实施col_spaceSeries.tolist和框datetime64类型(GH2447)unstackHDFStore 表`中的连续行比以前快得多put创建表,则附加在HDFStore上将失败read_csv故障发布日期: 2012-11-14
发布日期: 10/7/2012
re.compile添加flagslevel参数添加到Series.reset_indexna选项day_of_year API,请使用dayofyear(GH1723)发布日期: 2012年7月22日
to_datetime性能(GH1571)set_index附加层次索引级别并使用reset_index(GH1569,GH1577)删除单个级别的功能resample中应用传递的函数,即使上采样(GH1596)adjust选项添加到ewma以禁用调整系数(GH1584)发布日期: 6/29/2012
tz_convert和tz_localize方法match函数添加到API(GH502)max_colwidth选项,默认值为50match函数添加到API(类似于R)(GH502)method参数添加到align方法,用于前进/后退填充(GH216)cut函数(在R之后进行图案化),用于将数据离散为相等的范围长度bin或您选择的任意断点(GH415)qcut用于分割(GH1378)value_counts顶级数组方法(GH1392)any和all方法添加到DataFrame(GH1416)secondary_y选项添加到Series.plotlreshape函数,用于将宽度重新整形为长整型order方法添加到索引类(GH1028)convert_dtype选项添加到Series.apply,以便能够将数据保留为dtype = object(GH1414)dialect关键字添加到解析器以引用约定(GH1363)get_data_yahoo添加retries参数,以尝试阻止Yahoo!API 404s(GH826)raise_conflict参数添加到DataFrame.update(GH1526)发布日期: 2012年4月12日
kurt方法添加到Series和DataFrame(GH964)发布日期: 2012年3月16日
drop以从级别中删除值(GH159)coerce_float选项read_csv中失败,则抛出异常axis选项添加到DataFrame.fillna(GH174)发布日期: 2012年2月29日
to_clipboard函数添加到pandas命名空间以将对象写入系统剪贴板(GH774)itertuples方法添加到DataFrame,用于将数据帧的行作为元组(GH818)between方法到系列(GH802)发布日期: 2/9/2012
merge函数用于有效地执行数据库/关系代数运算的全色域。重构现有的连接方法以使用新的基础设施,从而获得显着的性能提升(GH220,GH249,GH267)concat函数。可以形成其他轴的联合或交叉。改善DataFrame.append(GH468,GH479,GH273)的效能DataFrame.apply(GH498)中处理不同索引的输出值reorder_levels方法添加到Series和DataFrame(GH534)get函数添加到DataFrame和Panel(GH521)DataFrame.iterrows方法,用于有效地遍历DataFrame的行DataFrame.to_panel,代码改为LongPanel.to_longreindex_axis方法添加到DataFramelevel选项添加到DataFrame和Series上的二进制算术函数中,level option to the reindex and align methods on Series and DataFrame for broadcasting values across a level (GH542, GH552, others)Panel添加基于属性的项访问权限,并添加IPython完成(PR GH554)logy选项添加到Series.plot以在Y轴上进行对数缩放index,header和justify选项添加到DataFrame.to_string。添加选项至(GH570,GH571)DataFrame.join,以便在索引上加入(GH115)Panel.join(GH115)Series.appendDataFrame.to_string添加justify参数,以允许列标题的不同对齐sort选项添加到GroupBy以允许禁用可能加速的组键排序(GH595)DataFrame.lookup,用于检索给定一系列行和列标签的值的花样索引模拟(GH338)verbose选项添加到read_csv和read_table以显示插入非数字列(GH614DataFrame.append以连接多个行(GH464)level参数添加到DataFrame.xs以从其他MultiIndex级别选择数据。可以采用一个或多个级别,可能有一个键的元组,用于灵活检索数据(GH371,GH629)crosstab功能,可轻松计算频率表(GH170)iget(GH628)中的irow / igetSeries.unique函数,显着快于numpy.unique(GH658)cummin和cummax实例方法添加到Series和DataFrame(GH647)value_range函数以返回数据帧的最小值/最大值(GH288)drop parameter to reset_index method of DataFrame and added method to Series as well (GH699)isin方法添加到索引对象,与Series.isin(GH GH657)sort选项添加到DataFrame.join(GH731)abs方法algorithms模块以开始收集中心algosix或[]在系列上现在只有在找到标签的完全匹配或索引是单调的(对于范围选择)[](GH86)__getitem__和__setitem__)将使用整数索引引发KeyError。如果在索引中没有找到将导致微妙错误的键,先前的行为将落在基于位置的索引上。这现在与.ix在DataFrame和朋友(GH328)上的行为一致DataFrame.delevel重命名为DataFrame.reset_index,并添加弃用警告LongPanel类(GH552)的重构Panel.to_long,重命名为to_frameDataFrame.to_string中已弃用的colSpace参数,重命名为col_spaceprecision重命名为accuracyread_csv的默认分隔符是逗号,而不是让csv.Sniffer推断col_or_columns argument in DataFrame.drop_duplicates (GH GH734)reset_index时的默认名称分配level参数(GH545)rolling_median约5-10倍Index._get_duplicates成为公共方法bold_rows选项添加到DataFrame.to_html(GH586)DataFrame.sort_index的性能提高5倍或更多DataFrame.apply中指示函数应用程序失败的行/列(GH614)的Monkey-patch上下文groupbykind参数选择不同的排序类型(GH668)read_csv和其他解析函数中,添加delimiter替代sepset_value方法中处理不当的dtype类型转换level参数聚合,系列stat方法被破坏(GH545)发布日期: 12/13/2011
发布日期: 11/25/2011
&,|,^发布日期: 10/24/2011
这个版本的pandas包括许多API更改(见下文)和从0.4.0之前的版本清理过时的API。还有错误修复,新功能,大量显着的性能增强,并且包括一个新的ipython完成符钩子,以启用对DataFrame列访问和属性(新功能)的选项卡完成。
除了这里列出的从0.4.3到0.5.0的更改之外,次版本4.1,0.4.2和0.4.3带来了一些重要的新功能和性能改进,值得一看。
感谢所有的bug报告,贡献的补丁和一般提供反馈图书馆。
- indexField参数DataFrame.from_records
- Series.order中的missingAtEnd参数。请改用na_last
- Series.fromValue类方法,改用常规Series构造函数
- pandas.io.parsers中的函数parseCSV,parseText和parseExcel
- Index.asOfDate函数
- Panel.getMinorXS(使用minor_xs)和Panel.getMajorXS(使用major_xs)
- Panel.toWide,请改用Panel.to_wide
发布日期: 10/9/2011
是很大程度上从0.4.2的bug修复版本,但也包括一些新的增强功能。此外,熊猫现在可以安装和使用的Python 3绞盘Thomas Kluyver!)。
发布日期: 10/3/2011
是一个具有几个错误修复的性能优化版本。新的t64Index和新的合并/加入Cython代码和相关的Python基础设施是主要的新增内容
发布日期: 9/25/2011
是主要是一个bug修复版本,但包括一些新的功能和改进
.ix indexing attribute in mixed-type DataFrame objects has been implemented (fixes GH135)发布日期: 9/12/2011
skipna选项groupby函数时对组的热衷评估,因此如果存在分组函数的异常,它将立即引发,而稍后当需要组时index_label参数。因此,您可以通过index_label='index'来模拟旧的行为发布日期: 2011年2月20日