原文:http://pandas.pydata.org/pandas-docs/stable/release.html
校对:(虚位以待)
这是每个版本之间对pandas的更改列表。有关完整详细信息,请参阅提交日志http://github.com/pandas-dev/pandas
什么是
pandas是一个Python包,提供快速,灵活和表达性的数据结构,旨在使用“关系”或“标记”数据,既方便又直观。它旨在成为在Python中进行实际,真实世界数据分析的基本高级构建块。此外,它具有更广泛的目标,成为任何语言中可用的最强大和灵活的开源数据分析/操作工具。
在哪里取得
发布日期: 2016年12月24日
这是0.19.x系列中的一个小错误修复版本,包括一些小的回归修复,错误修复和性能改进。
亮点包括:
有关已在0.19.2中修复的所有错误的概述,请参阅v0.19.2 Whatsnew页面。
发布日期: 2016年11月3日
这是一个从0.19.0的小错误修复版本,并包括一些小的回归修复,错误修复和性能改进。
有关已在0.19.1中修复的所有错误的概述,请参阅v0.19.1 Whatsnew页面。
发布日期: 2016年10月2日
这是0.18.1的主要版本,包括多个API更改,几个新功能,增强功能和性能改进以及大量错误修复。我们建议所有用户升级到此版本。
亮点包括:
merge_asof()
用于asof风格的时间序列连接,请参阅here.rolling()
现在是时间序列感知,请参阅hereread_csv()
现在支持解析Categorical
数据,请参阅hereunion_categorical()
用于组合分类,请参阅herePeriodIndex
现在有自己的period
dtype,并且更改为与其他Index
类更一致。请参阅hereint
和bool
dtypes的支持,参见hereSeries
的比较操作不再忽略索引,有关API更改的概述,请参阅here。Panel4D
和PanelND
。我们建议使用xarray软件包来表示这些类型的n维数据。pandas.io.data
, pandas.io.wb
, pandas.tools.rplot
.有关已在0.19.0中修复的所有增强功能和错误的详细列表,请参见v0.19.0 Whatsnew概述。
发布日期:(2016年5月3日)
这是一个从0.18.0的小版本,包括大量的错误修复以及几个新的功能,增强和性能改进。
亮点包括:
.groupby(...)
has been enhanced to provide convenient syntax when working with .rolling(..)
, .expanding(..)
and .resample(..)
per group, see herepd.to_datetime()
已获得从DataFrame
汇编日期的能力,请参阅heresparse
的许多错误修复,请参阅here有关已在0.18.1中修复的所有增强功能和错误的详细列表,请参见v0.18.1 Whatsnew概述。
发布日期:(2016年3月13日)
这是从0.17.1的主要版本,包括少量的API更改,几个新功能,增强功能和性能改进以及大量的错误修复。我们建议所有用户升级到此版本。
亮点包括:
.groupby
,请参阅here。RangeIndex
的支持,作为Int64Index
的特殊形式,以节省内存,请参阅here。.resample
方法,使其更多.groupby
,例如,请参阅here。TypeError
,请参阅here。.to_xarray()
函数,请参阅here。read_sas
函数已增强以读取sas7bdat
文件,请参阅here。pd.test()
顶级鼻梁测试跑步机可用(GH4327)。有关已在0.18.0中修复的所有增强功能和错误的详细列表,请参见v0.18.0 Whatsnew概述。
发布日期:(2015年11月21日)
这是一个从0.17.0的小版本,包括大量的错误修复以及几个新的功能,增强功能和性能改进。
亮点包括:
DataFrame.drop_duplicates
中从0.16.2回归,导致对整数值的不正确结果(GH11376)有关已在0.17.1中修复的所有增强功能和错误的详细列表,请参阅v0.17.1 Whatsnew概述。
发布日期:(2015年10月9日)
这是从0.16.2的主要版本,包括少量的API更改,几个新功能,增强功能和性能改进以及大量的错误修复。我们建议所有用户升级到此版本。
亮点包括:
.plot
存取器的属性,请参见heredatetime64[ns]
,请参阅hereto_datetime
的默认值现在为raise
,当呈现不可解析的格式时,以前这将返回原始输入。此外,日期解析函数现在返回一致的结果。请参阅heredropna
in HDFStore
has changed to False
, to store by default all rows even if they are all NaN
, see heredt
)现在支持Series.dt.strftime
生成datetime-like和Series.dt.total_seconds
的格式化字符串timedelta的每个持续时间(以秒为单位)。请参阅herePeriod
和PeriodIndex
可以处理类似于3D
的倍频,其对应于3天跨度。请参阅herePEP440
的版本字符串(GH9518)有关已在0.17.0中修复的所有增强功能和错误的详细列表,请参阅v0.17.0 Whatsnew概述。
发布日期:(2015年6月12日)
这是从0.16.1的一个小版本,包括大量的错误修复以及几个新的功能,增强功能和性能改进。
亮点包括:
有关已在0.16.2中修复的所有增强功能和错误的详细列表,请参阅v0.16.2 Whatsnew概述。
发布日期:(2015年5月11日)
这是一个从0.16.0的小版本,包括大量的错误修复以及几个新的功能,增强和性能改进。需要少量的API更改来修复现有的错误。
有关已在0.16.1中修复的所有API更改,增强和错误的详细列表,请参阅v0.16.1 Whatsnew概述。
发布日期:(2015年3月22日)
这是0.15.2的主要版本,包括许多API更改,几个新功能,增强功能和性能改进以及大量错误修复。
亮点包括:
DataFrame.assign
方法,请参阅hereSeries.to_coo/from_coo
与scipy.sparse
交互的方法,请参阅hereTimedelta
的向后不兼容更改符合.seconds
属性与datetime.timedelta
,请参阅here.loc
切片API的更改符合.ix
的行为,请参阅hereCategorical
构造函数中的排序默认值,请参阅herepandas.tools.rplot
,pandas.sandbox.qtpandas
和pandas.rpy
模块。We refer users to external packages like seaborn, pandas-qt and rpy2 for similar or equivalent functionality, see here有关已在0.16.0中修复的所有API更改,增强和错误的详细列表,请参阅v0.16.0 Whatsnew概述或GitHub上的问题跟踪器。
发布日期:(2014年12月12日)
这是从0.15.1的次要版本,包括大量的错误修复以及几个新的功能,增强和性能改进。需要少量的API更改来修复现有的错误。
有关已在0.15.2中修复的所有API更改,增强和错误的详细列表,请参阅v0.15.2 Whatsnew概述。
发布日期:(2014年11月9日)
这是0.15.0的小版本,包括少量的API更改,几个新功能,增强功能和性能改进以及大量的错误修复。
有关已在0.15.1中修复的所有API更改,增强和错误的详细列表,请参阅v0.15.1 Whatsnew概述。
发布日期:(2014年10月18日)
这是从0.14.1的主要版本,包括许多API更改,几个新功能,增强和性能改进以及大量的错误修复。
亮点包括:
Categorical
类型已集成为一类pandas类型,请参阅hereTimedelta
和新的索引类型TimedeltaIndex
,请参阅heredf.info()
以包括内存使用,请参阅Memory Usage.dt
,请参阅Datetimelike Propertiesread_csv
现在默认会在解析时忽略空行,请参阅hereIndex
类不再是子类ndarray
的内部重构,请参阅Internal RefactoringPyTables
和小于版本2.1(GH7990)的numexpr
有关已在0.15.0中修复的所有API更改,增强和错误的详细列表,请参阅v0.15.0 Whatsnew概述或GitHub上的问题跟踪器。
发布日期:(2014年7月11日)
这是一个从0.14.0的小版本,包括少量的API更改,几个新功能,增强功能和性能改进以及大量的错误修复。
亮点包括:
select_dtypes()
基于dtype和sem()
选择列来计算平均值的标准误差。read_csv()
文本解析器中的整行注释。有关已在0.14.1中修复的所有API更改,增强和错误的详细列表,请参阅v0.14.1 Whatsnew概述或GitHub上的问题跟踪器。
发布日期:(2014年5月31日)
这是从0.13.1的主要版本,包括许多API更改,几个新功能,增强功能和性能改进以及大量的错误修复。
亮点包括:
sqlalchemy
,请参阅here。CustomBusinessDay
,请参阅here有关已在0.14.0中修复的所有API更改,增强和错误的详细列表,请参阅v0.14.0 Whatsnew概述或GitHub上的问题跟踪器。
发布日期:(2014年2月3日)
date_format
和datetime_format
属性添加到ExcelWriter
。(GH4133)Series.sort
在对另一个对象进行排序时会引发ValueError
(而不是TypeError
)(GH5856 ,GH5853)SettingWithCopyError
(according to the option chained_assignment
in more cases, when detecting chained assignment, related (GH5938, GH6025)autocorrelation_plot
现在接受**kwargs
。(GH5623)convert_objects
现在接受convert_timedeltas='coerce'
参数以允许对timedeltas进行强制dtype转换(GH5458,:issue:5689 )-NaN
和-nan
添加到默认的NA值集合(GH5952)。请参阅NA Values。NDFrame
现在有一个equals
方法。(GH5283)DataFrame.apply
will use the reduce
argument to determine whether a Series
or a DataFrame
should be returned when the DataFrame
is empty (GH6007).axis=1
,DataFrame count/dropna
Series/Panel/Panel4D
上的dtypes
属性Panel.apply
以允许任意函数(而不只是ufuncs)(GH1148)允许多个轴用于操作Panel
datetime
和timedelta64
的ArrayFormatter
现在根据数组中的值智能地限制精度(GH3401)pd.show_versions()
现在可以方便地报告问题。dtypes/ftypes
方法中改进效果(GH5968)timedelta
的改进的类型推断(GH5458,GH5689)DataFrame.apply
(GH6013)pd.read_csv
和pd.to_datetime
学习了一个新的infer_datetime_format
关键字,这在很多情况下大大提高了解析perf。感谢@lexual的建议和@danbirken快速实现。(GH5490,:issue:6021)io.wb.get_countries
中的错误不包括所有国家/地区(GH6008).ix
NaT
中的错误(GH5443)np.nan
或整数datelike和格式字符串(GH5863)时,to_datetime
BusinessDay
resample
(GH5862)中的中继资料时发生错误NaT
的字符串表示形式固定为“NaT”(GH5708)pd.match
未返回通过的哨兵major_axis
为MultiIndex
(GH5402)时,Panel.to_frame()
pd.read_msgpack
中错误地推断了DateTimeIndex
频率(GH5947)NaT
(GH5961)的数组的to_datetime
interpolate
方法中的错误pd.concat
的错误timedelta
dtypes(GH5695)时出错to_sql
没有遵守if_exists
(GH4110 GH4304).get(None)
从0.12(GH5652)索引iloc
索引bug,出现在(GH6059)DataFrame.apply
DataFrame.append
中出现错误.loc
setitem索引与rhs上的数据框,多项目设置和datetimelike(GH6152)query
/ eval
中的错误。query
中的一个错误,其中单元素Series
的索引被丢弃(GH6148)。HDFStore
中有错误HDFStore
上进行选择nanops.var
中的错误与ddof=1
和1个元素有时会返回inf
而不是nan
(GH6136)use_index
关键字(GH6209)的Series和DataFrame条形图中出现错误argsort
失败(GH6212)发布日期: 2014年1月3日
plot(kind='kde')
现在接受传递给scipy.stats.gaussian_kde()的可选参数bw_method
和ind
> = 0.11.0)来设置带宽,并使用gkde.evaluate()来分别指定要评估的指标。参见scipy文档。(GH4298)isin
方法(GH4211)df.to_clipboard()
学习了一个新的excel
关键字,让您将df数据直接粘贴到excel中(默认启用)。(GH5070)。extract
字符串方法更方便地返回正则表达式匹配(GH4685)to_csv()
现在通过date_format
关键字(GH4313)根据指定的格式字符串输出datetime对象LastWeekOfMonth
DateOffset(GH4637)cumcount
groupby方法(GH4646)FY5253
和FY5253Quarter
DateOffsets(GH4511)mode()
方法添加到Series
和DataFrame
以获取列/系列的统计模式。(GH5367)eval()
函数在后台使用numexpr
实现表达式求值。这导致涉及大型DataFrames / Series的复杂表达式的大幅加速。DataFrame
有一个新的eval()
,用于评估DataFrame
的上下文中的表达式;允许内联表达式赋值query()
方法,该方法允许您使用与Python语法几乎相同的自然查询语法来选择DataFrame
的元素。pd.eval
and friends now evaluate operations involving datetime64
objects in Python space because numexpr
cannot handle NaT
values (GH4897).pd.read_msgpack()
和pd.to_msgpack()
/ df.to_msgpack()
添加msgpack支持用于任意pandas(和python对象)以轻便的便携式二进制格式(GH686,GH5506)pandas.io.gbq
,用于从Google BigQuery读取(和写入)DataFrame。(GH4140)read_html
现在提出URLError
,而不是捕捉并提高ValueError
(GH4303,GH4305 t7 >)read_excel
现在在其sheetname
参数中支持一个整数,给出要读入的工作表索引(GH4301)。get_dummies
适用于NaN(GH4446)read_clipboard()
和to_clipboard()
(GH4282)的测试value_counts
(GH3945)添加了箱子参数,也排序和升序,现在可用于Series方法以及顶级函数。read_table
,read_csv
等。HDFStore
中显着改善表的写入性能drop_level
参数添加到xs(GH4180)Index.copy()
and MultiIndex.copy()
now accept keyword arguments to change attributes (i.e., names
, levels
, labels
) (GH4039)rename
and set_names
methods to Index
as well as set_names
, set_levels
, set_labels
to MultiIndex
. (GH4039,GH4794)的改善的验证(GH4039timedelta64[ns]
除以/乘以整数系列(GH4521)timedelta64[ns]
除以另一个timedelta64[ns]
对象,产生一个float64
这是频率转换;也支持astyping。fillna/ffill/bfill
整数解释为秒,或timedelta
(GH3371)timedelta
系列(GH4984)上的方框数字操作ffill/bfill
DataFrames
上的__getitem__
提高性能DatetimeIndex/PeriodsIndex
。 s-s.index(GH4629)axis
和level
关键字添加到where
,以便other
参数现在可以是可对齐的pandas对象。to_datetime
现在解析速度更快ExcelWriter
并注册您的引擎)。您可以在to_excel
或ExcelWriter
中指定engine
。您还可以使用config选项io.excel.xlsx.writer
和io.excel.xls.writer
来指定要使用的编写器。(GH4745,GH4750)Panel.to_excel()
现在接受将传递到其DataFrame
的to_excel()
方法的关键字参数。(GH4750)ExcelWriter
引擎。这比默认的openpyxl xlsx写入器快约5倍,并且在速度上等同于xlwt xls写入器模块。(GH4542)collections.Sequence
和array.Array
对象(GH3783,GH4297,GH4851 t6 >),感谢@lgautier__getitem__
with tuple
key (e.g., [:, 2]
) on Series
without MultiIndex
raises ValueError
(GH4759, GH4837)read_json
现在在字典包含错误键和orient='split'
(GH4730)时引发(更多信息性的)ValueError
t6>,GH4838)read_stata
现在接受Stata 13格式(GH4291)ExcelWriter
和ExcelFile
可用作上下文管理器。(GH3441,GH4933)pandas
现在使用两个不同版本的statsmodels
(0.4.3和0.5.0)(GH4981)进行测试。MultiIndex
(包括通过repr
往返的能力)的字符串表示。(GH3347,GH4935)concat
现在在传递的无法连接的对象(GH4608)时会提供更多的信息错误消息。halflife
选项添加到指数加权移动函数(PR GH4998)to_dict
现在将records
视为可能的类型。返回一个列键字典数组。(GH4936)tz_localize
可以基于非本地化数据的结构(GH4230)推断秋天夏令时转换read_html()
现在支持parse_dates
,tupleize_cols
和thousands
参数(GH4770) 。json_normalize()
是一种新方法,允许您从半结构化JSON数据创建平面表。See the docs(GH1067)DataFrame.from_records()
现在将接受生成器(GH4910)DataFrame.interpolate()
和Series.interpolate()
已扩展为包括来自scipy的插值方法。(GH4434,GH1892)Series
现在支持to_frame
方法将其转换为单列DataFrame(GH5164)closed
参数(GH4579)以向左或向右打开的方式构造DatetimeIndex(和date_range)NDFrame.drop()
现在接受轴参数的名称以及整数。(GH5354)NDFrame.drop()
,NDFrame.dropna()
和.drop_duplicates()
全部接受inplace
(GH1960,GH5247,GH5628和相关GH2325read_excel()
现在尝试将默认情况下将整数浮点数(如1.0
)转换为int。(GH5394)to_excel()
中具有默认选项merge_cells
,以合并MultiIndex和Hierarchical Rows中的单元格。注意:使用此选项,不再可能使用合并的MultiIndex和分层行舍入Excel文件。将merge_cells
设置为False
以恢复先前的行为。(GH5254)DataFrame.reindex()
和向前/向后填充现在在任一索引不是单调的(GH4483,GH4484)时引发ValueError。pandas
现在是Python 2/3兼容,而不需要2to3感谢@jtratner。因此,pandas现在更广泛地使用迭代器。这也导致本杰明·彼得森的six
图书馆的实质性部分被引入compat。(GH4384,GH4375,GH4372)pandas.util.compat
和pandas.util.py3compat
已合并到pandas.compat
中。pandas.compat
现在包括许多允许2/3兼容性的功能。它包含range,filter,map和zip的列表和迭代器版本,以及Python 3兼容性的其他必要元素。lmap
, lzip
, lrange
and lfilter
all produce lists instead of iterators, for compatibility with numpy
, subscripting and pandas
constructors. (GH4384,GH4375,GH4372)iterkv
,它将在以后的版本中删除(只是用于修改2to3
的iteritems的别名)。(GH4384,GH4375,GH4372)Series.get
现在返回与[]
(GH4390)相同ix/loc
,即使单个键当前未包含在该轴的索引中(GH2578, GH5226,GH5632,GH5720,GH5744,GH5756to_clipboard
的默认导出为csv,其中sep为tat
现在将放大对象inplace(并返回相同)(GH2578)DataFrame.plot
会通过传递kind='scatter'
(GH2215)HDFStore
append_to_multiple
自动同步将行写入多个表,并添加dropna
kwarg(GH4698)Series
(GH4330)is_open
属性以指示底层文件是否处理is_open;关闭的商店现在将在查看商店时报告“关闭”(而不是引发错误)(GH4409)HDFStore
现在将关闭HDFStore
的实例,但只有在引用计数(由PyTables
)w.r.t.时才会关闭实际文件。所有打开的句柄都为0。实质上,您有一个变量引用的HDFStore
的本地实例。一旦你关闭它,它会报告关闭。其他引用(到同一文件)将继续操作,直到它们自己关闭。对封闭文件执行操作会产生ClosedFileError
_quiet
属性,如果从表(GH4367)检索重复行,请替换为DuplicateWarning
open
删除warn
参数。如果您尝试使用OPEN文件句柄(GH4367)使用mode='w'
,则会引发PossibleDataLossError
异常where
condition (GH4467)dropna=True
添加到append
以更改是否所有的行都不写入商店(默认值为True
NOT written),也可通过选项io.hdf.dropna_table
(GH4625)设置format
关键字现在替换table
关键字;允许的值为fixed(f)|table(t)
Storer
格式已重命名为Fixed
select_as_coordinates
现在将返回结果选择集的Int64Index
timedelta64[ns]
为序列化类型(GH3577)numexpr
2.2.2修复PyTables 2.4中的不兼容性(GH4908)flush
现在接受fsync
参数,其默认为False
(GH5364)table
格式(GH5386)不支持unicode
JSON
Index
和MultiIndex
更改(GH4039):MultiIndex
上直接设置levels
和labels
现已弃用。相反,您可以使用set_levels()
和set_labels()
方法。levels
,labels
和names
属性不再返回列表,而是返回不允许设置项目的容器('mostly immutable')levels
,labels
和names
在设置时有效,复制或浅复制。levels
或labels
现在可正确无效缓存的属性。(GH5238)。__deepcopy__
现在返回数据的浅拷贝(当前:视图) - 允许元数据更改。MultiIndex.astype()
现在只允许np.object_
类似dtypes,现在返回MultiIndex
而不是Index
(GH4039)is_
method to Index
that allows fast equality comparison of views (similar to np.may_share_memory
but no false positives, and changes on levels
and labels
setting on MultiIndex
). (GH4859,GH4909)__iadd__
别名至__add__
。(GH4996)is_
method to Index
that allows fast equality comparison of views (similar to np.may_share_memory
but no false positives, and changes on levels
and labels
setting on MultiIndex
). (GH4859,GH4909)downcast='infer'
的转换和向下转换dtype传递到fillna/ffill/bfill
(GH4604)__nonzero__
对于所有NDFrame对象,现在将生成ValueError
,将回到(GH1073,GH4633)行为。将.bool()
方法添加到NDFrame
对象以方便评估单元素布尔系列DataFrame.update()
不再引发DataConflictError
,它现在将引发一个ValueError
(如有必要)(GH4732 )Series.isin()
和DataFrame.isin()
现在在传递字符串(GH4763)时引发TypeError
传递一个元素(包含字符串)的list
。read_excel
和ExcelFile
中删除未记录/未使用的kind
关键字参数。(GH4713,GH4712)NDFrame.replace()
的method
参数再次有效,因此aa列表可以传递到to_replace
(GH4743 )。to_csv
和read_csv
,tupleize_cols
的默认值现在为False
。0.12(GH3604)中的公平警告to_timedelta
函数NDFrame
现在与Python的toplevel abs()
函数(GH4821)兼容。TypeError
Float64Index
。当在索引创建中传递浮动值时,将自动创建。这使得纯标签的切片范例使[],ix,loc
用于标量索引和切片工作完全相同。保留其他索引类型的索引(并且[],ix
)的位置回退,例外情况是,非Float64Index
上的索引上的浮点切片将产生TypeError
,例如Series(range(5))[3.5:4.5]
(GH263,:issue:5375)Factor
(GH3650)set_printoptions/reset_printoptions
(:issue:3046
)_verbose_info
(GH3215)GroupBy
对象(GH4887)上无效的方法。pandas.io.parsers
(GH3717)中删除已弃用的read_clipboard/to_clipboard/ExcelFile/ExcelWriter
Series
,DataFrame
,Panel
,Panel4D
,SparsePanel
,等等。),现在支持整套算术运算符和算术flex方法(add,sub,mul等)。SparsePanel
不支持使用非标量的pow
或mod
。(GH3765)np.prod(pandas_object)
之类的调用约定,使用附加关键字args(GH4435)为numpy调用提供numpy兼容性.truncate
will raise a ValueError
if invalid before and afters dates are given (GH5242)Timestamp
现在支持now/today/utcnow
类方法(GH5339)NDFrame
- 喜欢现在是truedivision,无论将来导入。您可以使用//
和floordiv
进行整数除法。In [3]: arr = np.array([1, 2, 3, 4])
In [4]: arr2 = np.array([5, 3, 2, 1])
In [5]: arr / arr2
Out[5]: array([0, 0, 1, 4])
In [6]: pd.Series(arr) / pd.Series(arr2) # no future import required
Out[6]:
0 0.200000
1 0.666667
2 1.500000
3 4.000000
dtype: float64
SettingWithCopyError/Warning
异常/警告,可通过选项mode.chained_assignment
NA
值列表。将N/A
,#NA
添加为独立的默认na值(GH5521)NDFrame
的``Series``的重构打破了rpy2<=2.3.8
已针对rpy2打开了一个问题,并且在GH5698中详细说明了解决方法。谢谢@JanSchulz。Series.argmin
和Series.argmax
现在别名为Series.idxmin
和Series.idxmax
。这些分别返回min或max元素的索引。在0.13.0之前,这些将返回min / max元素的位置(GH6214)在0.13.0中有一个主要的重构,主要是从NDFrame
子类化Series
,这是当前DataFrame
和Panel
,统一方法和行为。系列以前直接从ndarray
子类化。(GH4080,GH3862,GH816)参见Internal Refactoring
- 添加了
_setup_axes
以创建通用NDFrame结构- 移动方法
from_axes
,_wrap_array
,axes
,ix
,loc
,iloc
,shape
,empty
,swapaxes
,transpose
,pop
__iter__
,keys
,__contains__
,__len__
,__neg__
,__invert__
convert_objects
,as_blocks
,as_matrix
,values
__getstate__
,__setstate__
(compat保留在框架/面板中)__getattr__
,__setattr__
_indexed_same
,reindex_like
,align
,where
,mask
fillna
,replace
(Series
replace现在与DataFrame
一致)filter
(也可以添加轴参数,以选择性地在不同的轴上进行过滤)reindex
,reindex_axis
,take
truncate
(移动成为NDFrame
的一部分)isnull/notnull
现在可在NDFrame
物件上使用
Panel
与DataFrame
更一致
Panel
上指定相同轴的swapaxes
现在返回副本- 支持属性访问设置
filter
支持与原始DataFrame
过滤器相同的APIfillna
重构为core/generic.py
,而> 3ndim为NotImplemented
NDFrame
,而不是直接从ndarray
。有几个影响API的细微更改。
- 不支持数组接口的numpy函数现在返回
ndarrays
而不是系列,例如。np.diff
,np.ones_like
,np.where
Series(0.5)
之前会返回标量0.5
,不再支持TimeSeries
现在是Series
的别名。属性is_time_series
可以用于区分(如果需要)
- 在内部创建了一个新的块类型,
SparseBlock
,它可以容纳多个类型并且是不可合并的。SparseSeries
和SparseDataFrame
现在从其中继承了更多的方法(Series / DataFrame),并且不再继承自SparseArray
SparseBlock
)- 稀疏套件现在支持与非稀疏数据的集成。非浮动稀疏数据是可支持的(部分实现)
- 对DataFrames中的稀疏结构的操作应当保留稀疏,合并类型操作将转换为密集(并且返回稀疏),因此可能有些低效
- 在
SparseSeries
上启用setitem以获取布尔值/整数/切片SparsePanels
实现未更改(例如,不使用BlockManager,需要工作)
ftypes
方法添加到Series / DataFame,类似于dtypes
,但指示底层是稀疏/密集(以及dtype)NDFrame
对象现在都有一个_prop_attributes
,可用于指示各种值传播到现有对象(例如Series
isinstance(value, t> klass)
,而不必直接导入klass,courtesy的@jtratnerSeries.reindex
到核心/ generic.py(GH4604,GH4618),允许method=
Series.copy
不再接受order
参数,现在与NDFrame
copyrename
方法重写为core / generic.py;修复Series.rename
(GH4605),并为Panel
添加rename
clip
方法复制到core / generic.py(GH4798)_get_numeric_data/_get_bool_data
到core / generic.py,允许系列/面板功能Series
与ndarray
的复合相容。(GH4819)rwproperty
,有利于内置属性。(GH4843)core/generic.py
(GH4435)的重构对象级别数字方法(平均值/ sum / min / max ...)。read_html()
现在使用TextParser
来解析bs4 / lxml(GH4770)中的HTML数据。pandas/core/groupby.py
中的keep_internal
关键字参数,因为它未被使用(GH5102)。DateOffsets
在导入pandas时不再被实例化,而是随时生成和缓存。DateOffsets的内部表示和处理也已经澄清。(GH5189,相关GH5004)MultiIndex
构造函数现在验证传递的级别和标签是否兼容。(GH5213,GH5214)dropna
用于Series / DataFrame签名(GH5250),测试来自GH5234,由@rockg提供_update_inplace
方法,以方便更新inplace ops中的NDFrame
包装器(仅为了方便调用者,实际上不会防止复制)。(GH5247)HDFStore
TypeError
而不是ValueError
read_hdf
不符合传递mode
(GH4504)to_hdf
在传递append
和table
(GH4584)ValueError
未正确引发的错误data_columns
by
argument now works correctly with the layout
argument (GH4102, GH4014) in *.hist
plotting methodsPeriodIndex.map
中的错误,其中使用str
将返回索引的str表示形式(GH4136)test_time_series_plot_color_with_empty_kwargs
DataFrame.sum
慢于DataFrame.mean
的问题read_html
测试现在可以使用Python 2.6(GH4351)network
测试抛出NameError
的错误,因为局部变量未定义(GH4381)to_json
中,如果由于重复的索引(GH4359),传递的orient
to_json
中,修复日期处理,因此毫秒是docstring说的默认时间戳(GH4362)。as_index
keep_default_na=False
时na_values=None
(GH4318)values
在具有重复列和混合dtyf的DataFrame上出现错误(GH4377)orient='split'
(GH4377)时,read_json
PeriodIndex
(GH4390)修正.iat
PeriodIndex
与self加入正在返回新实例而不是同一实例(GH4379)的问题;还为其他索引类型添加了一个测试Series.astype(str)
会截断字符串(GH4405,GH4437)的错误xs
中发出的固定面板切片返回了不正确的暗淡对象(GH4016)Series
构造函数(GH4482,GH4480)中DataFrame.set_values
中的错误,导致在扩展索引时名称属性丢失。(GH3742,GH4039)names
, levels
and labels
could be set on MultiIndex
without validation (GH3714, GH4039)np.timedelta64
或np.offsets.DateOffset
的rhs的错误np.timedelta64
不兼容算法(GH4134)和buggy timedelta在numpy 1.6(GH4135pd.read_clipboard
中的错误无法正确解码tslib.get_period_field()
和tslib.get_period_field_arr()
现在提高代码参数超出范围(GH4519,GH4520 t5 >)DataFrame.apply
不正确地重新处理异常(导致原始堆栈跟踪被截断)的问题。ix/loc
and non_unique selectors (GH4619)Series/DataFrame
(GH4667)上使用setitem None
修复错误/ dtype转换pd.read_stata
(GH4626)中传递的非默认编码解决解码问题ndarray
修复DataFrame.from_records
。(GH4727)Index.rename
和MultiIndex.rename
等不一致的问题。(GH4718,GH4628)iloc/loc
时出错QUOTE_NONE
并使用to_csv
导致Exception
,可能会出现错误。(GH4328)ValueError
(GH4746)loc/ix
设置具有多索引轴和numpy数组的单个索引器(GH3777)时出错iloc
中错误切片索引失败(GH4771)read_fwf
中没有colspecs或width。(GH4774)read_fwf
读取压缩文件的错误。(GH3963)bytes
而不是str
的错误。简化Python 3(GH3963,GH4785)中产生字节的文件处理。.loc
(GH4825)的问题)DataFrame.sort_index
的问题,其中,当通过单个列排序并传递ascending
的列表时,ascending
的参数被解释作为True
(GH4839,GH4846)Panel.tshift
不工作。添加了freq支持Panel.shift
(GH4853)_ensure_numeric
不检查复数(GH4902)Series.hist
中的一个错误,其中通过by
参数创建了两个数字(GH4112,GH4113 t5 >)。convert_objects
中为> 2 ndims(GH4937)的错误FrozenNDArray
和FrozenList
(GH4929)的字符串方法copy()
固定到浅复制轴/索引,从而保持单独的元数据。(GH4202,GH4830)cut
使用np.inf
级别而未显式传递标签的错误(GH3415)DatetimeIndex.union
(GH4564)中修复错误的重叠检查Timestamp
对象现在可以出现在使用Series
或DataFrame
对象(GH4982 )。iloc/loc
(GH5016)通过np.nan
Series
重新塑造为其自身形状引起TypeError
(GH4554)和其他重塑问题的错误。ix/loc
和混合int /字符串索引(GH4544)设置错误read_html()
无法使用逗号(GH5029)正确推断表格值的错误read_html()
未提供返回表(GH4770,GH5029)的稳定排序的错误。read_html()
在传递index_col=0
(GH5066)时解析不正确的错误。read_html()
错误地推断标题类型(GH5048)的错误。DatetimeIndex
与PeriodIndex
联接导致堆栈溢出(GH3899)的错误。groupby
对象不允许绘图(GH5102)的错误。groupby
对象不是制表符完成列名称(GH5102)的错误。groupby.plot()
和朋友多次重复图形(GH5102)的错误。object
在fillna上的dtypes,相关(GH5103)iloc
MultiIndex.get_level_values()
(GH5074)TestReadHtml
未调用正确的read_html()
函数(GH5150)的错误。NDFrame.replace()
的错误。isnull(MultiIndex)
上修复了错误(现在出现错误)(GH5123,GH5125NotImplementedError
(GH5191)to_datetime
中出现格式错误,coerce=True
不提高(GH5195)loc
中设置多个索引器和需要广播的系列的rhs(GH5206)MultiIndex
上的级别或标签的内置设置不会清除缓存的values
属性,因此返回错误的values
的错误。(GH5215)Period
,其业务日期为freq,以便在非营业日期总是前滚。(GH5203)drop
的问题,以及系列上的非唯一索引(GH5248)Series.isin
与日期/时间样dtypes(GH5021)initObjToJSON()
的返回值/类型签名以与numpy的import_array()
(GH5334,GH5326 )head/tail
基于iloc
,(GH5370)PeriodIndex
字符串表示的错误,如果有1或2个元素。(GH5372)transform
和filter
可用于具有重复(非唯一)索引的Series和DataFrames。(GH4620)pd.to_timedelta
返回标量(GH5410)pd.to_timedelta
接受NaN
和NaT
,返回NaT
而不是提高(GH5437 )isnull
iloc
(GH5528)中的错误loc
(GH5553)从非唯一索引中进行选择None
,(GH5592)时,groupby中的错误返回非一致类型ndarray.item
(GH5666)提高IndexError发布日期: 2013-07-24
pd.read_html()
现在可以解析HTML字符串,文件或网址,并返回DataFrame
的列表由@cpcloud提供。(GH3477,GH3605,GH3606)to_json
DataFrame / Series方法和read_json
顶级读取器各种问题(GH1226,GH3804,GH3876,GH3867,GH1305)to_stata
DataFrame方法和read_stata
to_csv
中写入并读入read_csv
多索引列的支持。read_csv
中的header
选项现在接受从中读取索引的行的列表。添加了选项tupleize_cols
以提供对通过元组列表写入和读取多索引列的前0.12行为的兼容性。在0.12中的默认值是写入元组列表,并且不将元组列表解释为多索引列。注意:默认值将更改为0.12,以使默认的到以新格式写入和读取多索引列。(GH3571,GH1651,GH3141)Series.str
(GH3638)pd.set_option()
现在允许N个选项,值对(GH3667)。filter
方法返回原始子集(GH3680,GH919)colormap
关键字从Matplotlib色彩映射采样列颜色。(GH3860 T0>)convert_objects
现在接受copy
参数(默认为True
)HDFStore
date
方法添加到DatetimeIndexdropna
参数添加到pivot_table(:issue:3820)melt
现在接受可选参数var_name
和value_name
以指定返回的DataFrame(GH3649)的自定义列名称,感谢@hoechenberger。如果未指定var_name
且dataframe.columns.name
不为None,那么将用作var_name
(GH4144 )。还支持MultiIndex列。object
(GH1818,GH3572),绘图函数现在在尝试绘制任何内容之前引发TypeError
/ t5>,GH3911,GH3912),但是如果可能,它们会尝试将对象数组转换为数字数组,以便您仍然可以绘制浮动。这发生在任何绘图发生之前,消除任何虚假的图表出现。where
导致块分裂的操作要快得多(GH3733)figsize
参数(GH3834)unit
keyword to Timestamp
and to_datetime
to enable passing of integers or floats that are in an epoch unit of D, s, ms, us, ns
, thanks @mtkini (GH3969) (e.g. unix timestamps or epoch s
, with fractional seconds allowed) (GH3540)network
测试装饰器捕获IOError
(因此也URLError
)。添加了with_connectivity_check
装饰器,以允许显式检查网站作为代理,以查看是否存在网络连接。另外,新的optional_args
装饰工厂。(GH3910,GH3914)read_csv
现在会在文件不包含列时抛出更多的信息错误消息,例如,所有换行符layout
关键字到DataFrame.hist()以获得更多可自定义布局(GH4050)read_html
现在在没有找到表并且检测到BeautifulSoup == 4.2.0时发生(GH4214)HDFStore
datetime64[ns]
except to object
, and timedelta64[ns]
to object/int
(GH3425)datetime64
dtypes的行为相对于某些所谓的缩减操作(GH3726)已经改变。The following operations now raise a TypeError
when performed on a Series
and return an empty Series
when performed on a DataFrame
similar to performing these operations on, for example, a DataFrame
of slice
objects: - sum, prod, mean, std, var, skew, kurt, corr, and covdatetime64[ms]
)(GH3423),否则不允许创建datetimelike / timedeltalikesqueeze
关键字添加到groupby
以允许从DataFrame - > Series中减少。从0.10.1回归,部分恢复(GH2893)与(GH3596)iloc
上提高一个布尔系列,甚至带有整数标签,将提高。由于iloc
纯粹基于位置,所以系列上的标签不可对齐(GH3631)raise_on_error
选项绘制方法由GH3572消除,因此被删除。当数据无法绘制或绘制的对象具有object
的dtype时,绘图始终会提高。DataFrame.interpolate()
现已弃用。Please use DataFrame.fillna()
and DataFrame.replace()
instead (GH3582, GH3675, GH3676).DataFrame.replace()
的method
和axis
参数已弃用DataFrame.replace
的infer_types
参数已删除,现在默认执行转换。(GH3907)allow_duplicates
添加到DataFrame.insert
以允许在True
时插入重复的列,默认值为False
(与0.12之前相同)(GH3679)pandas.io.api
Excel
支持pandas.io.excel
pd.read_sql
和to_sql
DataFrame方法clipboard
支持pandas.io.clipboard
save
and load
with top-level read_pickle
and to_pickle
instance method, save
and load
will give deprecation warning.DataFrame.replace()
的method
和axis
参数已弃用DataFrame.replace()
的method
和axis
参数已弃用NDFrame
对象(GH3691,GH3696)实施__nonzero__
as_matrix
将导致2 x无符号的lcd作为int,最大与int64
,以避免精度问题(GH3733 )read_csv/read_excel
提供的列表中的na_values
将匹配字符串和数字版本。 na_values=['99']
将匹配99列是否为int,float或string(GH3611)read_html
现在在阅读时默认为None
,当lxml无法解析时,返回bs4
+ html5lib
。直到成功为止的解析器列表也是有效的pandas
类层次结构已更改(略)。The previous PandasObject
now is called PandasContainer
and a new PandasObject
has become the baseclass for PandasContainer
as well as Index
, Categorical
, GroupBy
, SparseList
, and SparseArray
(+ their base classes). 目前,PandasObject
提供字符串方法(从StringMixin
)。(GH4090,GH4092)StringMixin
,给定一个__unicode__
方法,获得python2和python3兼容的字符串方法(__str__
,__bytes__
,和__repr__
)。加上字符串安全。现在在整个熊猫图书馆的许多地方。(GH4090,GH4092)CustomBusinessDay
类,以支持DateOffsets
和自定义假日日历和自定义周密码。(GH2301)NaT
的to_csv问题.loc
在传递整数列表(GH3449)时未提升loc
和朋友固定(GH3659)切片的非唯一索引reindex
以正确处理非唯一索引(GH3679)DataFrame.itertuples()
现在可用于具有重复列名称的框架(GH3873)iloc
(GH4017)的非唯一索引中出现错误;为reindex
添加了takeable
参数,以进行基于位置的拍摄.ix/.loc
和__getitem__
(GH4246)允许非唯一索引.ix/.loc
(GH4280)修复非唯一索引内存分配问题TypeError
例如添加数据时间,多个timedelta x datetime.diff
combine_first
在可能的情况下不会返回相同的dtype(GH3552)Panel.transpose
引数别名(GH3556)的错误PeriodIndex.take
(GH3579)中修正平台错误combine_first
(GH3593)中的datetime64 [ns]NaN
的reset_index中的错误value
参数是list
或tuple
时,fillna
方法现在产生TypeError
。float
dtypes to return np.nan
or np.inf
as appropriate (GH3590)as_index=False
(GH3610)修正groupby上的不正确dtyperead_csv/read_excel
可正确编码相同的na_values,例如na_values=[-999.0,-999]
失败(GH3611)iloc
(GH3617)parse_dates
(GH3062)时,正确解析read_csv
中的嵌入式日期列(nan / NaT)为datetime64 [ns] dtypesql.write_frame
在将单列写入sqlite(GH3628)时失败,感谢@stonebignan
的旋转(GH3558)read_html()
现在只允许一个后端:html5lib
(GH3616)convert_objects
与convert_dates='coerce'
将一些单字母字符串解析为今天的日期DataFrame.from_records
不接受空重复列表(GH3682)DataFrame.to_csv
将会成功使用已弃用的选项nanRep
,@tdsmithDataFrame.to_html
和DataFrame.to_latex
现在接受第一个参数的路径(GH3702)read_html
现在可正确跳过测试(GH3741)read_csv
(GH3795)中的dtype=str
(或其他变量连字符串dtypes)时正确解析loc/ix
(GH3880)时传播的索引名称to_replace
参数中编译的正则表达式中DataFrame.replace
无效的错误(GH3907)numexpr
的Python 2.7中的__truediv__
,以便在将至少包含10000个单元格的整数数组(GH3764iterator=True
但没有指定chunksize
(GH3967),csv解析器将无限循环,python解析器失败与chunksize=1
shift
时不传播的索引名称Series.clip
。NA / NaN阈值现在将抛出ValueError(GH3996)Series.hist
现在将从当前环境中获取数字(如果没有通过)tox
,其中pickle导入以不兼容的方式重写(GH4062,GH4063)HDFStore
无法附加的错误DataFrame.replace
中的错误,其中当regex = False(GH4115)时,不会迭代嵌套的字典convert_objects(convert_numeric=True)
中的错误,其中混合数字和对象系列/帧无法正确转换(GH4119)to_datetime
(GH4152)中使用format
参数时解析微秒的错误PandasAutoDateLocator
中的错误invert_xaxis
不正确触发MilliSecondLocator
(GH3990)Series.where
中的错误,其中将单元素输入向量广播到序列的长度导致将输入内的值相乘(GH4192)DataFrame.plot(kind='kde')
(GH4216)中显示的图例DatetimeIndex
发布日期: 2013-04-22
10 分钟 到 Pandas
Cookbook
float32/float64/int32/int16/int8
)在DataFrames中共存,并在操作中传播.iloc
属性,以支持严格整数索引,类似于.ix
(GH2922).loc
属性,以支持严格的基于标签的索引,类似于.ix
(GH3053).iat
属性,支持通过整数快速进行标量访问(替换iget_value/iset_value
).at
属性,以支持通过标签进行快速标量访问(替换get_value/set_value
)irow,icol,iget_value/iset_value
移至.iloc
索引器(通过每个对象中的_ixs
方法)numexpr
库的表达式求值的支持convert=boolean
到take
例程将负索引翻译为正,默认为True在某些情况下,将df.to_csv()的性能提高了10倍。(GH3059)
将blocks
属性添加到DataFrames,将dtypes的dict返回到均匀分类的DataFrames
添加关键字convert_numeric
到convert_objects()
尝试将对象dtypes转换为数字类型(默认值为False)
convert_objects
中的convert_dates
现在可以是coerce
,将返回一个datetime64 [ns] dtype,其中不可转换设置为NaT
默认情况下,系列打印输出包括dtype
describe_option()
现在报告选项的默认值和当前值。
将format
选项添加到pandas.to_datetime
,可以更快地转换可以使用datetime.strptime解析的字符串
为了兼容性,将axes
属性添加到Series
为了兼容性,将xs
函数添加到Series
在只有混合数字的框架中允许setitem(例如int和float),(GH3037)
HDFStore
添加squeeze
方法可能从对象中删除长度1维度。
In [1]: p = pd.Panel(np.random.randn(3,4,4),items=['ItemA','ItemB','ItemC'],
...: major_axis=pd.date_range('20010102',periods=4),
...: minor_axis=['A','B','C','D'])
...:
In [2]: p
Out[2]:
<class 'pandas.core.panel.Panel'>
Dimensions: 3 (items) x 4 (major_axis) x 4 (minor_axis)
Items axis: ItemA to ItemC
Major_axis axis: 2001-01-02 00:00:00 to 2001-01-05 00:00:00
Minor_axis axis: A to D
In [3]: p.reindex(items=['ItemA']).squeeze()
Out[3]:
A B C D
2001-01-02 0.469112 -0.282863 -1.509059 -1.135632
2001-01-03 1.212112 -0.173215 0.119209 -1.044236
2001-01-04 -0.861849 -2.104569 -0.494929 1.071804
2001-01-05 0.721555 -0.706771 -1.039575 0.271860
In [4]: p.reindex(items=['ItemA'],minor=['B']).squeeze()
Out[4]:
2001-01-02 -0.282863
2001-01-03 -0.173215
2001-01-04 -2.104569
2001-01-05 -0.706771
Freq: D, Name: B, dtype: float64
改进pd.io.data.Options
(GH2758)中的Yahoo API访问
添加选项display.max_seq_items以控制打印每个序列打印的元素数量。(GH2979)
添加选项display.chop_threshold以控制小数值的显示。(GH2739)
添加选项display.max_info_rows以防止为1M以上的帧(可配置)的帧计算verbose_info。(GH2807,GH2918)
value_counts()现在接受归一化直方图的“normalize”参数。(GH2710)。
DataFrame.from_records现在不仅接受dicts,而且接受collections.Mapping ABC的任何实例。
允许通过具有类型索引的字符串在Series和DataFrames(GH3070)中工作的选择语义
In [5]: idx = pd.date_range("2001-10-1", periods=5, freq='M')
In [6]: ts = pd.Series(np.random.rand(len(idx)),index=idx)
In [7]: ts['2001']
Out[7]:
2001-10-31 0.838796
2001-11-30 0.897333
2001-12-31 0.732592
Freq: M, dtype: float64
In [8]: df = pd.DataFrame(dict(A = ts))
In [9]: df['2001']
Out[9]:
A
2001-10-31 0.838796
2001-11-30 0.897333
2001-12-31 0.732592
添加选项display.mpl_style为地块提供更时尚的视觉样式。基于https://gist.github.com/huyng/816622(GH3075)。
通过考虑数组的内存排序,提高了几个核心功能的性能。感谢@stephenwlin(GH3130)
改善groupby变换方法的性能(GH2121)
处理“ragged”CSV文件在缺少字段的行中缺少尾部分隔符,同时还提供了列名的明确列表(因此解析器知道结果中需要多少列)(GH2981)
在混合数据框架上,允许在rhs(GH3216)上使用ndarray / DataFrame设置索引器
将布尔值视为整数(值1和0)用于数字运算。(GH2641)
将time
方法添加到DatetimeIndex(GH3180)
对于不够长的值(GH3223)使用Series.str [...]时,返回NA
在时间序列图中显示光标坐标信息(GH1670)
to_html() now accepts an optional “escape” argument to control reserved HTML character escaping (enabled by default) and escapes &
, in addition to <
and >
. (GH2919)
无论平台如何,列表和标量的DataFrame构造,没有dtype存在,将导致转换到int64
或float64
。这不是API的明显变化,但注意到它。
保证Series / DataFrame的convert_objects()
始终返回一个副本
groupby操作将尊重数字浮点型操作的数据类型(float32 / float64);其他类型将被操作,并将尝试回到输入dtype(例如,如果一个int被传递,只要输出没有nans,那么将返回一个int)
backfill / pad / take / diff / ohlc现在支持float32/int16/int8
操作
块类型将根据需要在where / masking操作(GH2793)
系列现在将自动尝试根据传递的datetimelike对象(datetime / Timestamp)设置正确的dtype,
timedelta64
与混合的NaN
和/或NaT
DataFrame.clip的参数与numpy和系列剪辑不一致(GH2747)
util.testing.assert_frame_equal现在检查列和索引名称(GH2964)
当传递无效形状时,构造函数将在失败时返回更多信息的ValueError
不要在GroupBy.agg(GH3238)中禁止TypeError
当inplace = True(GH1893)时,方法返回None
HDFStore
- 添加方法
select_column
从表中选择单个列作为Series。- 不建议使用
unique
方法,可以通过select_column(key,column).unique()
min_itemsize
参数现在将自动为传递的键创建data_columns
如果可能(GH3283)向下转播,将downcast
添加到fillna
引入选项display.height / width用于以字符显式指定终端高度/宽度。已弃用的display.line_width,现在由display.width替换。这些默认值对脚本也有效,因此除非禁用,以前非常宽的输出现在将作为“expand_repr”样式输出。
经过简短的调查,他们对每个人都错了,选项(包括display.max_rows)的各种默认值被修改。现在在w = 80,h = 60。
IPython中的HTML repr输出qtconsole再次由选项display.notebook_repr_html控制,默认情况下为打开。
pad
或backfill
(GH2778)时,修复空数据帧上的seg错误int64
的整数和一些混合类型列表(GH2845)修复DataFrame和Series构造函数的问题HDFStore
float
(GH2746)的integer
系列上就地屏蔽datetime64[ns]
的序列中的错误NaT
(GH2967)datetime64[ns]
系列(GH3002)的值的计数错误NaT
NaT
(GH2982)的datetime64[ns]
系列的idxmin / idxmax中的错误icol, 采取
中阴性指示的错误产生不正确的返回值(参见GH2922,GH2892 ),还检查超出界限索引(GH3029)nan
的索引的格式不一致或错误(将从其他值填充),(GH2850)axes=1
和级别参数(GH2903)调用时执行.xs
发布日期: 2013-01-22
HDFStore
put
删除关键字compression
(由关键字complib
替换为跨库一致)HDFStore
data_columns
关键字chunksize
关键字附加index
关键字自动索引到appendexpectedrows
关键字在append中通知PyTables
关于预期的表大小start
和stop
关键字以限制行选择空间get_store
上下文管理器以使用pandas自动导入columns
关键字添加列过滤unique
在可索引或数据列中选择唯一值copy
以复制现有存储(并可能升级)logx
选项添加到DataFrame / Series.plot(GH2327,GH2565)pivot_table
aggfunc可以是GroupBy.aggregate中使用的任何东西(GH2643)neg
和inv
添加到SeriesExcelFile
中实施kind
选项以指示其是XLS还是XLSX文件(GH2613)HDFStore
file:///
Index.summary()
中的错误,其中字符串格式的方法被错误地调用。(GH3869)发布日期: 2012-12-17
where
和mask
添加到Series(GH2337)corr
和cov
中的可选的min_periods
duplicated
和drop_duplicates
添加到系列(GH1923)HDFStore 表格
添加文档格式ffill
和bfill
便利函数(GH2284)pandas.options.X
访问作为属性的选项rolling_window
(GH1270)resample
的默认分级/标记行为已更改为closed ='left',label ='left'。这对用户来说是一个很大的混乱。请参阅“新功能”页面了解更多。(GH2410)inplace
选项的方法现在返回None,而不是调用(修改)对象(GH1893)mode.use_inf_as_null
(GH2050,GH1919)全局重新启用pandas.merge
现在默认为sort=False
。对于许多使用情况,排序连接键不是必需的,并且默认情况下这是浪费header=0
以替换read_ *函数中文件中的现有列名。prefix='X'
(GH2034)。进行此API更改是为了使默认列名称与DataFrame构造函数的默认列名称一致,当没有指定时。true_values
和false_values
选项(GH2360)进行自定义nrows
选项添加到DataFrame.from_records中用于迭代器(GH1794)normalize
选项添加到Series / DataFrame.asfreq(GH2137)HDFStore
现在支持分层键(GH2397)HDFStore 表格
(GH1996)的多种查询选择格式del store ['df']
语法删除HDFStoresHDFStore 表添加多类型支持
min_itemsize
参数可以在HDFStore 表
HDFStore 表中建立索引支持
(GH698)melt
中实施value_vars
并将melt
添加到pandas命名空间(GH2412)Series.str.strip/lstrip/rstrip
方法接受参数(GH2411)get_level_values
MultiIndex返回索引而不是ndarray方法(GH2449)convert_to_r_dataframe
转换datetime值(GH2351)DataFrame.to_csv
以不同的方式表示inf和nan(GH2026)min_i
参数添加到nancorr
以指定最小所需观察值(GH2002)inplace
选项添加到sortlevel
/ sort
size
参数(GH1794)DatetimeIndex
的部分字符串切片to_html
和to_string
中实施col_space
Series.tolist
和框datetime64类型(GH2447)unstack
HDFStore 表`
中的连续行比以前快得多put
创建表,则附加在HDFStore上将失败read_csv
故障发布日期: 2012-11-14
发布日期: 10/7/2012
re.compile
添加flags
level
参数添加到Series.reset_index
na
选项day_of_year
API,请使用dayofyear
(GH1723)发布日期: 2012年7月22日
to_datetime
性能(GH1571)set_index
附加层次索引级别并使用reset_index
(GH1569,GH1577)删除单个级别的功能resample
中应用传递的函数,即使上采样(GH1596)adjust
选项添加到ewma以禁用调整系数(GH1584)发布日期: 6/29/2012
tz_convert
和tz_localize
方法match
函数添加到API(GH502)max_colwidth
选项,默认值为50match
函数添加到API(类似于R)(GH502)method
参数添加到align
方法,用于前进/后退填充(GH216)cut
函数(在R之后进行图案化),用于将数据离散为相等的范围长度bin或您选择的任意断点(GH415)qcut
用于分割(GH1378)value_counts
顶级数组方法(GH1392)any
和all
方法添加到DataFrame(GH1416)secondary_y
选项添加到Series.plotlreshape
函数,用于将宽度重新整形为长整型order
方法添加到索引类(GH1028)convert_dtype
选项添加到Series.apply,以便能够将数据保留为dtype = object(GH1414)dialect
关键字添加到解析器以引用约定(GH1363)get_data_yahoo
添加retries
参数,以尝试阻止Yahoo!API 404s(GH826)raise_conflict
参数添加到DataFrame.update(GH1526)发布日期: 2012年4月12日
kurt
方法添加到Series和DataFrame(GH964)发布日期: 2012年3月16日
drop
以从级别中删除值(GH159)coerce_float
选项read_csv
中失败,则抛出异常axis
选项添加到DataFrame.fillna(GH174)发布日期: 2012年2月29日
to_clipboard
函数添加到pandas命名空间以将对象写入系统剪贴板(GH774)itertuples
方法添加到DataFrame,用于将数据帧的行作为元组(GH818)between
方法到系列(GH802)发布日期: 2/9/2012
merge
函数用于有效地执行数据库/关系代数运算的全色域。重构现有的连接方法以使用新的基础设施,从而获得显着的性能提升(GH220,GH249,GH267)concat
函数。可以形成其他轴的联合或交叉。改善DataFrame.append
(GH468,GH479,GH273)的效能DataFrame.apply
(GH498)中处理不同索引的输出值reorder_levels
方法添加到Series和DataFrame(GH534)get
函数添加到DataFrame和Panel(GH521)DataFrame.iterrows
方法,用于有效地遍历DataFrame的行DataFrame.to_panel
,代码改为LongPanel.to_long
reindex_axis
方法添加到DataFramelevel
选项添加到DataFrame
和Series
上的二进制算术函数中,level
option to the reindex
and align
methods on Series and DataFrame for broadcasting values across a level (GH542, GH552, others)Panel
添加基于属性的项访问权限,并添加IPython完成(PR GH554)logy
选项添加到Series.plot
以在Y轴上进行对数缩放index
,header
和justify
选项添加到DataFrame.to_string
。添加选项至(GH570,GH571)DataFrame.join
,以便在索引上加入(GH115)Panel.join
(GH115)Series.append
DataFrame.to_string
添加justify
参数,以允许列标题的不同对齐sort
选项添加到GroupBy以允许禁用可能加速的组键排序(GH595)DataFrame.lookup
,用于检索给定一系列行和列标签的值的花样索引模拟(GH338)verbose
选项添加到read_csv
和read_table
以显示插入非数字列(GH614DataFrame.append
以连接多个行(GH464)level
参数添加到DataFrame.xs
以从其他MultiIndex级别选择数据。可以采用一个或多个级别,可能有一个键的元组,用于灵活检索数据(GH371,GH629)crosstab
功能,可轻松计算频率表(GH170)iget
(GH628)中的irow
/ iget
Series.unique
函数,显着快于numpy.unique
(GH658)cummin
和cummax
实例方法添加到Series
和DataFrame
(GH647)value_range
函数以返回数据帧的最小值/最大值(GH288)drop
parameter to reset_index
method of DataFrame
and added method to Series
as well (GH699)isin
方法添加到索引对象,与Series.isin
(GH GH657)sort
选项添加到DataFrame.join
(GH731)abs
方法algorithms
模块以开始收集中心algosix
或[]
在系列上现在只有在找到标签的完全匹配或索引是单调的(对于范围选择)[]
(GH86)__getitem__
和__setitem__
)将使用整数索引引发KeyError。如果在索引中没有找到将导致微妙错误的键,先前的行为将落在基于位置的索引上。这现在与.ix
在DataFrame和朋友(GH328)上的行为一致DataFrame.delevel
重命名为DataFrame.reset_index
,并添加弃用警告LongPanel
类(GH552)的重构Panel.to_long
,重命名为to_frame
DataFrame.to_string
中已弃用的colSpace
参数,重命名为col_space
precision
重命名为accuracy
read_csv
的默认分隔符是逗号,而不是让csv.Sniffer
推断col_or_columns
argument in DataFrame.drop_duplicates
(GH GH734)reset_index
时的默认名称分配level
参数(GH545)rolling_median
约5-10倍Index._get_duplicates
成为公共方法bold_rows
选项添加到DataFrame.to_html(GH586)DataFrame.sort_index
的性能提高5倍或更多DataFrame.apply
中指示函数应用程序失败的行/列(GH614)的Monkey-patch上下文groupby
kind
参数选择不同的排序类型(GH668)read_csv
和其他解析函数中,添加delimiter
替代sep
set_value
方法中处理不当的dtype类型转换level
参数聚合,系列stat方法被破坏(GH545)发布日期: 12/13/2011
发布日期: 11/25/2011
&
,|
,^
发布日期: 10/24/2011
这个版本的pandas包括许多API更改(见下文)和从0.4.0之前的版本清理过时的API。还有错误修复,新功能,大量显着的性能增强,并且包括一个新的ipython完成符钩子,以启用对DataFrame列访问和属性(新功能)的选项卡完成。
除了这里列出的从0.4.3到0.5.0的更改之外,次版本4.1,0.4.2和0.4.3带来了一些重要的新功能和性能改进,值得一看。
感谢所有的bug报告,贡献的补丁和一般提供反馈图书馆。
- indexField参数DataFrame.from_records
- Series.order中的missingAtEnd参数。请改用na_last
- Series.fromValue类方法,改用常规Series构造函数
- pandas.io.parsers中的函数parseCSV,parseText和parseExcel
- Index.asOfDate函数
- Panel.getMinorXS(使用minor_xs)和Panel.getMajorXS(使用major_xs)
- Panel.toWide,请改用Panel.to_wide
发布日期: 10/9/2011
是很大程度上从0.4.2的bug修复版本,但也包括一些新的增强功能。此外,熊猫现在可以安装和使用的Python 3绞盘Thomas Kluyver!)。
发布日期: 10/3/2011
是一个具有几个错误修复的性能优化版本。新的t64Index和新的合并/加入Cython代码和相关的Python基础设施是主要的新增内容
发布日期: 9/25/2011
是主要是一个bug修复版本,但包括一些新的功能和改进
.ix
indexing attribute in mixed-type DataFrame objects has been implemented (fixes GH135)发布日期: 9/12/2011
skipna
选项groupby
函数时对组的热衷评估,因此如果存在分组函数的异常,它将立即引发,而稍后当需要组时index_label
参数。因此,您可以通过index_label='index'
来模拟旧的行为发布日期: 2011年2月20日