Data Analysis with Pandas (Part 2)

Thursday, 21/01/2021

Tram Ho

Come on, we come to part 2 of the Pandas DataFrame series, (Part 1)

Accessing Labels and Data

You already know how to initialize your DataFrame, and you can now retrieve the information from there. With Pandas, you can do the following:

Get and modify the row and column of labels as strings
Represents data as a NumPy array
Check and adjust data types
Analyze the size of DataFrame objects

Pandas DataFrame Labels as strings

You can get the DataFrame’s labels row with .index and labels column with .columns

<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df <span class="token punctuation">.</span> index
Int64Index <span class="token punctuation">(</span> <span class="token punctuation">[</span> <span class="token number">1</span> <span class="token punctuation">,</span> <span class="token number">2</span> <span class="token punctuation">,</span> <span class="token number">3</span> <span class="token punctuation">,</span> <span class="token number">4</span> <span class="token punctuation">,</span> <span class="token number">5</span> <span class="token punctuation">,</span> <span class="token number">6</span> <span class="token punctuation">,</span> <span class="token number">7</span> <span class="token punctuation">]</span> <span class="token punctuation">,</span> dtype <span class="token operator">=</span> <span class="token string">'int64'</span> <span class="token punctuation">)</span>

<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df <span class="token punctuation">.</span> columns
Index <span class="token punctuation">(</span> <span class="token punctuation">[</span> <span class="token string">'name'</span> <span class="token punctuation">,</span> <span class="token string">'city'</span> <span class="token punctuation">,</span> <span class="token string">'age'</span> <span class="token punctuation">,</span> <span class="token string">'py-score'</span> <span class="token punctuation">]</span> <span class="token punctuation">,</span> dtype <span class="token operator">=</span> <span class="token string">'object'</span> <span class="token punctuation">)</span>

>> > df . index

Int64Index ( [ 1 , 2 , 3 , 4 , 5 , 6 , 7 ] , dtype = 'int64' )

>> > df . columns

Index ( [ 'name' , 'city' , 'age' , 'py-score' ] , dtype = 'object' )

You now have the row and column of labels being special string types. As you can with any other Python string, you can get a single entry:

&gt;&gt;&gt; df.columns[1]
'city'

>>> df.columns[1]

'city'

In addition to extracting a specific item, you can apply other sequence operations, including looping through the rows and columns of labels. However, this is rarely necessary as Pandas provides other ways to loop through DataFrames, which you will see in the next section.

You can also use this method to modify the labels:

<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df <span class="token punctuation">.</span> index <span class="token operator">=</span> np <span class="token punctuation">.</span> arange <span class="token punctuation">(</span> <span class="token number">6</span> <span class="token punctuation">,</span> <span class="token number">10</span> <span class="token punctuation">)</span>

<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df <span class="token punctuation">.</span> index
Int64Index <span class="token punctuation">(</span> <span class="token punctuation">[</span> <span class="token number">6</span> <span class="token punctuation">,</span> <span class="token number">7</span> <span class="token punctuation">,</span> <span class="token number">8</span> <span class="token punctuation">,</span> <span class="token number">9</span> <span class="token punctuation">,</span> <span class="token number">10</span> <span class="token punctuation">]</span> <span class="token punctuation">,</span> dtype <span class="token operator">=</span> <span class="token string">'int64'</span> <span class="token punctuation">)</span>

<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df
      name     city     age  py <span class="token operator">-</span> score
<span class="token number">6</span>     Hoc      Hoc      <span class="token number">41</span>      <span class="token number">88.0</span>
<span class="token number">7</span>     Tuan     Ha Noi   <span class="token number">28</span>      <span class="token number">79.0</span>
<span class="token number">8</span>     Nam      Da Nang  <span class="token number">33</span>      <span class="token number">81.0</span>
<span class="token number">9</span>     Huy      Long An  <span class="token number">34</span>      <span class="token number">80.0</span>
<span class="token number">10</span>    Luan     HCM      <span class="token number">38</span>      <span class="token number">68.0</span>

>> > df . index = np . arange ( 6 , 10 )

>> > df . index

Int64Index ( [ 6 , 7 , 8 , 9 , 10 ] , dtype = 'int64' )

>> > df

name city age py - score

6 Hoc Hoc 41 88.0

7 Tuan Ha Noi 28 79.0

8 Nam Da Nang 33 81.0

9 Huy Long An 34 80.0

10 Luan HCM 38 68.0

In this example, you use numpy.arange () to create a new row labels string containing integers 6 through 10.

Remember that if you try to modify a specific item of .index or .columns, then you get a TypeError.

Data as a NumPy Array

Sometimes you may want to extract data from the Pandas DataFrame without its label. To get a numpy array with unlabeled data, you can use either .to_numpy () or .values :

<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df <span class="token punctuation">.</span> to_numpy <span class="token punctuation">(</span> <span class="token punctuation">)</span>
array <span class="token punctuation">(</span> <span class="token punctuation">[</span> <span class="token punctuation">[</span> <span class="token string">'Hoc'</span> <span class="token punctuation">,</span> <span class="token string">'HCM'</span> <span class="token punctuation">,</span> <span class="token number">41</span> <span class="token punctuation">,</span> <span class="token number">88.0</span> <span class="token punctuation">]</span> <span class="token punctuation">,</span>
       <span class="token punctuation">[</span> <span class="token string">'Tuan'</span> <span class="token punctuation">,</span> <span class="token string">'Ha Noi'</span> <span class="token punctuation">,</span> <span class="token number">28</span> <span class="token punctuation">,</span> <span class="token number">79.0</span> <span class="token punctuation">]</span> <span class="token punctuation">,</span>
       <span class="token punctuation">[</span> <span class="token string">'Nam'</span> <span class="token punctuation">,</span> <span class="token string">'Da Nang'</span> <span class="token punctuation">,</span> <span class="token number">33</span> <span class="token punctuation">,</span> <span class="token number">81.0</span> <span class="token punctuation">]</span> <span class="token punctuation">,</span>
       <span class="token punctuation">[</span> <span class="token string">'Huy'</span> <span class="token punctuation">,</span> <span class="token string">'Long An'</span> <span class="token punctuation">,</span> <span class="token number">34</span> <span class="token punctuation">,</span> <span class="token number">80.0</span> <span class="token punctuation">]</span> <span class="token punctuation">,</span>
       <span class="token punctuation">[</span> <span class="token string">'Luan'</span> <span class="token punctuation">,</span> <span class="token string">'HCM'</span> <span class="token punctuation">,</span> <span class="token number">38</span> <span class="token punctuation">,</span> <span class="token number">68.0</span> <span class="token punctuation">]</span> <span class="token punctuation">,</span> dtype <span class="token operator">=</span> <span class="token builtin">object</span> <span class="token punctuation">)</span>

>> > df . to_numpy ( )

array ( [ [ 'Hoc' , 'HCM' , 41 , 88.0 ] ,

[ 'Tuan' , 'Ha Noi' , 28 , 79.0 ] ,

[ 'Nam' , 'Da Nang' , 33 , 81.0 ] ,

[ 'Huy' , 'Long An' , 34 , 80.0 ] ,

[ 'Luan' , 'HCM' , 38 , 68.0 ] , dtype = object )

Both .to_numpy () and .values behave similarly, and both return a NumPy array with data from the Pandas DataFrame.

Pandas documentation recommends you use .to_numpy () because the flexibility is provided by two optional parameters:

dtype : Use this parameter to specify the data type of the result array. It is set to No by default.
copy : Set this parameter to False if you want to use the original data from the DataFrame. Set it to True if you want to make a copy of the data.

However, .values has been around for much longer than .to_numpy (), introduced in Pandas version 0.24.0. That means you will likely see .values more often, especially in older code.

Data Types

Data value types, also known as data types or data types, are important because they determine how much memory your DataFrame uses, as well as its computation speed and accuracy. Pandas relies heavily on the NumPy data type. However, Pandas 1.0 introduced several additional types:

BooleanDtype and BooleanArray support the missing Boolean values and the logic three Kleene values .
StringDtype and StringArray represent a dedicated string type.

You can get data types for each column of Pandas DataFrame with .dtypes :

<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df <span class="token punctuation">.</span> dtypes
name         <span class="token builtin">object</span>
city         <span class="token builtin">object</span>
age           int64
py <span class="token operator">-</span> score    float64
dtype <span class="token punctuation">:</span> <span class="token builtin">object</span>

>> > df . dtypes

name object

city object

age int64

py - score float64

dtype : object

As you can see, .dtypes returns a Row object with the column name as the label and the corresponding data type as value.

If you want to modify the data type of one or more colum, then you can use .astype () :

<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df_ <span class="token operator">=</span> df <span class="token punctuation">.</span> astype <span class="token punctuation">(</span> dtype <span class="token operator">=</span> <span class="token punctuation">{</span> <span class="token string">'age'</span> <span class="token punctuation">:</span> np <span class="token punctuation">.</span> int32 <span class="token punctuation">,</span> <span class="token string">'py-score'</span> <span class="token punctuation">:</span> np <span class="token punctuation">.</span> float32 <span class="token punctuation">}</span> <span class="token punctuation">)</span>
<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df_ <span class="token punctuation">.</span> dtypes
name         <span class="token builtin">object</span>
city         <span class="token builtin">object</span>
age           int32
py <span class="token operator">-</span> score    float32
dtype <span class="token punctuation">:</span> <span class="token builtin">object</span>

>> > df_ = df . astype ( dtype = { 'age' : np . int32 , 'py-score' : np . float32 } )

>> > df_ . dtypes

name object

city object

age int32

py - score float32

dtype : object

The most important and only required parameter of .astype () is dtype. It expects a data type or dictionary. If you pass dictionary, then the keys are the column name and the value is your desired data type.

As you can see, the data types in the age column and the py-score in the DataFrame df are both int64, representing a 64-bit (or 8-byte) integer. However, df_ also provides a smaller 32-bit (4-byte) integer data type called int32.

Pandas DataFrame Size

The .ndim, .size, and .shape properties return the dimension number, the number of data values per dimension, and the total number of data values, respectively:

<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df_ <span class="token punctuation">.</span> ndim
<span class="token number">2</span>

<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df_ <span class="token punctuation">.</span> shape
<span class="token punctuation">(</span> <span class="token number">5</span> <span class="token punctuation">,</span> <span class="token number">4</span> <span class="token punctuation">)</span>

<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df_ <span class="token punctuation">.</span> size
<span class="token number">28</span>

>> > df_ . ndim

2

>> > df_ . shape

( 5 , 4 )

>> > df_ . size

28

DataFrame instances have two dimensions (rows and columns), so .ndim returns 2. On the other hand, A Series object has only one dimension, so in that case, .ndim will return 1.

the .shape property returns a set of values with the number of rows (in this case, 5) and the number of columns (4). Finally, .size returns an integer equal to the number of values in the DataFrame (28).

You can even check how much memory is used by each column with .memory_usage ()

<span class="token operator">&gt;&gt;</span> <span class="token operator">&gt;</span> df_ <span class="token punctuation">.</span> memory_usage <span class="token punctuation">(</span> <span class="token punctuation">)</span>
Index       <span class="token number">56</span>
name        <span class="token number">56</span>
city        <span class="token number">56</span>
age         <span class="token number">28</span>
py <span class="token operator">-</span> score    <span class="token number">28</span>
dtype <span class="token punctuation">:</span> int64

>> > df_ . memory_usage ( )

Index 56

name 56

city 56

age 28

py - score 28

dtype : int64

As you can see, .memory_usage () returns a Series with column name as label and memory usage in bytes as data value. If you want to exclude memory usage of the column containing the row labels, pass the optional argument index = False.

In the example above, the last two columns, age and py-score, use 28 bytes of memory each. That’s because these columns have seven values, each of which is an integer taking up 32 bits or 4 bytes. Seven numbers cause 4 bytes, each equivalent to a total of 28 bytes of memory usage.

At this point, you already know how to use and access data by row and column of DataFrame, right? Part 2 is here to end, see you in part 3.

Share the news now

Source : Viblo

Data Analysis with Pandas (Part 2)

Accessing Labels and Data

Pandas DataFrame Labels as strings

Data as a NumPy Array

Data Types

Pandas DataFrame Size

TikTok becomes the second largest social platform in South Africa

The fastest depreciating after 9 months of launch, iPhone 14 Pro Max continues to break the bottom in Vietnam

Beginner's guide to R: Introduction

10 essential SublimeText plugins for JavaScript developers