Preprocessing required data for customer service purpose

These details have not been verified by PyPI

Project links

homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

preprocessing_pgp

preprocessing_pgp -- The Preprocessing library for any kind of data -- is a suit of open source Python modules, preprocessing techniques supporting research and development in Machine Learning. preprocessing_pgp requires Python version 3.6, 3.7, 3.8, 3.9, 3.10

Installation

To install the current release:

pip install preprocessing-pgp

To install the release with specific version (e.g. 0.1.3):

pip install preprocessing-pgp==0.2.9

To upgrade package to latest version:

pip install --upgrade preprocessing-pgp

Features

1. Vietnamese Naming Functions

1.1. Preprocessing Names

python

>>> from preprocessing_pgp.name.preprocess import basic_preprocess_name
>>> basic_preprocess_name('Phan Thị    Thúy    Hằng *$%!@#')
Phan Thị Thúy Hằng

1.2. Enrich Vietnamese Names (Pending...)

python

>>> import pandas as pd
>>> from preprocessing_pgp.name.enrich_name import process_enrich
>>> data = pd.read_parquet('/path/to/data.parquet')
>>> enrich_data = process_enrich(data, name_col='name')

Cleansing Takes 0m0s


Enrich names takes 5m10s

>>> enrich_data.columns
Index(['name', 'predict', 'final'], dtype='object')

1.3. Extract customer type from name (New Feature)

In big data platform, user might enter not just there name into the name field but many others.

This module currently support detection of following type:

customer : The name of the customer
company : The name of any company related
biz : The name of any business related
edu : The name of any type of education related
medical : The name of any medical related

python

>>> import pandas as pd
>>> from preprocessing_pgp.name.type.extractor import process_extract_name_type
>>> data = pd.read_parquet('/path/to/data.parquet')
>>> extracted_data = process_extract_name_type(data, name_col='name')


Cleansing names takes 0m0s


Formatting names takes 0m0s


Extracting customer's type takes 0m0s


>>> extracted_data.columns
Index(['username', 'customer_type'], dtype='object')

2. Extracting Vietnamese Phones

python

>>> import pandas as pd
>>> from preprocessing_pgp.phone.extractor import process_convert_phone
>>> data = pd.read_parquet('/path/to/data.parquet')
>>> extracted_data = process_convert_phone(data, phone_col='phone')


Converting phones takes 0m1s


>>> extracted_data.columns
Index(['phone', 'is_phone_valid', 'is_mobi', 'is_new_mobi',
       'is_old_mobi', 'is_new_landline', 'is_old_landline',
       'phone_convert', 'phone_vendor', 'tail_phone_type'],
      dtype='object')

3. Verify Vietnamese Card IDs

python

>>> import pandas as pd
>>> from preprocessing_pgp.card.validation import process_verify_card
>>> data = pd.read_parquet('/path/to/data.parquet')
>>> verified_data = process_verify_card(data, card_col='card_id')
Process cleaning card id...


Verifying card id takes 0m3s


>>> verified_data.columns
Index(['card_id', 'clean_card_id', 'is_valid', 'is_personal_id', 'is_passport',
       'is_driver_license'],
      dtype='object')

4. Extract Information in Vietnamese Address

All the region codes traced are retrieve from Đơn Vị Hành Chính Việt Nam

Apart from original columns of dataframe, we also generate columns with specific meanings:

cleaned_<address_col> : The cleaned address retrieve from the raw address column
level 1 : The raw city extracted from the cleaned address
best level 1 : The beautified city traced from extracted raw city
level 1 code : The generated city code
level 2 : The raw district extracted from the cleaned address
best level 2 : The beautified district traced from extracted raw district
level 2 code : The generated district code
level 3 : The raw ward extracted from the cleaned address
best level 3 : The beautified ward traced from extracted raw ward
level 3 code : The generated ward code
remained address : The remaining address not being extracted

python

>>> import pandas as pd
>>> from preprocessing_pgp.address.extractor import extract_vi_address
>>> data = pd.read_parquet('/path/to/data.parquet')
>>> extracted_data = extract_vi_address(data, address_col='address')
Cleansing takes 0m0s


Extracting takes 0m22s


Code generation takes 0m3s

>>> extracted_data.columns
Index(['address', 'cleaned_address', 'level 1', 'best level 1', 'level 2',
       'best level 2', 'level 3', 'best level 3', 'remained address',
       'level 1 code', 'level 2 code', 'level 3 code'],
      dtype='object')

5. Validate email address

A valid email is consist of:

Large company email's address (@gmail, @yahoo, @outlook, etc.)
Common email address (contains at least a alphabet character in email's name)
Education email (can start with a number)
Not auto-email

Apart from original columns of dataframe, we also generate columns with specific meanings:

is_email_valid : indicator of whether the email is valid or not

python

>>> import pandas as pd
>>> from preprocessing_pgp.email.validator import process_validate_email
>>> data = pd.read_parquet('/path/to/data.parquet')
>>> validated_data = process_validate_email(data, email_col='email')
Cleansing email takes 0m0s


Validating email takes 0m22s

Project details

These details have not been verified by PyPI

Project links

homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

0.2.10.post2.dev4 pre-release

Sep 25, 2023

0.2.10.post2.dev3 pre-release

Sep 21, 2023

0.2.10.post2.dev2 pre-release

Sep 15, 2023

0.2.10.post2.dev1 pre-release

Aug 21, 2023

This version

0.2.10.post1

Aug 15, 2023

0.2.10

Aug 14, 2023

0.2.9.post29.dev8 pre-release

Aug 11, 2023

0.2.9.post28.dev8 pre-release

Jul 21, 2023

0.2.9.post27.dev8 pre-release

Jul 21, 2023

0.2.9.post26.dev8 pre-release

Jul 20, 2023

0.2.9.post25.dev8 pre-release

Jul 20, 2023

0.2.9.post24.dev8 pre-release

Jul 20, 2023

0.2.9.post23.dev8 pre-release

Jul 18, 2023

0.2.9.post22.dev8 pre-release

Jul 18, 2023

0.2.9.post21.dev8 pre-release

Jul 18, 2023

0.2.9.post20.dev8 pre-release

Jul 18, 2023

0.2.9.post19.dev8 pre-release

Jul 13, 2023

0.2.9.post18.dev8 pre-release

Jul 10, 2023

0.2.9.post17.dev8 pre-release

Jul 10, 2023

0.2.9.post16.dev8 pre-release

Jul 6, 2023

0.2.9.post15.dev8 pre-release

Jun 27, 2023

0.2.9.post14.dev8 pre-release

Jun 26, 2023

0.2.9.post13.dev8 pre-release

Jun 22, 2023

0.2.9.post12.dev8 pre-release

Jun 21, 2023

0.2.9.post11.dev8 pre-release

Jun 21, 2023

0.2.9.post10.dev8 pre-release

Jun 21, 2023

0.2.9.post10.dev7 pre-release

May 29, 2023

0.2.9.post9.dev8 pre-release

Jun 21, 2023

0.2.9.post9.dev7 pre-release

May 29, 2023

0.2.9.post8.dev8 pre-release

Jun 21, 2023

0.2.9.post8.dev7 pre-release

Apr 20, 2023

0.2.9.post7.dev8 pre-release

Jun 20, 2023

0.2.9.post7.dev7 pre-release

Apr 20, 2023

0.2.9.post6.dev8 pre-release

Jun 20, 2023

0.2.9.post6.dev7 pre-release

Apr 20, 2023

0.2.9.post5.dev8 pre-release

Jun 20, 2023

0.2.9.post5.dev7 pre-release

Apr 20, 2023

0.2.9.post4.dev8 pre-release

Jun 20, 2023

0.2.9.post4.dev7 pre-release

Apr 19, 2023

0.2.9.post3.dev8 pre-release

Jun 19, 2023

0.2.9.post3.dev7 pre-release

Apr 19, 2023

0.2.9.post2.dev8 pre-release

Jun 19, 2023

0.2.9.post2.dev7 pre-release

Apr 19, 2023

0.2.9.post1.dev7 pre-release

Apr 18, 2023

0.2.9

Apr 12, 2023

0.2.9.dev5 pre-release

Apr 14, 2023

0.2.9.dev4 pre-release

Apr 14, 2023

0.2.9.dev3 pre-release

Apr 14, 2023

0.2.9.dev2 pre-release

Apr 14, 2023

0.2.9.dev1 pre-release

Apr 14, 2023

0.2.8

Apr 12, 2023

0.2.6

Apr 3, 2023

0.2.5

Mar 22, 2023

0.2.4

Mar 20, 2023

0.2.3

Mar 20, 2023

0.2.2

Mar 20, 2023

0.2.1

Mar 20, 2023

0.1.69

Mar 20, 2023

0.1.68

Mar 20, 2023

0.1.67

Mar 17, 2023

0.1.66

Mar 14, 2023

0.1.65

Mar 14, 2023

0.1.64

Mar 10, 2023

0.1.63

Mar 7, 2023

0.1.62

Mar 7, 2023

0.1.61

Mar 6, 2023

0.1.60

Mar 6, 2023

0.1.59

Mar 2, 2023

0.1.58

Mar 1, 2023

0.1.57

Mar 1, 2023

0.1.56

Feb 27, 2023

0.1.55

Feb 24, 2023

0.1.54

Feb 24, 2023

0.1.53

Feb 24, 2023

0.1.52

Feb 24, 2023

0.1.51

Feb 23, 2023

0.1.50

Feb 23, 2023

0.1.49

Feb 23, 2023

0.1.48

Feb 23, 2023

0.1.47

Feb 23, 2023

0.1.46

Feb 22, 2023

0.1.45

Feb 20, 2023

0.1.44

Feb 20, 2023

0.1.43

Feb 20, 2023

0.1.42

Feb 20, 2023

0.1.41

Feb 17, 2023

0.1.40

Feb 15, 2023

0.1.39

Feb 9, 2023

0.1.38

Feb 7, 2023

0.1.37

Feb 6, 2023

0.1.36

Feb 6, 2023

0.1.35

Feb 3, 2023

0.1.34

Feb 3, 2023

0.1.33

Feb 3, 2023

0.1.32

Jan 30, 2023

0.1.31

Jan 30, 2023

0.1.30

Jan 30, 2023

0.1.29

Jan 16, 2023

0.1.28

Jan 16, 2023

0.1.27

Jan 16, 2023

0.1.26

Jan 13, 2023

0.1.25

Jan 12, 2023

0.1.24

Jan 11, 2023

0.1.23

Jan 11, 2023

0.1.22

Jan 11, 2023

0.1.21

Jan 11, 2023

0.1.20

Dec 26, 2022

0.1.19

Dec 26, 2022

0.1.18

Dec 21, 2022

0.1.17

Dec 19, 2022

0.1.16

Dec 15, 2022

0.1.15

Dec 14, 2022

0.1.13

Dec 6, 2022

0.1.12

Dec 6, 2022

0.1.11

Dec 2, 2022

0.1.10 yanked

Dec 2, 2022

Reason this release was yanked:

Bug not having data file, Please update to the newest version

0.1.9

Nov 30, 2022

0.1.8

Nov 29, 2022

0.1.7

Nov 28, 2022

0.1.6

Nov 28, 2022

0.1.5

Nov 26, 2022

0.1.4

Nov 23, 2022

0.1.0 yanked

Nov 17, 2022

Reason this release was yanked:

Unable to load data file

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

preprocessing-pgp-0.2.10.post1.tar.gz (79.4 MB view hashes)

Uploaded Aug 15, 2023 Source

Built Distribution

preprocessing_pgp-0.2.10.post1-py3-none-any.whl (79.5 MB view hashes)

Uploaded Aug 15, 2023 Python 3

Hashes for preprocessing-pgp-0.2.10.post1.tar.gz

Hashes for preprocessing-pgp-0.2.10.post1.tar.gz
Algorithm	Hash digest
SHA256	`e2dea855d2c84fb2bb97ba7f1968a5e6b591645707b4603c6919095562da89eb`
MD5	`b70378605452242557ba39facec2192a`
BLAKE2b-256	`e61d6ea22cf470b7d11d2ace15fe879b8955e5cbddcc8481a18e2c566c965b33`

Hashes for preprocessing_pgp-0.2.10.post1-py3-none-any.whl

Hashes for preprocessing_pgp-0.2.10.post1-py3-none-any.whl
Algorithm	Hash digest
SHA256	`4fd1965382ed66876dbea086d411e2f6895fe90ab5deeffa8c2942b38a2ea9e4`
MD5	`1ec62cb8a3d2b4786fb946bd8bff6805`
BLAKE2b-256	`b3fbff2d8be3d7c2c8aec9bcdf9a7131c6e339b5987484edcfeea52e7e802a80`