Articoli correlati a Cleaning Data for Effective Data Science: Doing the...

Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools - Brossura

 
9781801071291: Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

Sinossi

A comprehensive guide for data scientists to master effective data cleaning tools and techniques

Key Features

  • Think about your data intelligently and ask the right questions
  • Master data cleaning techniques using hands-on examples belonging to diverse domains
  • Work with detailed, commented, well-tested code samples in Python and R

Book Description

In data science, data analysis, or machine learning, most of the effort needed to achieve your actual purpose lies in cleaning your data. Using Python, R, and command-line tools, you will learn the essential cleaning steps performed in every production data science or data analysis pipeline. This book not only teaches you data preparation but also what questions you should ask of your data.

The book dives into the practical application of tools and techniques needed for data ingestion, anomaly detection, value imputation, and feature engineering. It also offers long-form exercises at the end of each chapter to practice the skills acquired.

You will begin by looking at data ingestion of a range of data formats. Moving on, you will impute missing values, detect unreliable data and statistical anomalies, and generate synthetic features that are necessary for successful data analysis and visualization goals.

By the end of this book, you will have acquired a firm understanding of the data cleaning process necessary to perform real-world data science and machine learning tasks.

What you will learn

  • Ingest and work with common tabular, hierarchical, and other data formats
  • Apply useful rules and heuristics for assessing data quality and detecting bias
  • Identify and handle unreliable data and outliers in their many forms
  • Impute sensible values into missing data and use sampling to fix imbalances
  • Generate synthetic features that help to draw out patterns in your data
  • Prepare data competently and correctly for analytic and machine learning tasks

Who this book is for

This book is designed to benefit software developers, data scientists, aspiring data scientists, and students who are interested in data analysis or scientific computing.

Basic familiarity with statistics, general concepts in machine learning, knowledge of a programming language (Python or R), and some exposure to data science are helpful.

The text will also be helpful to intermediate and advanced data scientists who want to improve their rigor in data hygiene and wish for a refresher on data preparation issues.

Table of Contents

  1. Data Ingestion – Tabular Formats
  2. Data Ingestion - Hierarchical Formats
  3. Data Ingestion - Repurposing Data Sources
  4. The Vicissitudes of Error - Anomaly Detection
  5. The Vicissitudes of Error - Data Quality
  6. Rectification and Creation - Value Imputation
  7. Rectification and Creation - Feature Engineering
  8. Ancillary Matters - Closure/Glossary

Le informazioni nella sezione "Riassunto" possono far riferimento a edizioni diverse di questo titolo.

Informazioni sull?autore

David Mertz, Ph.D. is the founder of KDM Training, a partnership dedicated to educating developers and data scientists in machine learning and scientific computing. He created a data science training program for Anaconda Inc. and was a senior trainer for them. With the advent of deep neural networks, he has turned to training our robot overlords as well.

He previously worked for 8 years with D. E. Shaw Research and was also a Director of the Python Software Foundation for 6 years. David remains co-chair of its Trademarks Committee and Scientific Python Working Group. His columns, Charming Python and XML Matters, were once the most widely read articles in the Python world.

Le informazioni nella sezione "Su questo libro" possono far riferimento a edizioni diverse di questo titolo.

Compra usato

Condizioni: buono
Connecting readers with great books...
Visualizza questo articolo

EUR 3,20 per la spedizione in U.S.A.

Destinazione, tempi e costi

Risultati della ricerca per Cleaning Data for Effective Data Science: Doing the...

Foto dell'editore

Mertz, David
Editore: Packt Publishing, 2021
ISBN 10: 1801071292 ISBN 13: 9781801071291
Antico o usato paperback

Da: HPB-Red, Dallas, TX, U.S.A.

Valutazione del venditore 5 su 5 stelle 5 stelle, Maggiori informazioni sulle valutazioni dei venditori

paperback. Condizione: Good. Connecting readers with great books since 1972! Used textbooks may not include companion materials such as access codes, etc. May have some wear or writing/highlighting. We ship orders daily and Customer Service is our top priority! Codice articolo S_397191279

Contatta il venditore

Compra usato

EUR 9,82
Convertire valuta
Spese di spedizione: EUR 3,20
In U.S.A.
Destinazione, tempi e costi

Quantità: 1 disponibili

Aggiungi al carrello

Foto dell'editore

Mertz; David
ISBN 10: 1801071292 ISBN 13: 9781801071291
Antico o usato Paperback

Da: BooksRun, Philadelphia, PA, U.S.A.

Valutazione del venditore 5 su 5 stelle 5 stelle, Maggiori informazioni sulle valutazioni dei venditori

Paperback. Condizione: Very Good. It's a well-cared-for item that has seen limited use. The item may show minor signs of wear. All the text is legible, with all pages included. It may have slight markings and/or highlighting. Codice articolo 1801071292-8-1

Contatta il venditore

Compra usato

EUR 14,22
Convertire valuta
Spese di spedizione: GRATIS
In U.S.A.
Destinazione, tempi e costi

Quantità: 1 disponibili

Aggiungi al carrello

Foto dell'editore

David
Editore: Packt Publishing, 2021
ISBN 10: 1801071292 ISBN 13: 9781801071291
Antico o usato Paperback

Da: WorldofBooks, Goring-By-Sea, WS, Regno Unito

Valutazione del venditore 5 su 5 stelle 5 stelle, Maggiori informazioni sulle valutazioni dei venditori

Paperback. Condizione: Very Good. The book has been read, but is in excellent condition. Pages are intact and not marred by notes or highlighting. The spine remains undamaged. Codice articolo GOR012731512

Contatta il venditore

Compra usato

EUR 28,13
Convertire valuta
Spese di spedizione: EUR 6,48
Da: Regno Unito a: U.S.A.
Destinazione, tempi e costi

Quantità: 1 disponibili

Aggiungi al carrello

Foto dell'editore

Mertz, David
Editore: Packt Publishing, 2021
ISBN 10: 1801071292 ISBN 13: 9781801071291
Antico o usato Brossura

Da: GreatBookPrices, Columbia, MD, U.S.A.

Valutazione del venditore 5 su 5 stelle 5 stelle, Maggiori informazioni sulle valutazioni dei venditori

Condizione: As New. Unread book in perfect condition. Codice articolo 42642714

Contatta il venditore

Compra usato

EUR 35,41
Convertire valuta
Spese di spedizione: EUR 2,25
In U.S.A.
Destinazione, tempi e costi

Quantità: Più di 20 disponibili

Aggiungi al carrello

Foto dell'editore

Mertz, David
Editore: Packt Publishing, 2021
ISBN 10: 1801071292 ISBN 13: 9781801071291
Nuovo Brossura

Da: Lucky's Textbooks, Dallas, TX, U.S.A.

Valutazione del venditore 5 su 5 stelle 5 stelle, Maggiori informazioni sulle valutazioni dei venditori

Condizione: New. Codice articolo ABLIING23Mar2912160213002

Contatta il venditore

Compra nuovo

EUR 38,50
Convertire valuta
Spese di spedizione: EUR 3,40
In U.S.A.
Destinazione, tempi e costi

Quantità: Più di 20 disponibili

Aggiungi al carrello

Foto dell'editore

Mertz, David
Editore: Packt Publishing, 2021
ISBN 10: 1801071292 ISBN 13: 9781801071291
Nuovo Brossura

Da: GreatBookPrices, Columbia, MD, U.S.A.

Valutazione del venditore 5 su 5 stelle 5 stelle, Maggiori informazioni sulle valutazioni dei venditori

Condizione: New. Codice articolo 42642714-n

Contatta il venditore

Compra nuovo

EUR 39,67
Convertire valuta
Spese di spedizione: EUR 2,25
In U.S.A.
Destinazione, tempi e costi

Quantità: Più di 20 disponibili

Aggiungi al carrello

Foto dell'editore

Mertz, David
Editore: Packt Publishing, 2021
ISBN 10: 1801071292 ISBN 13: 9781801071291
Nuovo Brossura

Da: Best Price, Torrance, CA, U.S.A.

Valutazione del venditore 5 su 5 stelle 5 stelle, Maggiori informazioni sulle valutazioni dei venditori

Condizione: New. SUPER FAST SHIPPING. Codice articolo 9781801071291

Contatta il venditore

Compra nuovo

EUR 34,46
Convertire valuta
Spese di spedizione: EUR 7,65
In U.S.A.
Destinazione, tempi e costi

Quantità: 1 disponibili

Aggiungi al carrello

Immagini fornite dal venditore

Mertz, David
ISBN 10: 1801071292 ISBN 13: 9781801071291
Nuovo Paperback or Softback

Da: BargainBookStores, Grand Rapids, MI, U.S.A.

Valutazione del venditore 5 su 5 stelle 5 stelle, Maggiori informazioni sulle valutazioni dei venditori

Paperback or Softback. Condizione: New. Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools 1.87. Book. Codice articolo BBS-9781801071291

Contatta il venditore

Compra nuovo

EUR 42,71
Convertire valuta
Spese di spedizione: GRATIS
In U.S.A.
Destinazione, tempi e costi

Quantità: 5 disponibili

Aggiungi al carrello

Foto dell'editore

Mertz, David
Editore: Packt Publishing, 2021
ISBN 10: 1801071292 ISBN 13: 9781801071291
Nuovo Brossura

Da: California Books, Miami, FL, U.S.A.

Valutazione del venditore 5 su 5 stelle 5 stelle, Maggiori informazioni sulle valutazioni dei venditori

Condizione: New. Codice articolo I-9781801071291

Contatta il venditore

Compra nuovo

EUR 43,01
Convertire valuta
Spese di spedizione: GRATIS
In U.S.A.
Destinazione, tempi e costi

Quantità: Più di 20 disponibili

Aggiungi al carrello

Foto dell'editore

David Mertz
Editore: Packt Publishing Limited, 2021
ISBN 10: 1801071292 ISBN 13: 9781801071291
Nuovo PAP
Print on Demand

Da: PBShop.store UK, Fairford, GLOS, Regno Unito

Valutazione del venditore 5 su 5 stelle 5 stelle, Maggiori informazioni sulle valutazioni dei venditori

PAP. Condizione: New. New Book. Delivered from our UK warehouse in 4 to 14 business days. THIS BOOK IS PRINTED ON DEMAND. Established seller since 2000. Codice articolo L0-9781801071291

Contatta il venditore

Compra nuovo

EUR 43,88
Convertire valuta
Spese di spedizione: EUR 3,81
Da: Regno Unito a: U.S.A.
Destinazione, tempi e costi

Quantità: Più di 20 disponibili

Aggiungi al carrello

Vedi altre 13 copie di questo libro

Vedi tutti i risultati per questo libro