paint-brush
16 meilleurs ensembles de données Sklearn pour créer des modèles d'apprentissage automatiquepar@datasets
30,594 lectures
30,594 lectures

16 meilleurs ensembles de données Sklearn pour créer des modèles d'apprentissage automatique

Trop long; Pour lire

Sklearn est un module Python pour l'apprentissage automatique construit sur SciPy. Il est unique en raison de sa large gamme d'algorithmes et de sa facilité d'utilisation. Les données alimentent les algorithmes d'apprentissage automatique et scikit-learn. Sklearn propose des ensembles de données de haute qualité largement utilisés par les chercheurs, les praticiens et les passionnés.
featured image - 16 meilleurs ensembles de données Sklearn pour créer des modèles d'apprentissage automatique
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Les données alimentent les algorithmes d'apprentissage automatique et scikit-learn ou sklearn offre des ensembles de données de haute qualité largement utilisés par les chercheurs, les praticiens et les passionnés. Scikit-learn (sklearn) est un module Python pour l'apprentissage automatique construit sur SciPy. Il est unique en raison de sa large gamme d'algorithmes, de sa facilité d'utilisation et de son intégration avec d'autres bibliothèques Python.

Que sont les "jeux de données Sklearn" ?

Les ensembles de données Sklearn sont inclus dans le cadre du scikit-learn ( sklearn ), elles sont donc préinstallées avec la bibliothèque. De ce fait, vous pouvez facilement accéder à ces ensembles de données et les charger, sans avoir à les télécharger séparément.


Pour utiliser un jeu de données spécifique, vous pouvez simplement l'importer depuis le module sklearn.datasets et appeler la fonction appropriée pour charger les données dans votre programme.


Ces ensembles de données sont généralement prétraités et prêts à l'emploi, ce qui fait gagner du temps et des efforts aux praticiens des données qui doivent expérimenter différents modèles et algorithmes d'apprentissage automatique.

Liste complète des ensembles de données dans la bibliothèque Sklearn

  1. Iris
  2. Diabète
  3. Chiffres
  4. Linnerud
  5. Vin
  6. Cancer du sein Wisconsin
  7. Logement à Boston
  8. Visages d'olivetti
  9. Logement en Californie
  10. MNIST
  11. Mode-MNIST
  12. marque_classification
  13. make_regression
  14. make_blobs
  15. make_moons et make_circles
  16. Make_sparse_coded_signal

Ensembles de données Sklearn préinstallés (jouets)

1. Iris

Cet ensemble de données comprend des mesures de la longueur des sépales, de la largeur des sépales, de la longueur des pétales et de la largeur des pétales de 150 fleurs d'iris, qui appartiennent à 3 espèces différentes : setosa, versicolor et virginica. L'ensemble de données d'iris comporte 150 lignes et 5 colonnes, qui sont stockées sous forme de données, y compris une colonne pour l'espèce de chaque fleur.


Les variables comprennent :


  • Sepal.Length - Sepal.length représente la longueur du sépale en centimètres.
  • Sepal.Width - Sepal.width représente la largeur du sépale en centimètres.
  • Petal.Length - Petal.length représente la longueur du pétale en centimètres.
  • Espèce - La variable espèce représente l'espèce de la fleur d'iris, avec trois valeurs possibles : setosa, versicolor et virginica.


Vous pouvez charger l'ensemble de données iris directement depuis sklearn à l'aide de la fonction load_iris du module sklearn.datasets.


 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())


Code pour charger le jeu de données Iris à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html le 27/3/2023.

2. Diabète

Cet ensemble de données sklearn contient des informations sur 442 patients atteints de diabète, y compris des mesures démographiques et cliniques :

  • Âge
  • Sexe
  • Indice de masse corporelle (IMC)
  • Pression artérielle moyenne
  • Six dosages du sérum sanguin (par exemple cholestérol total, cholestérol à lipoprotéines de basse densité (LDL), cholestérol à lipoprotéines de haute densité (HDL)).
  • Une mesure quantitative de la progression de la maladie du diabète (HbA1c).


L'ensemble de données sur le diabète peut être chargé à l'aide de la fonction load_diabetes() du module sklearn.datasets.


 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())


Code pour charger l'ensemble de données sur le diabète à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset le 28/3/2023.

3. Chiffres

Cet ensemble de données sklearn est une collection de chiffres écrits à la main de 0 à 9, stockés sous forme d'images en niveaux de gris. Il contient un total de 1797 échantillons, chaque échantillon étant un tableau 2D de forme (8,8). Il y a 64 variables (ou caractéristiques) dans le jeu de données digits sklearn, correspondant aux 64 pixels de chaque image numérique.


L'ensemble de données Digits peut être chargé à l'aide de la fonction load_digits() du module sklearn.datasets.


 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)


Code pour charger le jeu de données Digits à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/datasets/toy_dataset.html#optical-recognition-of-handwritten-digits-dataset le 29/3/2023.


4. Linnerud

L'ensemble de données Linnerud contient des mesures physiques et physiologiques de 20 athlètes professionnels.


L'ensemble de données comprend les variables suivantes :


  • Trois variables d'exercice physique - tractions, redressements assis et sauts avec écart.
  • Trois variables de mesure physiologiques - pouls, tension artérielle systolique et tension artérielle diastolique.


Pour charger l'ensemble de données Linnerud en Python à l'aide de sklearn :


 from sklearn.datasets import load_linnerud linnerud = load_linnerud()


Code pour charger le jeu de données linnerud à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud le 27/3/2023.

5. Vin

Cet ensemble de données sklearn contient les résultats d'analyses chimiques de vins cultivés dans une région spécifique d'Italie, pour classer les vins dans leurs variétés correctes.


Certaines des variables de l'ensemble de données :


  • Alcool
  • L'acide malique
  • Cendre
  • Alcalinité des cendres
  • Magnésium
  • Phénols totaux
  • Flavonoïdes


L'ensemble de données Wine peut être chargé à l'aide de la fonction load_wine() du module sklearn.datasets.


 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names


Code pour charger l'ensemble de données Wine Quality à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset le 28/3/2023.

6. Ensemble de données du Wisconsin sur le cancer du sein

Cet ensemble de données sklearn contient des informations sur les tumeurs du cancer du sein et a été initialement créé par le Dr William H. Wolberg. L'ensemble de données a été créé pour aider les chercheurs et les praticiens de l'apprentissage automatique à classer les tumeurs comme malignes (cancéreuses) ou bénignes (non cancéreuses).


Certaines des variables incluses dans cet ensemble de données :


  • numéro d'identification
  • Diagnostic (M = malin, B = bénin).
  • Rayon (moyenne des distances entre le centre et les points du périmètre).
  • Texture (l'écart type des valeurs d'échelle de gris).
  • Périmètre
  • Zone
  • Lissé (la variation locale des longueurs de rayon).
  • Compacité (le périmètre ^ 2 / surface - 1,0).
  • Concavité (la gravité des parties concaves du contour).
  • Points concaves (le nombre de parties concaves du contour).
  • Symétrie
  • Dimension fractale ("approximation du littoral" - 1).


Vous pouvez charger l'ensemble de données Breast Cancer Wisconsin directement à partir de sklearn à l'aide de la fonction load_breast_cancer du module sklearn.datasets.


 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())


Code pour charger l'ensemble de données Breast Cancer Wisconsin à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html le 28/3/2023.


Ensemble de données sur le cancer du sein du Wisconsin

Ensembles de données Sklearn du monde réel

Les ensembles de données sklearn du monde réel sont basés sur des problèmes du monde réel, couramment utilisés pour pratiquer et expérimenter des algorithmes et des techniques d'apprentissage automatique à l'aide de la bibliothèque sklearn en Python.

7. Logement à Boston

L'ensemble de données Boston Housing comprend des informations sur le logement dans la région de Boston, Massachusetts. Il contient environ 506 lignes et 14 colonnes de données.


Certaines des variables de l'ensemble de données incluent :


  • CRIM - Taux de criminalité par habitant par ville.
  • ZN - La proportion de terrains résidentiels zonés pour les lots de plus de 25 000 pi.ca.
  • INDUS - La proportion d'acres commerciales non commerciales par ville.
  • CHAS - Variable fictive Charles River (= 1 si le secteur délimite la rivière ; 0 sinon).
  • NOX - La concentration d'oxyde nitrique (parties par 10 millions).
  • RM - Le nombre moyen de pièces par logement.
  • AGE - La proportion d'unités occupées par leur propriétaire construites avant 1940.
  • DIS - Les distances pondérées à cinq centres d'emploi de Boston.
  • RAD - L'indice d'accessibilité aux autoroutes radiales.
  • TAXE - Le taux de la taxe foncière sur la valeur totale par tranche de 10 000 $.
  • PTRATIO - Le ratio élèves-enseignant par ville.
  • B - 1000(Bk - 0.63)^2 où -Bk est la proportion de noirs par ville.
  • LSTAT - Le pourcentage de statut inférieur de la population.
  • MEDV - La valeur médiane des maisons occupées par leur propriétaire en milliers de dollars.


Vous pouvez charger l'ensemble de données Boston Housing directement depuis scikit-learn à l'aide de la fonction load_boston du module sklearn.datasets.


 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())


Code pour charger l'ensemble de données Boston Housing à l'aide de sklearn. Extrait de https://scikit-learn.org/0.15/modules/generated/sklearn.datasets.load_boston.html le 29/3/2023.

8. Visages d'olivetti

L'ensemble de données Olivetti Faces est une collection d'images en niveaux de gris de visages humains prises entre avril 1992 et avril 1994 aux laboratoires AT&T. Il contient 400 images de 10 individus, chaque individu ayant 40 images prises sous différents angles et différentes conditions d'éclairage.


Vous pouvez charger l'ensemble de données Olivetti Faces dans sklearn en utilisant la fonction fetch_olivetti_faces du module d'ensembles de données.


 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target


Code pour charger le jeu de données Olivetti Faces à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_olivetti_faces.html le 29/3/2023.

9. Logement en Californie

Cet ensemble de données sklearn contient des informations sur les valeurs médianes des maisons, ainsi que des attributs pour les secteurs de recensement en Californie. Il comprend également 20 640 instances et 8 fonctionnalités.


Certaines des variables de l'ensemble de données :


  • MedInc - Le revenu médian en bloc.
  • HouseAge - L'âge médian des maisons dans le bloc.
  • AveRooms - Le nombre moyen de pièces par ménage.
  • AveBedrms - Le nombre moyen de chambres par ménage.
  • Population - La population du bloc.
  • AveOccup - Occupation moyenne du ménage.
  • Latitude - La latitude du bloc en degrés décimaux.
  • Longitude - La longitude du bloc en degrés décimaux.


Vous pouvez charger l'ensemble de données California Housing à l'aide de la fonction fetch_california_housing de sklearn.


 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target


Code pour charger l'ensemble de données California Housing à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html le 29/3/2023.

dix. MNIST

L'ensemble de données MNIST est populaire et largement utilisé dans les domaines de l'apprentissage automatique et de la vision par ordinateur. Il se compose de 70 000 images en niveaux de gris de chiffres manuscrits de 0 à 9, avec 60 000 images pour la formation et 10 000 pour les tests. Chaque image a une taille de 28x28 pixels et a une étiquette correspondante indiquant les chiffres qu'elle représente.


Vous pouvez charger le jeu de données MNIST à partir de sklearn en utilisant le code suivant :


 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')


Remarque : L'ensemble de données MNIST est un sous-ensemble de l'ensemble de données Digits.


Code pour charger le jeu de données MNIST à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml le 30/3/2023.


11. Mode-MNIST

L'ensemble de données Fashion MNIST a été créé par Zalando Research en remplacement de l'ensemble de données MNIST d'origine. L'ensemble de données Fashion MNIST se compose de 70 000 images en niveaux de gris (ensemble d'entraînement de 60 000 et un ensemble de test de 10 000) d'articles vestimentaires.


Les images ont une taille de 28 x 28 pixels et représentent 10 classes différentes de vêtements, notamment des t-shirts/hauts, des pantalons, des pulls, des robes, des manteaux, des sandales, des chemises, des baskets, des sacs et des bottines. Il est similaire à l'ensemble de données MNIST original, mais avec des tâches de classification plus difficiles en raison de la plus grande complexité et de la variété des vêtements.


Vous pouvez charger cet ensemble de données sklearn à l'aide de la fonction fetch_openml.


 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')


Code pour charger le jeu de données Fashion MNIST à l'aide de sklearn. Extrait de __ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ le 30/3/2023.

Ensembles de données Sklearn générés

Les ensembles de données sklearn générés sont des ensembles de données synthétiques, générés à l'aide de la bibliothèque sklearn en Python. Ils sont utilisés pour tester, comparer et développer des algorithmes/modèles d'apprentissage automatique.

12. marque_classification

Cette fonction génère un jeu de données de classification aléatoire de classe n avec un nombre spécifié d'échantillons, de caractéristiques et de caractéristiques informatives.


Voici un exemple de code pour générer cet ensemble de données sklearn avec 100 échantillons, 5 fonctionnalités et 3 classes :


 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)


Ce code génère un jeu de données avec 100 échantillons et 5 caractéristiques, avec 3 classes et 3 caractéristiques informatives. Les fonctionnalités restantes seront redondantes ou parasites.


Code pour charger l'ensemble de données make_classification à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification le 30/3/2023.

13. make_regression

Cette fonction génère un jeu de données de régression aléatoire avec un nombre spécifié d'échantillons, de caractéristiques et de bruit.


Voici un exemple de code pour générer cet ensemble de données sklearn avec 100 échantillons, 5 caractéristiques et un niveau de bruit de 0,1 :


 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)


Ce code génère un jeu de données avec 100 échantillons et 5 caractéristiques, avec un niveau de bruit de 0,1. La variable cible y sera une variable continue.


Code pour charger l'ensemble de données make_regression à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression le 30/3/2023.

14. make_blobs

Cette fonction génère un jeu de données aléatoire avec un nombre spécifié d'échantillons et de grappes.


Voici un exemple de code pour générer cet ensemble de données sklearn avec 100 échantillons et 3 clusters :


 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)


Ce code génère un jeu de données avec 100 échantillons et 2 caractéristiques (coordonnées x et y), avec 3 clusters centrés à des emplacements aléatoires et sans bruit.


Code pour charger l'ensemble de données make_blobs à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs le 30/3/2023.

15. make_moons et make_circles

Ces fonctions génèrent des ensembles de données avec des limites non linéaires qui sont utiles pour tester des algorithmes de classification non linéaires.


Voici un exemple de code pour charger l'ensemble de données make_moons :


à partir de sklearn.datasets importer make_moons

X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)


Ce code génère un jeu de données avec 1000 échantillons et 2 caractéristiques (coordonnées x et y) avec une frontière non linéaire entre les deux classes et avec 0,2 écart type de bruit gaussien ajouté aux données.


Code pour charger le jeu de données make_moons à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons le 30/3/2023.


Voici un exemple de code pour générer et charger l'ensemble de données make_circles :


 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)


Code pour charger l'ensemble de données make_circles à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles le 30/3/2023.

16. make_sparse_coded_signal

Cette fonction génère un ensemble de données de signaux codés clairsemés qui est utile pour tester les algorithmes de détection de compression.


Voici un exemple de code pour charger cet ensemble de données sklearn :


 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)


Ce code génère un ensemble de données de signaux codés clairsemés avec 100 échantillons, 50 caractéristiques et 10 atomes.


Code pour charger l'ensemble de données make_sparse_coded_signal à l'aide de sklearn. Extrait de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal le 30/3/2023.


Cas d'utilisation courants pour les ensembles de données Sklearn

Ensembles de données Sklearn préinstallés (jouets)

Iris - Cet ensemble de données sklearn est couramment utilisé pour les tâches de classification et est utilisé comme ensemble de données de référence pour tester les algorithmes de classification.


Diabète - Cet ensemble de données contient des informations médicales sur les patients atteints de diabète et est utilisé pour les tâches de classification et de régression dans l'analyse des soins de santé.


Chiffres - Cet ensemble de données sklearn contient des images de chiffres manuscrits et est couramment utilisé pour les tâches de classification d'images et de reconnaissance de formes.


Linnerud - Cet ensemble de données contient des données sur la condition physique et médicale de 20 athlètes et est couramment utilisé pour l'analyse de régression multivariée.


Vin - Cet ensemble de données sklearn contient une analyse chimique des vins et est couramment utilisé pour les tâches de classification et de regroupement.


Cancer du sein Wisconsin - Cet ensemble de données contient des informations médicales sur les patientes atteintes d'un cancer du sein et est couramment utilisé pour les tâches de classification dans l'analyse des soins de santé.

Ensembles de données Sklearn du monde réel

Logement à Boston - Cet ensemble de données sklearn contient des informations sur le logement à Boston et est couramment utilisé pour les tâches de régression.


Visages d'olivetti - Cet ensemble de données contient des images de visages en niveaux de gris et est couramment utilisé pour la classification d'images et les tâches de reconnaissance faciale.


Logement en Californie - Cet ensemble de données sklearn contient des informations sur le logement en Californie et est couramment utilisé pour les tâches de régression.


MNIST - Cet ensemble de données contient des images de chiffres manuscrits et est couramment utilisé pour les tâches de classification d'images et de reconnaissance de formes.


Mode-MNIST - Cet ensemble de données sklearn contient des images de vêtements et est couramment utilisé pour les tâches de classification d'images et de reconnaissance de formes.

Ensembles de données Sklearn générés

marque_classification - Cet ensemble de données est un ensemble de données généré aléatoirement pour les tâches de classification binaire et multiclasse.


make_regression - Cet ensemble de données est un ensemble de données généré aléatoirement pour les tâches de régression.


make_blobs - Cet ensemble de données sklearn est un ensemble de données généré aléatoirement pour les tâches de clustering.


make_moons et make_circles - Ces ensembles de données sont des ensembles de données générés aléatoirement pour les tâches de classification et sont couramment utilisés pour tester les classificateurs non linéaires.


make_sparse_coded_signal - Cet ensemble de données est un ensemble de données généré aléatoirement pour les tâches de codage clairsemées dans le traitement du signal.

Dernières pensées

Les ensembles de données Sklearn offrent aux développeurs et aux chercheurs un moyen pratique de tester et d'évaluer des modèles d'apprentissage automatique sans avoir à collecter et à prétraiter manuellement les données.


Ils sont également disponibles pour tout le monde à télécharger et à utiliser librement.


L'image principale de cet article a été générée via le modèle AI Stable Diffusion de HackerNoon à l'aide de l'invite "iris dataset".


Plus de listes d'ensembles de données :

  1. Ensembles de données Excel
  2. Ensembles de données Keras
  3. Jeux de données R