Unausgeglichene Daten sind ein häufiges Problem im maschinellen Lernen, das Herausforderungen für Korrelation, Klassentrennung und Bewertung bringt und zu einer schlechten Modellleistung führt.
- Was ist der Nachteil unausgeglichener Daten??
- Warum Klassenungleichgewicht ein Problem ist?
- Was ist das Problem mit unausgeglichenen Datensätzen in Klassifizierungsproblemen?
- Wie würde sich das Ungleichgewicht des Unterrichts auf Ihr Modell auswirken??
Was ist der Nachteil unausgeglichener Daten??
Nachteile: Es kann nützliche Informationen über die Daten selbst verwerfen. Die durch zufälligen Unterabtastung ausgewählte Probe kann eine voreingenommene Probe sein. Und es wird in diesem Fall keine genaue Darstellung der Bevölkerung sein.
Warum Klassenungleichgewicht ein Problem ist?
Viele praktische Klassifizierungsprobleme sind unausgeglichener. Das Problem des Klassenungleichgewichts tritt typischerweise auf, wenn es viel mehr Fälle in einigen Klassen gibt als andere. In solchen Fällen werden Standardklassifizierer in der Regel von den großen Klassen überwältigt und ignorieren die kleinen.
Was ist das Problem mit unausgeglichenen Datensätzen in Klassifizierungsproblemen?
Dies bedeutet, dass das Modell die Minderheitenklasse nicht identifiziert, aber der Genauigkeitswert des Modells beträgt 95%. Daher ist unser traditioneller Ansatz der Berechnung der Klassifizierung und Modellgenauigkeit bei dem unausgeglichenen Datensatz nicht nützlich.
Wie würde sich das Ungleichgewicht des Unterrichts auf Ihr Modell auswirken??
Wenn innerhalb der Trainingsdaten ein Klassenungleichgewicht besteht. Infolgedessen werden die Fälle, die zur kleineren Klasse (ES) gehören, typischerweise häufiger falsch klassifiziert als diejenigen, die zur größeren Klasse (ES) gehören (ES).