Trivium der Messtheorie

    In der Statistik und Datenanalyse versteht es sich, dass alle Werte reelle Zahlen (Vektoren von reellen Zahlen) sind oder leicht auf diese reduziert werden können. Zum Beispiel in der nichtparametrischen und nichtnumerischen Statistik sowie in der Ökonometrie ist es jedoch sehr wichtig, in welchem ​​Maßstab die Daten erfasst werden, um zu verstehen, welche Operationen und Methoden mit ihnen anwendbar sind.

    Das Problem bei der Definition von Skalen liegt immer noch in der Tatsache, dass sie von Mathematikern gebaut werden und streng formalisiert sind, was sie für die Mehrheit unverständlich macht. Im klassischen Buch von Pfanzagl sind die Skalen beispielsweise wie folgt definiert:



    Wo mit. über. - ein System mit Beziehungen und h. mit. über. - numerisch mit. etwa die gleichen, die in der Algebra und der Theorie der normalen Formen relationaler Datenbanken verwendet werden. Wenn dies für Sie einfach und verständlich ist, können Sie aufhören, weiterzulesen. Im Übrigen werde ich Sie über Skalen einfach und klar sowie über die wesentliche Bedeutung des Verständnisses dieses Materials informieren.

    Namensskala (nominelle Skala).Es wird verwendet, um Merkmale zu beschreiben, die nur auf Äquivalenz verglichen werden können (gleich - nicht gleich). Solche Maßstäbe sind beispielsweise Musikgeschmack, Wortarten, politische Ansichten. Es ist wichtig zu wissen, dass es unmöglich ist, andere Operationen als die Überprüfung auf Zufälle in solchen Maßstäben durchzuführen. Das heißt, Rap-Fans sind einfach nicht gleich Justin Bieber-Fans, was in dieser Größenordnung steiler zu sagen ist, ist unmöglich. Zahlen können hier nur zur Klassifizierung von Objekten verwendet werden.

    Gruppierungs- und Klassifizierungsoperationen sind auch auf dieser Skala zulässig, außerdem werden die meisten Klassifizierungen speziell für solche Skalen erstellt.

    Die Ordnungsskala oder Rangskala (Ordnungsskala).Diese Skala verfügt über alle Eigenschaften der Benennungsskala, wobei eine Ordnungsbeziehung hinzugefügt wird. Zum Beispiel können wir nicht sagen, wer cooler ist als ein Feuerwehrmann oder Taxifahrer (Namensskala), aber wir können mit Sicherheit sagen, dass ein Major cooler ist als ein Warrant Officer (Rangskala).

    Für diese Skala ist es sehr wichtig zu verstehen, dass Zahlen nur für Vergleichsoperationen verwendet werden und nicht addiert oder gemittelt werden können (Allgemein plus Normal sind nicht gleich zwei Leutnants). Ich werde noch ein Beispiel geben. Alle lieben Witze wie: "Nachdem Vasya von Russland nach Indien gezogen ist, hat sich der durchschnittliche IQ beider Länder erhöht", was bedeutet, dass der durchschnittliche IQ in Russland größer ist als in Indien und Vasya nicht den durchschnittlichen Russen erreicht. Das Konzept des „durchschnittlichen IQ“ ist also falsch, da der IQ auf einer Rangskala berechnet und anfänglich so ausgelegt wird, dass die Werte normal auf die Bevölkerung verteilt sind, und in keinem Fall kann behauptet werden, dass zwischen IQ 141 und 142 der gleiche Unterschied besteht wie zwischen IQ 120 und 121. Richtig scherzen: "Nachdem Vasya von Russland nach Indien gezogen war, stieg die durchschnittliche Intelligenz beider Länder."

    Die Differenzskala oder Intervallskala (Intervallskala). Solche Skalen messen Daten, Temperaturen in Celsius und Fahrenheit. In solchen Maßstäben gibt es keinen natürlichen Bezugspunkt, obwohl einige Leute lange Zeit argumentieren werden, dass der Countdown von Weihnachten oder dem 1. Januar 1970 sehr natürlich ist.

    Die meisten Big Data-Präsentationen beginnen mit einer Geschichte über ein schwangeres Schulmädchen. Tester haben ihr eigenes Fahrrad über Flugzeuge. Kurzum: Ein amerikanisches Flugzeug stürzte in Israel im Toten Meer ab, weil sein System durch Null geteilt wurde, sobald die Höhe des Flugzeugs über dem Meeresspiegel negativ wurde. Ich hörte viele Versionen dieser Geschichte: Entweder flog das Flugzeug verkehrt herum, dann gingen die Tarnschwärme selbst ins Meer. Dieses Fahrrad ist sehr unwahrscheinlich, wenn Sie verstehen, dass es keinen Sinn macht, durch den Wert zu dividieren, der von der Intervallskala genommen wird, die die Höhe über dem Meeresspiegel ist. Versuchen Sie tatsächlich, eine Formel zu finden, in der die Fahrenheit-Temperatur oder der Breitengrad des Gebiets im Nenner liegen.

    Für die Messergebnisse in solchen Skalen kann der arithmetische Mittelwert berücksichtigt werden, Korrelations- und Regressionsanalysen können durchgeführt werden, es ist jedoch unmöglich, den harmonischen oder geometrischen Mittelwert zu berechnen.

    VerhältnisskalaFür eine solche Skala ist das Vorhandensein eines Bezugspunkts natürlich. Entschuldigen Sie den Pragmatismus, aber alles, was an Geld gemessen wird, fällt in diese Größenordnung. Wenn das Datum auf der Intervallskala liegt, liegt das Alter auf der Beziehungsskala. Es wird manchmal gesagt, dass diese Skala alle Eigenschaften eines Intervalls hat, aber eine kleine Nuance: Wenn lineare Transformationen (Multiplikation mit einer konstanten Polverschiebung) für eine Intervallskala akzeptabel sind, dann nur Ähnlichkeitstransformationen (Multiplikation mit einer Konstanten). Die meisten statistischen Analysemethoden setzen voraus, dass die Werte auf einer solchen Skala liegen. Bevor Sie also das Analysepaket mit Zahlen füttern, müssen Sie sicherstellen, dass es einen natürlichen Ursprung gibt, da ansonsten viele statistische Merkmale nicht aussagekräftig sind.

    Diese vier Skalen werden heute allgemein akzeptiert. Als jedoch die Theorie der nichtnumerischen Statistik erst auftauchte, führten viele Forscher ihre Klassifikationen ein. Hier ist zum Beispiel eine Seite aus Tyurins unveröffentlichtem Buch: Ein



    Ansatz, Ihre eigenen Maßstäbe zu „erfinden“, kann in vielen Projekten produktiv sein. Es ist jedoch wichtiger, auf Operationen mit Daten zu prüfen und die entsprechenden Tests zu schreiben, bevor die Werte empfangen werden. Und denken Sie daran, dass es nicht ausreicht, nur die Einheiten zu überprüfen (was einige Programmiersprachen tun): Zeit und Alter werden in denselben Einheiten gemessen.

    Jetzt auch beliebt: