Internationales Verkehrswesen
iv
0020-9511
expert verlag Tübingen
10.24053/IV-2014-0127
111
2014
664
Bestimmung der Durchschnittsgeschwindigkeit eines Verkehrsstroms
111
2014
Laura Vetter
Carsten Hilgenfeld
Ute Schreiber
Eine der wichtigen Parameter einer Straße ist neben der zulässigen Höchstgeschwindigkeit bei näherer Betrachtung die Durchschnittsgeschwindigkeit des Verkehrsstroms in Abhängigkeit der Tageszeit bzw. des Wochentages. Da sich die Geschwindigkeiten der Verkehrsteilnehmer innerhalb des Stroms teils stark unterscheiden, muss eine „korrekte“ Durchschnittsgeschwindigkeit ermittelt werden.
iv6640080
Internationales Verkehrswesen (66) 4 | 2014 80 TECHNOLOGIE Wissenschaft Bestimmung der Durchschnittsgeschwindigkeit eines Verkehrsstroms Betrachtung und Bewertung von Ausreißern zur-Mittelwertberechnung von (univariaten) statistischen Daten zur Bestimmung der mittleren Geschwindigkeit auf Straßen. Eine der wichtigen Parameter einer Straße ist neben der zulässigen Höchstgeschwindigkeit bei näherer Betrachtung die Durchschnittsgeschwindigkeit des Verkehrsstroms in Abhängigkeit der Tageszeit bzw. des Wochentages. Da sich die Geschwindigkeiten der Verkehrsteilnehmer innerhalb des Stroms teils stark unterscheiden, muss eine „korrekte“ Durchschnittsgeschwindigkeit ermittelt werden. Die Autoren: Laura Vetter, Carsten Hilgenfeld, Ute Schreiber I m Rahmen einer Bachelor-Thesis am Bereich Seefahrt der Hochschule Wismar in Warnemünde wurde die folgende Aufgabenstellung bearbeitet: Für eine exemplarische Landstraße wurden für einen Zeitraum von 24 Stunden Geschwindigkeiten der Verkehrsteilnehmer in eine Fahrtrichtung erzeugt. Diese Punktwolke aus 1000 Messwerten (vgl. Bild 1) wurde nun zur Bestimmung „der“ Durchschnittsgeschwindigkeit untersucht. Es gibt eine Vielzahl bekannter Mittelwerte, die für solch eine Aufgabenstellung eine Lösung bieten. Von den Potenzmethoden wie dem arithmetischen und geometrischen Mittel, den gewogenen bzw. gewichteten Mitteln, dem Median oder Modalwert bis zum α -getrimmten und α -winsorisierten Mittel haben alle ihre Berechtigung und spezielle Aufgaben in der statistischen Untersuchung. Die bekanntesten und am häuigsten verwendeten Methoden sind der Median, der Modalwert und das arithmetische Mittel. Modalwert, Median und arithmetisches Mittel Der Modalwert oder auch Modus ist der Wert mit der größten Häuigkeit in der Datenmenge. Er zeigt also nicht unbedingt den Durchschnitt. Eine Nominalskala ist für den Modalwert ausreichend. Das bedeutet, dass die Ausprägungen (Daten) durch eine Beschreibung des Merkmals und nicht ausschließlich durch einen Zahlenwert charakterisiert sein müssen. Die Merkmalsausprägungen werden in Klassen eingeteilt und können z. B. eine Farbe oder das Geschlecht darstellen. So kann der Modus Mittelwerte von Aufgaben- und Anwendungsbereichen abdecken, die von anderen Mittelwertberechnungen nicht betrachtet werden können. Für den Median wird dagegen eine Ordinalskala vorausgesetzt. Ordinalskalen basieren auf Daten qualitativer (z. B. Fahrverhalten) oder quantitativer (Zahlenwert) Ausprägungen, die im Zusammenhang mit einer Rangordnung bzw. Rangfolge bestehen. Der Median ist demnach jener Wert, welcher in einer geordneten Reihe genau in der Mitte liegt. D. h. oberhalb wie unterhalb von ihm beindet sich eine gleichgroße Anzahl von Beobachtungen. Da sich bei qualitativen Merkmalen keine Aussage darüber machen lässt, wie weit die einzelnen Daten auseinander liegen, kann mit dem Median nur der mittlere Wert, nicht aber ein Durchschnittswert errechnet werden. Ist jedoch eine Zahlenreihe symmetrisch verteilt, ist der Median gleich dem Durchschnittswert. Das arithmetische Mittel ist die bekannteste und am häuigsten genutzte Mittelwertdeinition. Es kann nur bei quantitativen Werten angewendet werden. Da bei dieser Methode im Gegensatz zum Median nicht nur der Rang, sondern auch der Abstand zwischen den Werten gemessen werden kann (Intervallskala), bezeichnet es den statistischen Durchschnittswert aller Beobachtungen. Berechnet wird das arithmetische Mittel, indem alle Werte addiert und anschließend durch ihre Anzahl geteilt werden. Ausreißer Mit den drei beschriebenen Berechnungsmethoden lassen sich jegliche Mittel- und Durchschnittswerte bestimmen. Das Problem bei arithmetischen Mittelwerten veranschaulicht folgendes Beispiel: Was passiert, wenn Bill Gates eine Bar betritt, in der sich 50 Gäste befinden? - Das „durchschnittliche“ Privatvermögen aller Anwesenden klettert auf mehr als eine Milliarde US-Dollar! Internationales Verkehrswesen (66) 4 | 2014 81 Wissenschaft TECHNOLOGIE Der Aussagegehalt des Ergebnisses muss durch die sehr starke Verzerrung in Frage gestellt werden. Wie in diesem Beispiel Bill Gates treten bei statistischen Analysen häuig Werte auf, die von der Gesamtheit der übrigen Daten abzuweichen scheinen und sich oft nicht erklären lassen. Diesen außenliegenden Werten, auch Ausreißer genannt, muss bei der Analyse empirischer Daten grundsätzlich eine besondere Aufmerksamkeit zukommen. Denn werden solche (verzerrten) Analyseergebnisse falsch interpretiert, können sie Anlass zu falschen Hypothesen geben. Relektieren die Ausreißer keine Verunreinigung, sondern eher die breite Variabilität der Daten (Bill Gates), kann die Beschäftigung mit Ausreißern zu wichtigen neuen Erkenntnissen führen. Dabei ist eine Unterscheidung zwischen Ausreißern und Irrläufern (contaminants) notwendig. Denn anders als Ausreißer sind Irrläufer Werte, die unvereinbar mit dem Rest der Werte sind, da sie aus einer anderen Verteilung oder Grundgesamtheit (G) stammen (sog. „Alien“- Beobachtung). Irrläufer können sich als Ausreißer (vgl. Bild 2, Punkt D) zeigen, oder sich als scheinbar „normaler“ Wert innerhalb der Mehrheit beinden (vgl. Bild 2, Punkt C). Daher lassen sie sich oft nur schwer von den anderen Werten abgrenzen. Identifikation der Ausreißer Es gibt verschiedene Methoden, um Ausreißer in einem Datensatz aufzuspüren. Dazu zählen die manuelle Durchsicht des gesamten Datensatzes, die graische (optische) und die rechnerische Identiizierung. Die Mehrheit der Methoden zur Ausreißeridentiizierung beschränkt sich auf Ausreißer, die als Extremwerte sichtbar werden. Die Methoden oder Techniken sind dabei relativ und hängen von der Datenreihe und Analysezweck ab [1]. Grundsätzlich lassen sich Ausreißer deutlicher durch graische Darstellungen sichtbar machen als durch numerische Daten. Da es sich bei der graischen Identiizierung allerdings um eine optische, also subjektive Beurteilung des Beobachters handelt, ist die rechnerische vorzuziehen [2]. Bei der rechnerischen Identiizierung dient ein Grenzwert der Identiizierung. Ein überschreitender Wert wird als Ausreißer deiniert. Geeignete Grenzwerte und Verfahren sind: • 3-Standardabweichung - Ausreißer sind alle Beobachtungen, die sich außerhalb von 3-Standardabweichungen zum Mittelwert (arithmetisches Mittel) beinden (vgl. Bild 3). • Abweichungsfaktor - Alle Werte mit einem Abweichungsfaktor > 2 gelten als stark abweichende Werte. Werte > 4 können als Ausreißer bestimmt werden. Abweichungsfaktor (AF) = = Diferenz zum Median Mittlere Absolute Abweichung (1) • Ausreißeridentifizierungs-Tests - Sie sind speziell zur Identiizierung entwickelte Tests. Um Unregelmäßigkeiten und Abweichungen in einer geordneten Datenreihe aufzuspüren, wird das Verhältnis der Einzelwerte zu ihrer Gesamtheit berechnet. Zusätzlich werden die Berechnungen nach der Verteilungsart der Datenreihe unterschieden. Zur Wahl der geeigneten Methode lässt sich vereinfacht sagen: Die 3-Standardabweichung-Methode hat sich in der Praxis durchgesetzt und bewährt. Der Abweichungsfaktor ist für spätere Berechnungen (bei späterer Gewichtung) von Bedeutung. Ist dagegen die Verteilungsart der Datenreihe bekannt, sind die speziellen Ausreißeridentiizierungstests am genauesten. Bild 2: Irrläufer Eigene Darstellung nach [2] Bild 1: Datengrundlage, mit Messpunkten und Verteilung Quelle: Eigene Darstellung (Matlab) Internationales Verkehrswesen (66) 4 | 2014 82 TECHNOLOGIE Wissenschaft Ausreißerbetrachtung Ist ein Ausreißer identiiziert, stellt sich die Frage nach dem Umgang mit ihm. Grundsätzlich lautet das Zauberwort bei der Behandlung von natürlichen Ausreißern „Plausibilität“: Ist ein Wert nicht plausibel, sollte er aus dem Datenmaterial gestrichen werden. Ist er es doch, ist zu empfehlen, ihn in vollem Umfang in die weiteren Berechnungen und vor allem bei der Mittelwertbildung eingehen zu lassen [3]. Im Beispiel Bill Gates ist die Verfälschung durch den Ausreißer dermaßen extrem, dass keine vernünftige Aussage über den Durchschnittswert getrofen werden kann. Werden jedoch Ausreißer aus dem Datensatz aussortiert, besteht das Risiko, wichtige Informationen zu verlieren. Gesucht ist daher eine Vorgehensweise, die zwischen einer Variante, die alle Beobachtungen voll einbezieht (gleich gewichtet) und der Eliminierung, welche einer Gewichtung der Ausreißer von Null entspricht, liegt. Soll also ein Ausreißer einen geringeren Einluss auf Analyseergebnisse haben, muss dessen Einluss mittels einer Gewichtung minimiert werden. Dies geschieht durch eine qualitative (Gewichtungsvarianten) und quantitative (Gewichtungsfaktoren) Gewichtung (Bild 4). Gewichtungsvarianten und -faktoren Für den Anwendungsfall der Landstraße sollen keine Werte eliminiert werden, da keine Messfehler vorlagen und es sich um tatsächliche Geschwindigkeiten handelt. Wiederum sollen aber potentielle Ausreißer nicht über Gebühr gewichtet werden, da dies die „korrekte“ Durchschnittsgeschwindigkeit verfälschen würde - beispielsweise könnte ein landwirtschaftliches Nutzfahrzeug im ungebundenen Verkehr unterwegs sein. Die ausschließliche Gewichtung der Ausreißer ist die genaueste und geeignetste Methode aller Gewichtungsvarianten. Nur hier kann sichergestellt werden, dass auch tatsächlich nur Ausreißer und keine weiteren tatsächlichen Werte durch Minimierung an Einluss verlieren. Die Gewichtung eines vorher festgelegten Randbereiches ist bei einer großen Anzahl von Werten dann eine gute Option, wenn die Ausreißer nicht eindeutig oder unbekannt sind. So ist beispielsweise zu empfehlen, alle Werte, die außerhalb von drei Standardabweichungen vom Mittelwert entfernt liegen, zu gewichten. Das umfasst ungefähr 1-2 % aller Messwerte. Für die Belegung mit einem Faktor kann ein einheitlicher Faktor gewählt werden, oder der Faktor richtet sich nach der Entfernung zum Mittelwert (Faktor abgestuft nach Abweichung). Die entfernungsabhängige Gewichtung der Ausreißer ist die aufwendigste, allerdings auch genaueste Variante, da Ausreißer lediglich aufgrund ihrer Lage im Datensatz bewertet werden (Formel 2; die Formel wurde durch die Autorin modiiziert und an die Zielstellung angepasst nach [4]). G = 1 (4 - x) 2 · (AF - x) 2 für 4 < AF < x (2) G - Gewichtungsfaktor AF - Abweichungsfaktor x - Ausreißergrenzwert (gibt den maximalen Abweichungsfaktor des Ausreißers an, bei dem die Gewichtung gegen Null geht) Der Ausreißergrenzwert muss immer höher/ gleich des maximalen Abweichungsfaktors des Datensatzes sein. Es eignet sich somit beispielsweise die nächstgrößere ganze Zahl; dies wäre beispielsweise bei einem Abweichungsfaktor von 5,3 ein x = 6. Bild 5: Vergleich verschiedener Berechnungsmethoden Bild 4: Überblick zur Behandlung von Ausreißern Quelle: Eigene Darstellung Bild 3: Normalverteilung Quelle: Medizinische Fakultät Universität Rostock Internationales Verkehrswesen (66) 4 | 2014 83 Wissenschaft TECHNOLOGIE Bild 6: Messwertdarstellung mit Ausreißern als Boxplots Rote Punkte = Ausreißer Mittlerer Querstrich = Median Rhombus = errechnete Durchschnittsgeschwindigkeit mit Gewichtung Quelle: Eigene Darstellung (Matlab) Anwendung der Erkenntnisse Wird nun auf Basis der gegeben Daten und der Kenntnisse zum Ausreißer, seiner Identiizierung und Behandlung eine Durchschnittsgeschwindigkeit berechnet und diese mit weiteren bekannten Mittelwertdeinitionen verglichen, lassen sich Diferenzen feststellen. Diese fallen allerdings geringer aus als möglicherweise erwartet (vgl. Bild 5). Ein Unterschied von 1- km/ h im Mittel auf einer Bundesstraße mit erlaubten 100 km/ h ist nahezu vernachlässigbar, insbesondere unter dem Aspekt, dass die geringen Abweichungen innerhalb der Fehlertoleranz der Messgeräte liegen könnten. Bei einer Analyse der Datenverteilung fällt auf, dass die Ausreißer bei einem maximalen Abweichungsfaktor von 6,35 in einer vergleichsweise kleinen Menge (2 %) nach oben und unten relativ gleich verteilt sind. Dies ist erkenntlich in Bild-6 [5]. Das einfache arithmetische Mittel ist unter Umständen ausreichend aussagekräftig. Sind hingegen viele, stark abweichende und ungleichverteilte Ausreißer im Datensatz vorhanden, empiehlt sich die Verwendung der entfernungsbedingten Gewichtung. Weicht allerdings - wie im Bill-Gates-Beispiel (Abweichungsfaktor rund 55) - der Ausreißer sehr extrem von den übrigen Daten ab, sollte darüber nachgedacht werden, ob dieser Wert repräsentativ für den Datensatz ist und nicht gegebenenfalls gestrichen werden sollte. Gewichtetes arithmetisches Mittel: x- gew = 1 ∑ ni = 1 G i ∑ ni = 1 x i G i (3) Fazit Während der Median kaum bis gar nicht von Ausreißern beeinlusst wird, ist das arithmetische Mittel nicht „robust“ gegenüber diesen. Dennoch ist es die Methode, die den sinnvollsten Durchschnittswert liefert. Die Wahl der richtigen Berechnungsmethode ist daher essentiell. Sie hängt von der Anzahl der Werte, der Anzahl der Ausreißer und deren Lage ab. Je geringer die Gesamtanzahl der Daten, desto wichtiger wird die richtige Wahl der Gewichtungsmethode, da einzelne Werte einen stärkeren Einluss auf das Ergebnis haben. Welches Verfahren im tatsächlichen Fall angemessen ist, muss daher zunächst überprüft werden. In der Praxis werden Ausreißer hauptsächlich zu Analysezwecken identiiziert und auf ihre Richtigkeit geprüft. Werte werden je nach - meist subjektiver - Plausibilität gestrichen oder vollständig in Berechnungen einbezogen. Für welche Identiikationsmethode und Mittelwertberechnung man sich letzten Endes entscheidet, hängt immer vom jeweiligen Datensatz und dem konkreten Erkenntnisinteresse bei der Datenauswertung ab. Für die Daten der Landstraße hat sich gezeigt, dass es aufgrund der großen Anzahl an Messdaten kaum Auswirkungen auf die ermittelte Durchschnittsgeschwindigkeit gibt. Auf jeden Fall sollte der Hinweis auf eine natürliche Variabilität dennoch Veranlassung genug sein, Ausreißer generell in die Betrachtung einzubeziehen. Am Beispiel der Verkehrsteilnehmer ist erkenntlich, dass es sich, obwohl die einzelnen Werte teilweise stark voneinander abweichen (Ausreißer-Wert von z. B. 54 oder 143 km/ h), um keine „Alien“-Beobachtung handelt. ■ LITERATUR: [1] Buttler, G.: Ein einfaches Verfahren zur Identiikation von Ausreißern bei multivariaten Daten, Nürnberg, 1996, http: / / www.statistik.wiso.uni-erlangen.de/ forschung/ d0009. pdf.; Zugrif am 18.09.2014. [2] Barnett, V.; Lewis, T.: Outliners in Statistical Data, 3. Aulage, Chichester, John Welly & Sons, 1994, S. 7. [3] Kiechle, A.: Boxplots und Ausreißer Tests, 2004, http: / / www.rosuda.org/ lehre/ WS04/ SeminarPFDs/ Boxplots-Ausreisser.pdf; Zugrif am 04.08.2014. [4] Milchkontrollverband Elbe-Weser e.V: Die Berechnung der bezahlungsrelevanten Mittelwerte (robust gewichteter Mittelwert), Verden http: / / www.milchkontrolle.de/ Binaries/ Binary2141/ Berechnung_des_robusten_Mittel wertes.pdf, Zugrif am 01.07.2014. [5] Krummenauer, F.: Boxplots - die lexible Alternative zum „Antennen-Bildchen“. zzi | Deutschen-Ärzte-Verlag Köln (2007), 23, S. 308-309. Carsten Hilgenfeld, Dipl.-Ing. (FH), M.Sc. Hochschule Wismar, Bereich Seefahrt Wissenschaftlicher Mitarbeiter carsten.hilgenfeld@hs-wismar.de Ute Schreiber, Dr. rer. nat. Hochschule Wismar, Bereich Seefahrt Professur für Angewandte Mathematik/ Informatik und Grundlagen der Elektrotechnik ute.schreiber@hs-wismar.de Laura Vetter, B.Sc. Hochschule Wismar, Fakultät für Wirtschaftswissenschaften Masterstudentin vetter.tal@t-online.de
