Mathematik für Wirtschaftswissenschaften
0415
2019
978-3-8385-8758-5
978-3-8252-8758-0
UTB
Ingolf Terveer
Das Wirtschaftsstudium mit Mathe erfolgreich meistern!
Wer sich für ein Studium der Wirtschaftswissenschaften entscheidet, sollte die Mathematik beherrschen. Die 4. Auflage dieses Buches stellt genau die Begriffe und Methoden der Linearen Algebra und Analysis mehrerer
Variablen dar, die Studierende im Verlauf des Studiums benötigen.
Bei der Vermittlung des Stoffs wird großer Wert auf den Anwendungsbezug gelegt. Pro Kapitel festigen Zusammenfassungen und Aufgaben die Kenntnisse der Studierenden und bereiten ideal auf die Prüfung vor.
<?page no="1"?> Eine Arbeitsgemeinschaft der Verlage Böhlau Verlag · Wien · Köln · Weimar Verlag Barbara Budrich · Opladen · Toronto facultas · Wien Wilhelm Fink · Paderborn Narr Francke Attempto Verlag · Tübingen Haupt Verlag · Bern Verlag Julius Klinkhardt · Bad Heilbrunn Mohr Siebeck · Tübingen Ernst Reinhardt Verlag · München Ferdinand Schöningh · Paderborn Eugen Ulmer Verlag · Stuttgart UVK Verlag · München Vandenhoeck & Ruprecht · Göttingen Waxmann · Münster · New York wbv Publikation · Bielefeld utb 85 0 6 <?page no="3"?> Ingolf Terveer Mathematik für Wirtschaftswissenschaften 4., überarbeitete und erweiterte Auflage UVK Verlag · München <?page no="4"?> Dr. Ingolf Terveer ist Akademischer Oberrat am Institut für Wirtschaftsinformatik der Westfälischen Wilhelms-Universität Münster. Zusatzmaterialien zum Buch finden Sie auf Titelebene unter utb-shop.de! Online-Angebote oder elektronische Ausgaben sind erhältlich unter www.utb-shop.de Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http: / / dnb.ddb.de> abrufbar. Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außer-halb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. © UVK Verlag 2019 - ein Unternehmen der Narr Francke Attempto Verlag GmbH & Co. KG Lektorat: Rainer Berger, München Einbandgestaltung: Atelier Reichert, Stuttgart Einbandmotiv: © franckreporter - iStock Druck und Bindung: CPI - Clausen & Bosse, Leck UVK Verlag Nymphenburger Str. 48 80335 München Telefon: 089/ 452174-66 Narr Francke Attempto Verlag GmbH & Co. KG Dischingerweg 5 72070 Tübingen Telefon: 07071/ 9797-0 www.narr.de UTB-Nr. 8506 ISBN 978-3-8252-8758-0 <?page no="5"?> Inhalt Vorwort 9 1 Lineare Gleichungssysteme 15 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1 Lineare Eingabe-Ausgabe-Beziehungen in der Wirtschaft . . . . . . . . . 15 1.2 Lineare Gleichungssysteme in zwei Variablen . . . . . . . . . . . . . . . 20 1.3 Das Gauß’sche Eliminationsverfahren . . . . . . . . . . . . . . . . . . . . 24 1.3.1 Zeilenumformungen eines LGS . . . . . . . . . . . . . . . . . . . 25 1.3.2 Die Staffelform eines LGS . . . . . . . . . . . . . . . . . . . . . . 26 1.3.3 Die Zeilenstufenform eines LGS . . . . . . . . . . . . . . . . . . . 29 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2 Lineare Optimierung 33 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.1 Probleme der linearen Optimierung, Beispiele . . . . . . . . . . . . . . . 34 2.1.1 Optimaler Verbrauch von Rohstoffen . . . . . . . . . . . . . . . . 34 2.1.2 Transportprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.1.3 Zuordnungsprobleme . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2 Standardform eines LOP . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3 Simplex-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.3.1 Beispiel mit einer freien Variable . . . . . . . . . . . . . . . . . . 38 2.3.2 Simplex-Tableau . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.3.3 Basiswechsel mit einer freien Variablen . . . . . . . . . . . . . . . 42 2.3.4 Basiswechsel mit mehreren freien Variablen . . . . . . . . . . . . 44 2.3.5 Schematische Darstellung des Simplex-Verfahrens . . . . . . . . . 48 2.3.6 Diskussion des Verfahrens . . . . . . . . . . . . . . . . . . . . . . 49 2.4 Zweiphasenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.5 Softwaregestützte Lösung linearer Optimierungsprobleme . . . . . . . . 55 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3 Vektoren in der Ökonomie 59 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.1 Vektoren und Operationen mit Vektoren . . . . . . . . . . . . . . . . . . 59 3.1.1 Elementare Operationen mit Vektoren . . . . . . . . . . . . . . . 61 3.1.2 Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.2 Koordinatensysteme und Linearkombinationen . . . . . . . . . . . . . . 65 3.3 Untervektorraum und Basis . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.3.1 Gewinnung einer Basis aus einem Erzeugendensystem . . . . . . 77 3.3.2 Basisbestimmung für Lösungsmengen homogener linearer Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 3.4 Längen und Winkel: Geometrie mit Vektoren . . . . . . . . . . . . . . . 82 3.5 Abstandsmessung, Projektionen und KQ-Methode . . . . . . . . . . . . 89 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 <?page no="6"?> 6 Inhalt 4 Matrizen in der Ökonomie 101 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.1 Matrix-Vektor-Verflechtungen . . . . . . . . . . . . . . . . . . . . . . . . 101 4.2 Matrix-Matrix-Verflechtungen . . . . . . . . . . . . . . . . . . . . . . . . 105 4.3 Quadratische Matrizen und Inversion von Matrizen . . . . . . . . . . . . 110 4.4 Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 4.4.1 Berechnung der Determinante mittels Zeilenumformungen . . . . 118 4.4.2 Laplace -Entwicklungsformel für Determinanten . . . . . . . . . 121 4.4.3 Strategien zur Berechnung von Determinanten . . . . . . . . . . 122 4.4.4 Anwendungen der Determinante . . . . . . . . . . . . . . . . . . 123 4.5 Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . 124 4.5.1 Bestimmung von Eigenwerten und Eigenvektoren . . . . . . . . . 126 4.5.2 Eigenwerte bei symmetrischen Matrizen . . . . . . . . . . . . . . 128 4.6 Anwendungen der Matrizenrechnung . . . . . . . . . . . . . . . . . . . . 130 4.6.1 Input-Output-Analysen und Leontief-Modelle . . . . . . . . . . . 131 4.6.2 Übergangsmatrizen und Markoff-Ketten . . . . . . . . . . . . . . 133 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5 Folgen und Reihen 141 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 5.1 Folgen, explizit versus implizit . . . . . . . . . . . . . . . . . . . . . . . 142 5.2 Konvergenz von Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 5.2.1 Grenzwertbestimmung bei expliziten Folgen . . . . . . . . . . . . 147 5.2.2 Grenzwertbestimmung bei impliziten Folgen . . . . . . . . . . . . 149 5.2.3 Nachweismöglichkeiten für Konvergenz . . . . . . . . . . . . . . . 150 5.2.4 Konvergenz im R n . . . . . . . . . . . . . . . . . . . . . . . . . . 152 5.3 Summenfolgen, unendliche Reihen und Potenzreihen . . . . . . . . . . . 154 5.3.1 Summenfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 5.3.2 Unendliche Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . 156 5.3.3 Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 5.3.4 Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . 159 5.4 Gleichgewichte bei Marktpreisen . . . . . . . . . . . . . . . . . . . . . . 161 5.5 Finanzmathematische Folgen und Reihen . . . . . . . . . . . . . . . . . 164 5.5.1 Zinseszinsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . 165 5.5.2 Rentenrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 5.5.3 Annuitätenrechnung . . . . . . . . . . . . . . . . . . . . . . . . . 167 5.5.4 Barwert und Endwert . . . . . . . . . . . . . . . . . . . . . . . . 167 5.5.5 Kapitalwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 6 Differentialrechnung 171 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 6.1 Funktionen mehrerer Variablen . . . . . . . . . . . . . . . . . . . . . . . 172 6.1.1 Definitionsbereiche für Funktionen mehrerer Variablen . . . . . . 172 6.1.2 Lineare und quadratische Funktionen mehrerer Variablen . . . . 174 6.1.3 Grenzwerte von Funktionen mehrerer Variablen . . . . . . . . . . 175 6.1.4 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . 176 6.2 Funktionen mehrerer Variablen in der Ökonomie . . . . . . . . . . . . . 178 6.2.1 Lineare Funktionen mehrerer Variablen in der Ökonomie . . . . . 178 <?page no="7"?> Inhalt 7 6.2.2 Nachfragefunktionen in mehreren Variablen . . . . . . . . . . . . 179 6.2.3 Produktionsfunktionen in mehreren Variablen . . . . . . . . . . . 182 6.2.4 Homogene Funktionen in der Ökonomie . . . . . . . . . . . . . . 184 6.3 Ableitungskonzepte für Funktionen mehrerer Variablen . . . . . . . . . . 186 6.3.1 Die partielle Ableitung . . . . . . . . . . . . . . . . . . . . . . . . 186 6.3.2 Das Differential . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 6.3.3 Ableitungsregeln für Funktionen mehrerer Variablen . . . . . . . 195 6.4 Ableitungskonzepte auf Grundlage des Differentials . . . . . . . . . . . . 197 6.4.1 Richtungsableitung . . . . . . . . . . . . . . . . . . . . . . . . . . 198 6.4.2 Elastizitäten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 6.4.3 Implizite Ableitungen und ihre Anwendungen . . . . . . . . . . . 204 6.5 Ableitungen zweiter Ordnung für Funktionen mehrerer Variablen . . . . 212 6.5.1 Die Hesse-Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 6.5.2 Krümmung impliziter Funktionen . . . . . . . . . . . . . . . . . . 216 6.5.3 Konvexe Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . 217 6.6 Integrale für Funktionen mehrerer Variablen . . . . . . . . . . . . . . . . 224 6.6.1 Volumenintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 6.6.2 Integrationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . 226 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 7 Optimierungsaufgaben 231 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 7.1 Optimierungsaufgaben ohne Nebenbedingungen . . . . . . . . . . . . . . 231 7.1.1 Bestimmung kritischer Punkte . . . . . . . . . . . . . . . . . . . 232 7.1.2 Hinreichende Bedingungen für lokale Extrema . . . . . . . . . . . 235 7.1.3 Optimierung konvexer Funktionen . . . . . . . . . . . . . . . . . 237 7.1.4 Numerische Optimierung mit dem Gradientenabstiegsverfahren . 240 7.1.5 Numerische Optimierung mit dem Newton-Verfahren . . . . . . . 241 7.2 Optimierung unter Nebenbedingungen . . . . . . . . . . . . . . . . . . . 243 7.2.1 Optimierung bei einer Nebenbedingung in Gleichungsform . . . . 245 7.2.2 Optimierung bei m Gleichungs-Nebenbedingungen . . . . . . . . 251 7.2.3 Optimierung unter einer Ungleichungsrestriktion . . . . . . . . . 253 7.2.4 Optimierung unter k Ungleichungsbedingungen . . . . . . . . . . 255 7.3 Hinreichende Bedingungen für Extrema . . . . . . . . . . . . . . . . . . 260 7.3.1 Hinreichende Bedingungen für lokale Extrema unter Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . 261 7.3.2 Nachweis der Optimalität durch Randwertvergleich . . . . . . . . 264 7.3.3 Optimierung konvexer Funktionen unter Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . 270 7.4 Komparative Statik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 7.4.1 Ein Verbrauchsproblem . . . . . . . . . . . . . . . . . . . . . . . 275 7.4.2 Das Envelope-Theorem . . . . . . . . . . . . . . . . . . . . . . . 277 7.4.3 Ein Kostenproblem . . . . . . . . . . . . . . . . . . . . . . . . . . 280 7.4.4 Das Theorem impliziter Funktionen . . . . . . . . . . . . . . . . 282 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 Übungsklausuren 285 Klausur 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 Klausur 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 <?page no="8"?> Inhalt Klausur 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 Kontrollergebnisse zu den Übungsaufgaben 291 Kontrollergebnisse zu den Übungsklausuren 303 Abbildungen 305 Tabellen 307 Symbole und Abkürzungen 309 Das griechische Alphabet 311 Literatur 313 Index 315 <?page no="9"?> Vorwort Vorwort zur vierten Auflage Mit dem neuen Kapitel über Lineare Optimierung (Simplex-Algorithmus, Zweiphasenmethode) weist die vierte Auflage eine größere Erweiterung auf. Hierzu wurden auch die Übungsklausuren angepasst. Im Detail gibt es zudem noch in folgenden Teilen inhaltliche Änderungen: In Kapitel 4.4 wird die Leibniz-Regel anhand von 3 × 3-Matrizen erklärt und nachfolgend genutzt, um die Determinantenregeln bei Zeilenumformungen zu erläutern. Kapitel 5.5 enthält nun eine kurze Herleitung der Grenzwertformel für die stetige Verzinsung. In Kapitel 7.4 wurden einige Beispiele ersetzt, insbesondere das einführende Beispiel zum Envelope-Theorem in Abschnitt 7.4.1. Gegenüber der dritten Auflage wurden einige Textpassagen überarbeitet und gestrafft. Die Übungsaufgaben werden in einem zweispaltigen Format dargestellt. Matrizen haben nun runde anstelle eckiger Klammern. Die beim Übergang von der zweiten zur dritten Auflage mit entstandenen Tippfehler sind in der vierten Auflage - soweit sie entdeckt wurden - beseitigt, weitere hoffentlich nicht hinzugekommen. Dazu haben in der Schlussphase der Überarbeitung folgende Personen Korrektur gelesen, aber auch noch inhaltliche Hinweise gegeben: Lea Adelbert, Friedrich Bach, Tim Brockmann, Luca Daniel, Florian Deters, Frederik Huhmann, Tim Nagels und Joshua Sumpmann. Ihnen danke ich für diese Hilfe herzlich. Was noch an Fehlern verblieben ist, liegt natürlich wie immer beim Autor. Münster, im Februar 2019 Ingolf Terveer <?page no="10"?> Vorwort Vorwort zur dritten Auflage In der dritten Auflage wurden größere „Umbauten“ vorgenommen. Anlass ist vor allem der von meiner Frau Susanne und mir verfasste und 2011 bei UTB erschienene „Analysis-Brückenkurs für Wirtschaftswissenschaften“. Darin wird die schulische Analysis einer Variablen ausführlich wiederholt und an die Bedürfnisse der Wirtschaftswissenschaften angepasst. Daher habe ich mich entschlossen, diese Inhalte im vorliegenden Werk als bekannt vorauszusetzen und nicht aufzunehmen. Statt dessen werden die übrigen Themen breiter und mit mehr Beispielen behandelt. In der linearen Algebra ist vor allem der Abschnitt über Vektoren recht umfassend neugestaltet worden, die Konzepte Linearkombination, lineare Unabhängigkeit und Basis wurden deutlicher herausgestellt; zudem findet sich in diesem Kapitel jetzt auch ein Abschnitt über Projektionen. Das Thema Folgen und Reihen wurde um spezifische Aspekte der Finanzmathematik ergänzt. Nach dem Wegfall der Schul-Analysis fand der Abschnitt über Differentialrechnung die umfangreichsten Änderungen - beginnend bei einer ausführlichen ökonomischen Einordnung des Begriffs „Funktion mehrerer Variablen“ bis zur Ausweitung der Darstellung impliziter Ableitungen. Bei der Optimierung ohne Nebenbedingungen finden Sie jetzt eine kurze Darstellung numerischer Verfahren; bei der Optimierung unter Nebenbedingungen schließlich illustrieren mehr typische Beispiele die Herangehensweise beim Randwertvergleich. Neben dem größeren Format dürfte beim Layout vor allem die Verwendung von Farben zur Hervorhebung in Beispielen, Definitionen ( ! ), Sätzen, Merksätzen und Schaubildern/ Funktionsgraphen auffallen. Hier danke ich dem Verlag, namentlich Herrn Rainer Berger, für zahlreiche wertvolle Hinweise. Die Aufgaben wurden überarbeitet, ergänzt und finden sich jetzt nach jedem Abschnitt, hervorgehoben durch ? . Wenn Sie den Stoffdes Buches systematisch erarbeiten wollen, so empfehle ich Ihnen, die Aufgaben eines jeden Abschnittes zunächst weitgehend zu lösen, bevor Sie den nächsten Abschnitt angehen. Einige Kapitel schließen zusätzlich mit vertiefenden Aufgaben. Ausführliche Lösungen sind im Web-Auftritt zum Buch verfügbar, kürzere Kontrollergebnisse finden Sie im Anhang ebenso wie drei Übungsklausuren. Münster, im Oktober 2012 Ingolf Terveer <?page no="11"?> Vorwort Vorwort zur zweiten Auflage Mit der erneuten Auflage des Lehrbuches wurde einige Themen aus Kapitel 6 (Folgen und Reihen) zugunsten einer ausführlicheren Behandlung von Gleichgewichtspreisen beschnitten. Damit verbunden findet sich in Kapitel 7 jetzt eine kurze Einführung in die Wohlfahrtsrechnung als Anwendung der Integralrechnung. Kapitel 8 behandelt die Optimierung unter Nebenbedingungen jetzt in einer organischeren Form: zunächst werden die notwendigen Bedingungen behandelt, so dass der Einstieg in die Lagrange- Methode etwas einfacher fallen sollte; die komplizierteren hinreichenden Bedingungen wurden in einem anschließenden Abschnitt zusammengefasst; das Konzept des Randwertvergleichs wurde dabei auf ökonomische Standardsituationen abgestimmt. Neben den etwas gestrafften Übungsaufgaben finden Sie nun drei Übungsklausuren, die jeweils den Inhalt des Buches abdecken und für eine Klausurdauer von 120 bis 180 Minuten konzipiert sind. Die Layoutwünsche des Verlages wurden noch weiter umgesetzt, etwa in Form von Kapitelzusammenfassungen und einer einheitlicheren Verweisform. Dem Symbolverzeichnis folgt zudem eine Übersicht über das griechische Alphabet, das zuweilen in Formeln verwendet wird. Last but not least habe ich etliche Hinweise - in den meisten Fällen auf typografische Unzulänglichkeiten, aber auch auf ein paar ernstere Fehler - erhalten. Den zahlreichen Hinweisgebern, namentlich Herrn Dr. Mirko Kraft, sei an dieser Stelle für ihre Hilfe herzlich gedankt. Münster, im August 2007 Ingolf Terveer <?page no="12"?> Vorwort Vorwort zur ersten Auflage Dieses Lehrbuch richtet sich an Sie, die Studienanfängerinnen und -anfänger der Wirtschaftswissenschaften. Es ist aus Vorlesungen entstanden, die ich an der Universität Münster für Erstsemester im Fachbereich Wirtschaftswissenschaften halte, und behandelt die Grundlagen der linearen Algebra und der Analysis mit der Ausrichtung auf wirtschaftliche Anwendungen, wie sie in einer einbis zweisemestrigen Veranstaltung vermittelt werden. Die gewählte Darstellung folgt der Systematik der vorgestellten Begriffe und Methoden: So kann die Optimierung nicht ohne den Ableitungs-Kalkül für Funktionen mehrerer Variablen auskommen. Dieser wiederum baut auf Vektoren, Matrizen und Folgen auf, die auch ohne den Kontext der Differentialrechnung schon wichtige Bausteine in der Ökonomie sind. Grundlegend für die meisten genannten Bereiche sind Lösungsmethoden für lineare Gleichungssysteme. Liest man diese Aneinanderreihung in umgekehrter Reihenfolge, so ergibt sich unmittelbar die Gliederung des Buches. Nach jedem Abschnitt finden Sie zur Vertiefung zahlreiche Übungsaufgaben, von denen einige als klausurtypisch gekennzeichnet sind. Weiter hinten können Sie Lösungshinweise nachschlagen; aber bringen Sie sich nicht vorschnell um das gute Gefühl, von selbst auf eine Lösung gekommen zu sein. Die Konzeption und Abfassung dieses Lehrbuches wäre ohne tatkräftige Hilfe von vielen Seiten nicht möglich gewesen. Vor allem danke ich Professor Dr. Ulrich Müller-Funk und Dr. Ulrich Kathöfer für zahlreiche fruchtbare Diskussionen über die Themenwahl und -ausgestaltung. In der Schlussphase haben Duc Khiem Huynh, Hermann Linder, Kerstin Schmidt, Jan Carl Stegert und Christian Wirtz Korrektur gelesen. Was an Fehlern noch übrig sein sollte, habe natürlich ich zu verantworten. Dem Verlag, namentlich Frau Preimesser und Frau Vogel, danke ich für die überaus gute Zusammenarbeit und zahlreiche Anregungen zum Layout. Bei der Manuskripterstellung mit L A TEX war mir das KOMA-Script-Paket von Markus Kohm eine große Hilfe. Dennoch ist gerade die Schlussphase sehr zeitaufwändig gewesen. Mein besonderer Dank gilt daher meiner Familie, vor allem meiner Frau Susanne, die mir in dieser Zeit den Rücken frei gehalten hat. Münster, im August 2005 Ingolf Terveer <?page no="13"?> Lineare Wirtschaftsalgebra <?page no="15"?> 1 Lineare Gleichungssysteme Übersicht Lineare Gleichungssysteme (LGS) stellen sich ganz allgemein dar mittels Unbekannten/ Variablen x 1 , . . . , x n , deren Werte zu bestimmen sind. m Gleichungen der Form a 1 x 1 + · · · + a n x n = b, wobei die Werte a 1 , . . . , a n und b in jeder der Gleichungen fest vorgegeben sind. In den Wirtschaftswissenschaften werden viele Fragestellungen direkt mit Hilfe linearer Gleichungssysteme modelliert und gelöst. Die Behandlung linearer Gleichungssysteme ist zudem Grundlage der linearen Optimierung. Schließlich treten lineare Gleichungssysteme im Hintergrund fast aller Fragestellungen der linearen Algebra auf, z.B. bei der Beschreibung von Koordinatensystemen, bei der Matrixinversion und im Rahmen der Berechnung von Eigenvektoren. Zu Beginn besprechen wir typische betriebswirtschaftliche Anwendungssituationen für lineare Gleichungssysteme bis hin zur Grundfragestellung der linearen Optimierung vgl. Abschnitt 1.1, S. 15 . Anschließend wird der Fall von zwei linearen Gleichungen in zwei Unbekannten diskutiert vgl. Abschnitt 1.2, S. 20 . Zur Lösung allgemeiner linearer Gleichungssysteme wird danach das Gauß’sche Eliminationsverfahren vgl. Abschnitt 1.3, S. 24 besprochen. Dabei werden Zeilenumformungen als Transformationen des Gleichungssystems behandelt, welche die Lösungsmenge nicht verändern. Die Lösungsmenge ergibt sich schließlich aus der so genannten Zeilenstufenform eines linearen Gleichungssystems der Form, dass ein Teil der Variablen prinzipiell frei wählbar ist, während die übrigen Variablen jeweils in genau einer der verbliebenen Gleichungen auftreten und frei gestellt sind. 1.1 Lineare Eingabe-Ausgabe-Beziehungen in der Wirtschaft Fragestellungen der Ökonomie betreffen häufig Zusammenhänge der Form Input x −−−−−−→ BLACK BOX Output y −−−−−−−−→ zwischen ökonomischen Größen x, y. Die Begriffe „Input“ und „Output“ können im eigentlich produktionstechnischen Sinn gemeint sein, d.h. Produktionsfaktoren (z.B. Rohstoffe) und Produktionserträge bezeichnen. Viel allgemeiner wird die Darstellung für jede Konstellation verwendet, in der durch die ökonomische Größe x eine eindeutige Festlegung der ökonomischen Größe y erfolgt. Überdies kann in Form der Symbole x und y eine Bündelung mehrerer ökonomischer Größen als Profile vorliegen. Der „Black Box“ liegen sachlogische, mitunter technische Zusammenhänge zugrunde, deren Verständnis zwar hilfreich, aber für das eigentliche ökonomische Problem meist <?page no="16"?> 16 1 Lineare Gleichungssysteme Produkt Bill 1 Bill 2 Bill 3 Bill 4 Kosten 5 e 6 e 10 e 12 e Stückliste: Bestand Regalträger 2 3 4 5 300 Querstangen 1 1 2 4 130 Regalböden 5 10 15 20 1000 Montagestifte 20 40 60 80 ausreichend vorhanden Tabelle 1.1: Ausgangsdaten des Regal-Verpackungsproblems gar nicht unmittelbar erforderlich ist. Wesentlich ist, dass ein rechnerischer Zusammenhang zwischen x und y hergestellt werden kann. Dieser Zusammenhang wird mit Hilfe von mathematischen Funktionen f mathematisch modelliert. Durch f wird dabei jedem Input x eindeutig ein rechnerischer Output y = f(x) zugeordnet. Die lineare Wirtschaftsalgebra versucht, Input-Output-Zusammenhänge der oben beschriebenen Art - wenn möglich - durch eine lineare Funktion f zu beschreiben. Das ist in vielen Bereichen der Wirtschaftswissenschaften möglich: Produkt-Rohstoff-Verflechtung: verschiedenen Produkten eines werden die benötigten Rohstoffe in Form von Teilelisten zugewiesen. Rohstoff-Produkt-Verflechtung: mittels „Rezepturen“ wird Rohstoffen ein Produkt- Mix zugewiesen. Beispiele hierfür sind Verschnittprobleme. Kostenmodelle: Variable Kosten für die Herstellung eines Produktes folgen oft einem linearen Ansatz. Modelle für Marktanteile: der Markt für ein Produkt ist in der Regel auf verschiedene Anbieter aufgeteilt. Zwischen den Marktanteilen sukzessiver Verkaufsperioden lassen sich oft lineare Zusammenhänge begründen. Sektoren-Verflechtungsmodelle: ein Spezialfall der Produkt-Rohstoff-Verflechtung, bei dem die gegenseitig benötigten Dienstleistungen verschiedener Wirtschaftssektoren wechselseitig linear verrechnet werden. Häufig sucht man in einem solchen Verflechtungsansatz zu einem Output y nach dem dafür „ursächlichen“ Input x. Dies entspricht mathematisch der Lösung der Gleichung y = f(x) in der Unbekannten x. Wenn Input und Output nicht nur einzelne Größen, sondern ganze Profile ökonomischer Größen sind, so liegt für jede Komponente des Profils y eine Gleichung, d.h. insgesamt ein System von Gleichungen vor. Unabhängig hiervon kann man bei der Lösbarkeit zwischen zwei Fällen unterscheiden: Falls f eine Umkehrfunktion f − 1 hat und y ∈ W f , d.h. im Wertebereich von f liegt, lautet die Lösung x = f − 1 (y). Nicht immer ist die Umkehrfunktion explizit angebbar. Bei nicht invertierbarer Funktion f hat die Gleichung bzw. das Gleichungssystem f(x) = y oft mehrere (ggf. unendlich viele) Lösungen. Unter diesen suchen Ökonomen stets die in einem von ihnen geeignet gewählten Sinne ökonomisch vorteilhafteste. Beispiel 1.1 (Produkt-Rohstoff-Verflechtung) Die Ikebau-GmbH stellt Massivholz-Regale der Marke „Bill“ her. Es sind vier verschiedene Bausätze im Sortiment, die jeweils aus verschiedenen Anzahlen Regalträgern und <?page no="17"?> 1.1 Lineare Eingabe-Ausgabe-Beziehungen in der Wirtschaft 17 Regaltyp B1 Tr¨ager Regaltyp B2 Querstange Regaltyp B3 Boden Regaltyp B4 Montagestift 2 1 5 20 3 1 10 40 4 2 15 60 5 4 20 80 Abbildung 1.1: Gozintograph des Regal-Verpackungsproblems -böden, Montagestiften und Querstangen (zur Stabilisierung der Regale) dienen. Die Zusammensetzung der Regale aus diesen Bauteilen wird üblicherweise in Form einer Teileliste oder als Gozintograph wie in Abbildung 1.1 angegeben. Das Unternehmen will unter vollständiger Verpackung der lagerständigen Bauteile und vollständigem Verkauf der Bausätze einen möglichst niedrige Gesamtkosten erzielen. Lagerbestand, Teiletabellen und Verpackungskosten der vier Regaltypen gibt Tabelle 1.1 vgl. S. 16 . Bei Räumung des Lagers - mit Ausnahme der Montagestifte - müssen die zu produzierenden Anzahlen x j der vier Regalbausätze das Gleichungssystem 2x 1 + 3x 2 + 4x 3 + 5x 4 = 300 x 1 + x 2 + 2x 3 + 4x 4 = 130 5x 1 + 10x 2 + 15x 3 + 20x 4 = 1000 lösen. Zusätzlich müssen x 1 , . . . , x 4 ≥ 0 und ganzzahlig sein. Da es mehrere Lösungen dieses Gleichungssystems gibt, liegt das eigentliche Ziel im Auffinden der kostengünstigsten Lösung, d.h. in der Minimierung der Gesamtkosten 5x 1 + 6x 2 + 10x 3 + 12x 4 unter den Lösungen des Gleichungssystems. Realistischer ist zusätzlich noch die folgende Annahme: Alle Lösungen, zu deren Herstellung die Rohstoffquantitäten ausreichen, müssen in Betracht gezogen werden. Es müssen also nicht alle Bauteile komplett aufgebraucht werden. In diesem Fall ist das <?page no="18"?> 18 1 Lineare Gleichungssysteme ergibt Anzahl 1 Rolle D (95 cm) mit Schnittmuster Rollen vom Typ 1 2 3 4 5 6 A (60 cm) 1 1 0 0 0 0 B (30 cm) 1 0 3 2 1 0 C (20 cm) 0 1 0 1 3 4 Verschnitt 5 15 5 15 5 15 Tabelle 1.2: Schnittmöglichkeiten im Beispiel 1.2 Ungleichungssystem 2x 1 + 3x 2 + 4x 3 + 5x 4 ≤ 300 x 1 + x 2 + 2x 3 + 4x 4 ≤ 130 5x 1 + 10x 2 + 15x 3 + 20x 4 ≤ 1000 zu lösen. Man formt dieses in ein Gleichungssystem um, indem diejenigen Bauteilquantitäten, die nicht verpackt werden, als so genannte Schlupfvariablen x 5 , x 6 , x 7 ≥ 0 in die Ungleichungen integriert werden. Hierdurch werden die Ungleichungen zu - leichter zu handhabenden - Gleichungen: 2x 1 + 3x 2 + 4x 3 + 5x 4 + x 5 = 300 x 1 + x 2 + 2x 3 + 4x 4 + x 6 = 130 5x 1 + 10x 2 + 15x 3 + 20x 4 + x 7 = 1000 Nach wie vor lautet der Deckungsbeitrag 65x 1 + 120x 2 + 170x 3 + 230x 4 und ist zu maximieren. Die Schlupfvariablen finden nur mittelbar, d.h. über die linearen Verflechtungsgleichungen Eingang in die Optimierung. Beispiel 1.2 (Verschnittproblem, Rohstoff-Produkt-Verflechtung) Papierrollen der Breiten 60 cm (Typ A), 30 cm (Typ B) und 20 cm (Typ C) sollen aus Rollen der Breite 95 cm (Typ D) durch Zurechtschneiden hergestellt werden. Dies ist auf sechs Arten mit unbrauchbarem Verschnitt möglich, wie in Tabelle 1.2 dargestellt wird. Aufgrund einer Bestellung müssen exakt 1440 Rollen vom Typ A, 2160 Rollen vom Typ B und 1080 Rollen vom Typ C hergestellt werden. Für diese Bestellung will man eine kostenoptimale Schnittmuster-Vorschrift angeben, d.h. Schnittanzahlen x 1 , x 2 , . . . , x 6 der sechs Muster, die zum einen folgendes Gleichungssystem lösen x 1 + x 2 = 1440 x 1 + 3x 3 + 2x 4 + x 5 = 2160 x 2 + x 4 + 3x 5 + 4x 6 = 1080 zum anderen aber unter den zulässigen Lösungen dieses Gleichungssystems eine minimale Anzahl von Rollen x 1 + x 2 + x 3 + x 4 + x 5 + x 6 verbrauchen. Dass die Lösung zusätzlich ganzzahlig sein muss, soll hier nicht berücksichtigt werden. Realistischer ist zudem die Annahme, dass mehr als die geforderten Rollenanzahlen der Typen A,B,C hergestellt werden dürfen. Gesucht ist dann eine kostenoptimale Lösung von x 1 + x 2 ≥ 1440 x 1 + 3x 3 + 2x 4 + x 5 ≥ 2160 x 2 + x 4 + 3x 5 + 4x 6 ≥ 1080 <?page no="19"?> 1.1 Lineare Eingabe-Ausgabe-Beziehungen in der Wirtschaft 19 Transformation in Gleichungen mittels Schlupfvariablen x 7 ≥ 0, x 8 ≥ 0, x 9 ≥ 0 (die jeweils angeben, um wieviel die Bestellmengen von den Produktionsmengen überschritten werden) ergibt das Gleichungssystem x 1 +x 2 − x 7 = 1440 x 1 +3x 3 +2x 4 +x 5 − x 8 = 2160 x 2 +x 4 +3x 5 +4x 6 − x 9 = 1080 wobei nach wie vor x 1 + x 2 + x 3 + x 4 + x 5 + x 6 zu minimieren ist. Definition 1.1 ! [1] Ein Gleichungssystem a 11 x 1 + a 12 x 2 + . . . + a 1n x n = b 1 a 21 x 1 + a 22 x 2 + . . . + a 2n x n = b 2 ... ... ... ... a m1 x 1 + a m2 x 2 + . . . + a mn x n = b m ⎫ ⎪ ⎪ ⎬ ⎪ ⎪ ⎭ ( ∗ ) mit a ij ∈ R , b i ∈ R , i = 1, . . . , m, j = 1, . . . , n, m ∈ N , n ∈ N , heißt lineares Gleichungssystem mit m Gleichungen und n Variablen (Unbekannten) (kurz: LGS). [2] Falls b 1 = . . . = b m = 0, so heißt das LGS homogen, andernfalls inhomogen. [3] Unter einer Lösung des linearen Gleichungssystems ( ∗ ) versteht man ein n-Tupel (x 1 , . . . , x n ) von n reellen Zahlen, das ( ∗ ) erfüllt. Die Lösungsmenge L ist die Menge aller Lösungen von ( ∗ ). Übungen zu Abschnitt 1.1 ? 1. Ein Funktionssteckbrief besteht aus Werte-Angaben zu einem Polynom f. Dessen Koeffizienten lassen sich dann mit Hilfe eines LGS ermitteln. Stellen Sie für die folgenden Steckbriefe das LGS auf: Grad Steckbrief a) 1 f(2) = 4, f(3) = 0 b) 2 f(2) = 4, f(3) = 0, f(4) = − 6 c) 2 f(0) = 5, f ′ (3) = 1, f(5) = 0 d) 3 f(4) = f ′′ (4) = 0, f ′ (4) = 4, f(0) = 16 2. Nikoläuse der Marke LiLa bestehen aus weißer und Milchschokolade: Nikolaus 1 (Preis 1 e ) besteht aus 200g Milchschokolade. Nikolaus 2 (3 e ) besteht aus 200g Milch- und 400g weißer Schokolade. Nikolaus 3 (4 e ) besteht aus 600g Milch- und 400 g weißer Schokolade. Beschreiben Sie den Sachverhalt durch einen Input-Output-Zusammenhang. Welche Fragestellung führt in diesem Kontext zu einem LGS? Wie lassen sich die Lösungen dieses LGS bewerten? 3. Eine Spielzeugfabrik stellt Kasperle- Mobilés her. Die benötigten Figuren werden unter Verwendung folgender Schnittmuster aus rechteckigen Spanplatten (zum Stückpreis von 50 Cent) ausgeschnitten: S1 (1 Kasper und 2 Prinzessinnen), S2 (2 Kasper und 1 Seppl), S3 (2 Kasper und 1 Zauberer), S4 (1 Prinzessin und 1 Seppl), S5 (1 Prinzessin und 1 Zauberer) und S6 (1 Seppl und 1 Zauberer). Die Fabrik stellt drei verschiedene Mobilés A,B,C mit folgenden Figuren (je 1) her: A: Kasper, Prinzessin, Zauberer B: Kasper, Seppl C: Kasper, Prinzessin, Seppl, Zauberer <?page no="20"?> 20 1 Lineare Gleichungssysteme Abbildung 1.2: Lösungsmenge einer linearen Gleichung mit zwei Unbekannten Es sollen je 100 Mobiles aller drei Sorten produziert werden. Stellen Sie ein LGS zur Bestimmung der möglichen Schnittmustervarianten auf, die zur Erfüllung dieses Auftrags erforderlich sind. 4. Die Mathematik-Professoren G. Auß, F. Ermat und E. Uler haben eine MAWIWI-Klausur zu korrigieren. Da G. Auß meint, er habe wichtigeres als seine Kollegen im Kopf, beschließt er, jeweils ein Fünftel seiner Klausuren den beiden Kollegen unterzumogeln. F. Ermat weiß natürlich, daß nur sein Wissen ganz im Zeichen der Wissenschaft steht und so beschließt er, da er G. Auß besser leiden kann als E. Uler, letzterem zwei Fünftel seiner Klausuren zu vermachen. Als E. Uler die Mogelei seiner Kollegen zufällig bemerkt, dankt er es ihnen, indem er beiden Kollegen jeweils ein Viertel seiner ursprünglichen Klausuren zuschiebt. Nach diesen Umverteilungen stellen alle drei Professoren fest, dass sie wieder dieselben Anzahlen an Klausuren zu korrigieren haben wie zuvor (zusammen 820). Bestimmen Sie mit einem LGS, wieviele Klausuren es für jeden Professor sind. 1.2 Lineare Gleichungssysteme in zwei Variablen Wir wollen zunächst an die Lösung von Gleichungssystemen in zwei Variablen erinnern. Eine lineare Gleichung in Variablen x, y ist von der Form a 1 x + a 2 y = c. Man spricht von einer Geradengleichung, denn die Menge aller Lösungspaare (x | y) dieser Gleichung bildet eine Gerade, sofern nicht ausgerechnet beide Koeffizienten a 1 = a 2 = 0 sind. Falls dabei a 2 = 0, so ergibt sich durch Umformung nach y die so genannte Normalform y = c a 2 − a 1 a 2 x. Die möglichen Lösungen (x | y) der linearen Gleichung bilden also den Graph einer linearen Funktion der Variable x, eine Gerade mit der Steigung − a 1 a 2 , dem Ordinaten-Schnittpunkt (0 | c a 2 ) und im Falle a 1 = 0 mit dem Abszissenschnittpunkt ( c a 1 | 0) vgl. Abbildung 1.2 . Beispiel 1.3 Die Geradengleichung 2x + 7y = − 3 wird in die Normalform y = − 2 7 x − 3 7 überführt. Die zugehörige lineare Funktion hat als Graph die Gerade durch den Ordinatenschnittpunkt (0 | − 3 7 ) und den Abszissenschnittpunkt ( − 3 2 | 0). Falls a 2 = 0 und a 1 = 0, so verläuft die Gerade parallel zur Ordinatenachse. Sie lässt sich nicht als Graph einer Funktion von x darstellen. Solche vertikalen Geraden treten beispielsweise als Asymptoten gebrochen-rationaler Funktionen auf. Beispiel 1.4 Die Geradengleichung 2x = − 3 wird in x = − 3 2 überführt. Die zugehörige Gerade ist eine Parallele zur Ordinatenachse durch den Punkt ( − 3 2 | 0). <?page no="21"?> 1.2 Lineare Gleichungssysteme in zwei Variablen 21 Abbildung 1.3: Lösungsmenge von LGS mit zwei Variablen als Schnittpunkte von Geraden: f 1 (grau) und f 2 (gestrichelt) haben unendlich viele Schnittpunkte; f 1 und f 3 haben keine Schnittpunkte; f 1 und f 4 haben genau einen Schnittpunkt. Falls a 1 = a 2 = 0 und c = 0, so gibt es offensichtlich keine Lösung. Gilt schließlich a 1 = a 2 = c = 0, so wird die Gleichung durch jede Belegung der Variablen x, y zu einer wahren Aussage. Solch eine Gleichung wird auch als Tautologie bezeichnet. Beispiel 1.5 Die Gleichung 0x + 0y = 3 ist unerfüllbar, hat keine Lösung. 0x + 0y = 0 hingegen ist allgemeingültig, d.h. jeder Punkt (x | y) macht die Gleichung zu einer wahren Aussage. Besteht das LGS aus zwei Gleichungen a 11 x + a 12 y = c 1 und a 21 x + a 22 y = c 2 , so ergeben sich damit in der grafischen Darstellung zwei Geraden. Je nach Lage der Geraden zueinander gibt es drei Möglichkeiten der Lösbarkeit des LGS: Die Geraden schneiden sich in einem Punkt. Dann hat das LGS genau eine Lösung, nämlich diesen Schnittpunkt vgl. Abbildung 1.3 f 1 und f 4 . Die Geraden sind identisch vgl. Abbildung 1.3 , f 1 und f 2 . Dann gibt es unendlich viele Lösungen des LGS, jeder Punkt auf den Geraden ist Lösung. Die Geraden sind verschieden und liegen parallel vgl. Abbildung 1.3 f 1 und f 3 . Das LGS hat keine Lösung, weil kein Punkt auf beiden Geraden gleichzeitig liegt. Lineare Gleichungssysteme in zwei Variablen lassen sich ad hoc mit dem Einsetzungs- oder dem Gleichsetzungsverfahren lösen. Wir betrachten den Fall von zwei Gleichungen; die Vorgehensweise lässt sich aber auch auf mehr Gleichungen übertragen. Einsetzungsverfahren für lineare Gleichungssysteme (2 × 2) [1] In der einen Gleichung wird eine der Variablen (etwa x) links isoliert. [2] Die rechte Seite dieser Gleichung wird in der anderen Gleichung für diese Variable eingesetzt (Substitution). Die sich ergebende Gleichung wird nach der verbleibenden Variablen (hier y) aufgelöst. Das lineare Gleichungssystem ist [a] eindeutig lösbar, wenn genau eine Lösung (für y) gefunden wird. [b] mehrdeutig lösbar, wenn diese Gleichung allgemeingültig ist [c] unlösbar, wenn die sich ergebende Gleichung keine Lösung hat. [3] Im Fall [a] wird das Ergebnis (für y) in die Gleichung aus [1]zurück eingesetzt (Rücksubstitution); daraus berechnet man den Wert der anfangs substituierten Variable (hier x). <?page no="22"?> 22 1 Lineare Gleichungssysteme Abbildung 1.4: Die Geraden eines linearen Gleichungssystems in zwei Variablen ändern sich während der Umformungen, der Schnittpunkt der Geraden als Lösung des linearen Gleichungssystems bleibt erhalten: Links: Geraden vor Substitution; Mitte: Geraden nach Substitution; Rechts Geraden nach Rücksubstitution Beispiel 1.6 Wir lösen das lineare Gleichungssystem 2x + 7y = − 3 3x − 5y = 11 mit dem Einsetzungsverfahren. { 2x + 7y = − 3 3x − 5y = 11 } [1] ⇔ { 2x + 7y = − 3 x = − 3 2 − 7 2 y } [2] ⇔ { 2( − 3 2 − 7 2 y) + 7y = − 3 x = − 3 2 − 7 2 y } ⇔ { y = − 1 x = − 3 2 − 7 2 y } [3] ⇔ { y = − 1 x = − 3 2 − 7 2 · ( − 1) = 2 } Die Lösung des linearen Gleichungssystems ist also (2 | − 1). Bei den genannten Umformungen des linearen Gleichungssystems verändern sich die linearen Gleichungen, wie man an den zugehörigen Schaubildern erkennen kann, nicht aber der Schnittpunkt (2 | − 1) der Gleichungen. Im letzten Schaubild ist die Lösung als Schnitt horizontaler und vertikaler Geraden erkennbar, d.h. unmittelbar von den Koordinatenachsen ablesbar. Nahe verwandt mit dem Einsetzungsverfahren ist das Gleichsetzungsverfahren. Gleichsetzungsverfahren für lineare Gleichungssysteme (2 × 2) [1] In beiden Gleichungen wird jeweils die gleiche Variable auf der linken Seite isoliert. [2] Die rechten Gleichungsseiten werden gleichgesetzt . Das LGS ist [a] eindeutig lösbar, wenn die resultierende Gleichung eindeutig lösbar ist, [b] mehrdeutig lösbar, wenn die resultierende Gleichung allgemeingültig ist [c] unlösbar, wenn die resultierende Gleichung nicht erfüllbar ist. [3] Im Falle [a] wird die Lösung rücksubstituiert, um die erste Variable zu gewinnen. <?page no="23"?> 1.2 Lineare Gleichungssysteme in zwei Variablen 23 Beispiel 1.7 Das lineare Gleichungssystem aus dem vorangegangenen Beispiel wird mit dem Gleichsetzungsverfahren gelöst: { 2x + 7y = − 3 3x − 5y = 11 } [1] ⇔ { x = − 3 2 − 7 2 y x = 11 3 + 5 3 y } [2] ⇔ { x = − 3 2 − 7 2 y − 3 2 − 7 2 y = 11 3 + 5 3 y } ⇔ { x = − 3 2 − 7 2 y − 31 6 y = 31 6 } ⇔ { x = − 3 2 − 7 2 y y = − 1 } [3] ⇔ { x = − 3 2 − 7 2 · ( − 1) = 2 y = − 1 } Durch Ein- oder Gleichsetzen kann man auch nichtlineare Gleichungssysteme lösen: Beispiel 1.8 Wir suchen die Lösungsmenge des (nichtlinearen) Gleichungssystems x + 2y = 1, x 2 + y 2 = 10 Zuerst wird die Variable x der ersten Gleichung isoliert: x = 1 − 2y. Dies wird in die zweite Gleichung eingesetzt, die resultierende quadratische Gleichung in y wird gelöst: (1 − 2y) 2 + y 2 = 10 ⇔ 5y 2 − 4y − 9 = 0 ⇔ y = − 1 ∨ y = 9 5 . Schließlich werden die beiden gefundenen Lösungen in der Gleichung, in welcher x freigestellt wurde, rücksubstituiert: Für y = − 1 erhält man x = 1 − 2 · ( − 1) = 3. Für y = 9 5 erhält man x = 1 − 2 · 9 5 = − 13 5 . Das Gleichungssystem hat die beiden Lösungen (3 | − 1) und ( − 13 4 | 9 5 ). Es ist auch möglich, über umfangreichere Terme ein- oder gleichzusetzen: Beispiel 1.9 Wir suchen die Lösungsmenge des (nichtlinearen) Gleichungssystems x 2 + 2y = 1, x 2 + y 2 = 9 ⇔ x 2 = 1 − 2y, x 2 = 9 − y 2 Setzt man über den Term x 2 gleich, so folgt 1 − 2y = 9 − y 2 , also y 2 − 2y − 8 = 0 ⇔ (y − 4)(y + 2) = 0. Wir erhalten die möglichen Lösungen y = 4 und y = − 2. Diese werden nun in die erste Gleichung eingesetzt: y = 4 ergibt eingesetzt x 2 + 8 = 1 ⇔ x 2 = − 7. Dies ergibt keine Lösung. y = − 2 ergibt eingesetzt x 2 − 4 = 1 ⇔ x = ± √ 5. Das Gleichungssystem hat also die Lösungen ( − √ 5 | − 2) und ( √ 5 | − 2). <?page no="24"?> 24 1 Lineare Gleichungssysteme Übungen zu Abschnitt 1.2 ? 5. Lösen Sie die folgenden LGS mit Einsetzungs- oder Gleichsetzungsverfahren (in den letzten beiden Gleichungssystemen ist die Lösung abhängig von den Parametern a, b ∈ R zu finden): a) { 2x + 3y= 7 x − 4y = 3 b) { x + 3y = 1 3x + 3y= 0 c) { x + 3y = 1 − 2x − 6y= 0 d) ⎧ ⎨ ⎩ 9x + 3y + z= 1 x − 2y + 3z= 2 3x + 2y − z= 0 e) { x + 2y= 2 x + y = b f) { − 4x + 2y= 2 x + ay = b 6. Gegeben ist das LGS ax + by = e cx + dy = f in den Unbekannten x, y. In welcher Beziehung müssen die Koeffizienten a, b, c, d ∈ R zueinander stehen, damit das LGS eindeutig lösbar ist? 1.3 Das Gauß’sche Eliminationsverfahren Ad-hoc-Rechnungen wie das Einsetzungs- und Gleichsetzungsverfahren lassen sich auch auf lineare Gleichungssysteme mit mehr als zwei Variablen anwenden, allerdings werden die Rechnungen mit wachsender Anzahl von Gleichungen und Variablen doch recht unübersichtlich. Zudem wird die Lösung in vielen Fällen nur mit DV-technischer Hilfe gefunden werden können; ein Computer benötigt dazu ein Programm, in dem der Ablauf der Rechenschritte genau festgelegt ist man spricht dann von einem Algorithmus zur Lösung eines linearen Gleichungssystems. Das Gauß’sche Eliminationsverfahren ist ein solches algorithmisches Verfahren und soll im Folgenden besprochen werden. Zur algorithmischen Umsetzung auf DV-Systemen, aber auch zur Reduktion von Schreibaufwand verwendet man eine kompaktere Schreibweise für lineare Gleichungssysteme, bei der die Variablen und Rechenzeichen unterdrückt werden. Definition 1.2 ! Gegeben sei ein LGS gemäß Definition 1.1 vgl. S. 19 . [1] A : = ⎛ ⎝ a 11 . . . a 1n ... ... a m1 . . . a mn ⎞ ⎠ heißt Koeffizientenmatrix. [2] (A | b) : = ⎛ ⎝ a 11 . . . a 1n b 1 ... . . . ... ... a m1 . . . a mn b m ⎞ ⎠ heißt Gleichungsmatrix. Jede Spalte einer Koeffizientenmatrix (bzw. des linken Teils der Gleichungsmatrix) stellt die Koeffizienten jeweils genau einer Variablen dar. Bis auf die Namen dieser Variablen sind also Gleichungsmatrizen und lineare Gleichungssysteme zueinander gleichwertig, die Gleichungsmatrix ist aber wegen ihrer Übersichtlichkeit besser für eine systematische Behandlung von LGS geeignet. Wie der Name schon besagt, werden beim Gauß’schen Eliminationsverfahren(kurz: GEV) Variablen aus dem LGS eliminiert. Nach Abschluss des Verfahrens verbleiben Gleichungen, in denen einige Variablen als unabhängig, d.h. (prinzipiell) frei wählbar klassifiziert werden, während sich <?page no="25"?> 1.3 Das Gauß’sche Eliminationsverfahren 25 die übrigen als lineare Funktionen der unabhängigen Variablen ergeben. Man wechselt von einer impliziten Darstellung (nämlich durch ein LGS) zu einer expliziten Darstellung der Lösungsmenge. 1.3.1 Zeilenumformungen eines LGS Das GEV verwendet drei Typen von Umformungsschritten, die sich sowohl anhand der Gleichungen als auch anhand der Gleichungsmatrix eines LGS beschreiben lassen: Satz 1.1 Die Lösungsmenge eines LGS ändert sich nicht, wenn folgende elementaren Zeilenumformungen ausgeführt werden (links für LGS, rechts für Gleichungsmatrizen): [1] Vertauschungsregel: Zwei Gleichungen dürfen vertauscht werden. [2] Multiplikationsregel: Jede Gleichung darf mit einer Konstanten β = 0 multipliziert werden. [3] Additionsregel: Zu jeder Gleichung darf ein Vielfaches einer anderen Gleichung addiert werden. [1] Vertauschungsregel: Zwei Zeilen dürfen vertauscht werden. [2] Multiplikationsregel: Jede Zeile darf mit einer Konstanten β = 0 multipliziert werden. [3] Additionsregel: Zu jeder Zeile darf ein Vielfaches einer anderen Zeile addiert werden. Wir führen diese Zeilenumformungen und die Notationen, mit denen sie beschrieben werden, an einem Beispiel vor: Beispiel 1.10 (Fortsetzung von Beispiel 1.1 vgl. S. 16 ) Angenommen, auf die Herstellung von Bill4 wird verzichtet. Die Lösung des LGS 2x 1 +3x 2 +4x 3 = 300 x 1 +x 2 +2x 3 = 130 5x 1 +10x 2 +15x 3 = 1000 liefert dann alle Möglichkeiten, die Bauteile zu verbrauchen. Nun werden die verschiedenen Zeilenumformungen bis zur Lösungsmenge durchgeführt: 2x 1 +3x 2 +4x 3 = 300 x 1 +x 2 +2x 3 = 130 5x 1 +10x 2 +15x 3 = 1000 ⎫ ⎬ ⎭ ⎛ ⎝ 2 3 4 300 1 1 2 130 5 10 15 1000 ⎞ ⎠ I ↔ II x 1 +x 2 +2x 3 = 130 2x 1 +3x 2 +4x 3 = 300 5x 1 +10x 2 +15x 3 = 1000 ⎫ ⎬ ⎭ ⎛ ⎝ 1 1 2 130 2 3 4 300 5 10 15 1000 ⎞ ⎠ III/ 5 x 1 +x 2 +2x 3 = 130 2x 1 +3x 2 +4x 3 = 300 x 1 +2x 2 +3x 3 = 200 ⎫ ⎬ ⎭ ⎛ ⎝ 1 1 2 130 2 3 4 300 1 2 3 200 ⎞ ⎠ II − 2I III − I x 1 +x 2 +2x 3 = 130 x 2 = 40 x 2 +x 3 = 70 ⎫ ⎬ ⎭ ⎛ ⎝ 1 1 2 130 0 1 0 40 0 1 1 70 ⎞ ⎠ <?page no="26"?> 26 1 Lineare Gleichungssysteme START R1: Pivotspalte finden R2: Pivotspalte ab Pivotstelle formatieren R3: Alle Pivotspalten gefunden? R4: Rücksubstitution ja nein Abbildung 1.5: Fluss-Darstellung des Gauß’schen Eliminationsverfahrens Jetzt ist x 1 aus den beiden letzten Gleichungen „eliminiert“. Diese lassen sich nun separat lösen und die Lösungen in die erste Gleichung „rücksubstituieren“. x 1 +x 2 +2x 3 = 130 x 2 = 40 x 2 +x 3 = 70 ⎫ ⎬ ⎭ ⎛ ⎝ 1 1 2 130 0 1 0 40 0 1 1 70 ⎞ ⎠ III → III − II x 1 +x 2 +2x 3 = 130 x 2 = 40 x 3 = 30 ⎫ ⎬ ⎭ ⎛ ⎝ 1 1 2 130 0 1 0 40 0 0 1 30 ⎞ ⎠ I → I − 2III x 1 +x 2 = 70 x 2 = 40 x 3 = 30 ⎫ ⎬ ⎭ ⎛ ⎝ 1 1 0 70 0 1 0 40 0 0 1 30 ⎞ ⎠ I → I − II x 1 = 30 x 2 = 40 x 3 = 30 ⎫ ⎬ ⎭ ⎛ ⎝ 1 0 0 30 0 1 0 40 0 0 1 30 ⎞ ⎠ Es können je 30 Bausätze Bill1 und Bill3 sowie 40 Bausätze Bill2 gepackt werden. Wie im vorangegangenen Beispiel lassen sich lineare Gleichungssysteme durch systematische Anwendung der drei genannten Typen von Zeilenumformungen lösen. Das Berechnungsbeispiel folgt dabei den Leitlinien des gleich behandelten Gauß’schen Eliminationsverfahrens. 1.3.2 Die Staffelform eines LGS Die Koeffizienten der letzten drei in Beispiel 1.10 berechneten Gleichungsmatrizen ordnen sich in einer Treppen-Struktur an. Von links oben nach rechts steigt die Anzahl der Nulleintrage, d.h. sinkt die Anzahl der Variablen in den Gleichungen. Das GEV vgl. Abbildung 1.5 überführt das LGS zuerst in eine derartige Staffelform. <?page no="27"?> 1.3 Das Gauß’sche Eliminationsverfahren 27 j 1 j 2 j k ↓ ↓ ↓ 0 · · · 0 1 ∗ · · · ∗ ∗ ∗ · · · ∗ · · · ∗ ∗ · · · ∗ ∗ 0 · · · 0 0 0 · · · 0 1 ∗ · · · ∗ · · · ∗ ∗ · · · ∗ ∗ 0 · · · 0 0 0 · · · 0 0 0 · · · 0 . . . ∗ ∗ · · · ∗ ∗ ... ... ... ... ... ... ... ... ... ... ... ... . . . ∗ ∗ · · · ∗ ∗ 0 · · · 0 0 0 · · · 0 0 0 · · · 0 · · · 1 ∗ · · · ∗ ∗ 0 · · · 0 0 0 · · · 0 0 0 · · · 0 · · · 0 0 · · · 0 b ′ k +1 ... ... ... ... ... ... ... ... ... ... ... ... 0 · · · 0 0 0 · · · 0 0 0 · · · 0 · · · 0 0 · · · 0 b ′ m Abbildung 1.6: Staffelform eines linearen Gleichungssystems, schematisch Satz 1.2 (Teil 1 des GEV) Jede Gleichungsmatrix lässt sich durch elementare Zeilenumformungen in die Staffelform vgl. Abbildung 1.6 bringen; oberhalb der Treppenlinie stehen reelle Zahlen - bezeichnet durch ∗ -Einträge - unterhalb ausschließlich Null-Einträge. Die Spalten j 1 , . . . , j k vgl. Abbildung 1.6 heißen Basisspalten bzw. Pivotspalten Die Stellen (1, j 1 ), (2, j 2 ), . . . , (k, j k ) heißen Pivot-Stellen der Matrix. Die zugehörigen Variablen x j 1 , . . . , x j k heißen Basisvariablen bzw. Pivotvariablen. Eine Matrix A kann verschiedene Staffelformen haben, welche stets die selbe Anzahl k von Treppenstufen bzw. Pivotspalten haben. Die Zahl k ist eindeutig bestimmt, sie wird Rang von A genannt. In der Staffelform eines LGS kommen „von oben nach unten“ immer weniger Variablen vor. Dies kann durch eine geeignete Hintereinander-Ausführung der nachfolgend beschriebenen Schritte R1, R2 und R3 erreicht werden. Wir führen das Verfahren gleich an einem Beispiel vor: Beispiel 1.11 Gelöst werden soll das LGS 3x 1 + 6x 2 + 12x 3 + 15x 4 + 15x 5 = 0 x 1 + 2x 2 + 5x 3 + 2x 4 + 9x 5 = 1 − 3x 1 − 6x 2 − 10x 3 − 21x 4 − 6x 5 = − 4 − 2x 1 − 4x 2 − 5x 3 − 19x 4 + 3x 5 = − 3 Die Gleichungsmatrix lautet ⎛ ⎜ ⎝ 3 6 12 15 15 0 1 2 5 2 9 1 − 3 − 6 − 10 − 21 − 6 − 4 − 2 − 4 − 5 − 19 3 − 3 ⎞ ⎟ ⎠ R1. In (A | b) sei j die Nummer der am weitesten links stehenden von Null verschiedenen Spalte. Man sorge mit Zeilenumformungen für a 1 j = 1. Beispiel 1.12 (Fortsetzung von Beispiel 1.11) Die erste Zeile wird durch 3 geteilt <?page no="28"?> 28 1 Lineare Gleichungssysteme ⎛ ⎜ ⎝ 3 6 12 15 15 0 1 2 5 2 9 1 − 3 − 6 − 10 − 21 − 6 − 4 − 2 − 4 − 5 − 19 3 − 3 ⎞ ⎟ ⎠ → ⎛ ⎜ ⎝ 1 2 4 5 5 0 1 2 5 2 9 1 − 3 − 6 − 10 − 21 − 6 − 4 − 2 − 4 − 5 − 19 3 − 3 ⎞ ⎟ ⎠ In R1 gibt es oft mehrere Möglichkeiten, händisch vorzugehen. Liegt wie hier bereits ein 1-Eintrag in dieser Spalte vor, kann man durch eine Zeilenvertauschung das gewünschte Ergebnis erzeugen. Anderenfalls muss der vorhandene Nicht-Nulleintrag an der linken oberen Stelle durch einen Multiplikationsschritt normiert werden. Zuweilen sind sogar sowohl eine Zeilenvertauschung als auch ein Multiplikationsschritt erforderlich. R2. Durch Anwendung der Additionsregel sorge man dafür, dass die Einträge in der j-ten Spalte unterhalb der ersten Zeile alle Null werden. Dies geschieht etwa in der i-ten Zeile, indem das a ij -fache der ersten Zeile von der i-ten Zeile subtrahiert wird (dabei bezeichne a ij den entsprechenden Eintrag in der aktuell vorliegenden Gleichungsmatrix). Die eigentliche Elimination der Variablen erfolgt hier in Schritt R2. Der Schritt wird jedoch zuvor in R1 insofern vorbereitet, dass die jeweils oberste betrachtete Gleichung auch die Variable enthält, die man aus den darunter liegenden Gleichungen entfernen will. Beispiel 1.13 (Fortsetzung von Beispiel 1.12) Die erste Zeile wird von der zweiten subtrahiert und das dreifache (zweifache) der ersten Zeile wird zur dritten (vierten) Zeile addiert: ⎛ ⎜ ⎝ 1 2 4 5 5 0 1 2 5 2 9 1 − 3 − 6 − 10 − 21 − 6 − 4 − 2 − 4 − 5 − 19 3 − 3 ⎞ ⎟ ⎠ → ⎛ ⎜ ⎝ 1 2 4 5 5 0 0 0 1 − 3 4 1 0 0 2 − 6 9 − 4 0 0 3 − 9 13 − 3 ⎞ ⎟ ⎠ R3. Nach R1,R2 hat die Gleichungsmatrix die rechts stehende Gestalt. Falls A ′ keine Spalten oder nur Nullkoeffizienten hat, ist die Staffelform erreicht. Sonst sind R1 bis R3 auf (A ′ | b ′ ) anzuwenden. ⎛ ⎜ ⎜ ⎝ 0 . . . 0 1 ∗ . . . ∗ ∗ 0 . . . 0 0 . . . ... . . . ... ... ... A ′ ... b ′ 0 . . . 0 0 . . . ⎞ ⎟ ⎟ ⎠ Die Nummerierung der Zeilenumformungen nimmt dabei aus Gründen der Übersichtlichkeit Bezug auf die komplette Gleichungsmatrix. Beispiel 1.14 (Fortsetzung von 1.13) In der vorliegenden Gleichungsmatrix ist die Teilmatrix [A ′ | b] hervorgehoben. ⎛ ⎜ ⎝ 1 2 4 5 5 0 0 0 1 − 3 4 1 0 0 2 − 6 9 − 4 0 0 3 − 9 13 − 3 ⎞ ⎟ ⎠ Die Matrix A ′ hat noch von Null verschiedene Spalten, daher werden die Schritte R1 und R2 mit (A ′ | b ′ ) erneut angestoßen. Erst die 2. Spalte von A ′ ist eine Nullspalte, zudem steht oben in dieser Spalte A ′ der von Null verschiedene Eintrag 1. Damit ist in R1 keine Normierung und kein Vertauschungsschritt erforderlich, man kann mit R2 fortfahren. Das zweifache (dreifache) der 2. Zeile der Gesamtmatrix wird von der 3. (4.) Zeile der Gesamtmatrix subtrahiert. Das ergibt die Gleichungsmatrix <?page no="29"?> 1.3 Das Gauß’sche Eliminationsverfahren 29 ⎛ ⎜ ⎝ 1 2 4 5 5 0 0 0 1 − 3 4 1 0 0 0 0 1 − 6 0 0 0 0 1 − 6 ⎞ ⎟ ⎠ Ein weiterer Durchlauf ist erforderlich, da auf der Koeffizientenseite der Gleichungsmatrix eine von Null verschiedene Spalte auftaucht. In R1 ist keine Aktion nötig, in R2 wird die dritte von der vierten Zeile subtrahiert. Man erhält die Staffelform ⎛ ⎜ ⎝ 1 2 4 5 5 0 0 0 1 − 3 4 1 0 0 0 0 1 − 6 0 0 0 0 0 0 ⎞ ⎟ ⎠ Pivotvariablen sind x 1 , x 3 und x 5 . Das zur Staffelform gehörige LGS lautet x 1 +2x 2 +4x 3 +5x 4 +5x 5 = 0 x 3 − 3x 4 +4x 5 = 1 x 5 = − 6 0 = 0 Das LGS ist nicht eindeutig lösbar. Erst wenn beispielsweise (beliebige) konkrete Werte für die Nicht-Pivotvariablen x 2 und x 4 eingesetzt werden, verbleibt ein LGS in drei Unbekannten, welches eindeutig gelöst werden kann. Mit x 2 = 0, x 4 = 0 bekommt man beispielsweise x 5 = − 6, x 3 = 1 − 4x 5 = 25 und x 1 = − 4x 3 − 5x 5 = − 70. Andere Festlegungen von x 2 und x 4 erzeugen entsprechend andere Lösungen. Mit der Staffelform ist eine erste Möglichkeit eröffnet, die Lösungsmenge systematisch darzustellen. Es ist möglich, bei den Variablen zwischen frei wählbaren und abhängigen Variablen zu unterscheiden. Außerdem können anhand der Staffelform Aussagen über die Lösbarkeit des LGS getroffen werden. Satz 1.3 Ist in der Staffelform vgl. Abbildung 1.6 einer der Werte b ′ i ungleich Null, so ist das LGS unlösbar, d.h. L = ∅ . Anderenfalls gilt: [1] Falls nur Pivotspalten in der Staffelform auftreten, so hat das LGS genau eine Lösung. [2] Liegen auch Nicht-Pivotspalten vor, so hat das LGS unendlich viele Lösunge: die Werte jeder Nicht-Pivotvariable sind frei wählbar. Bei Lösbarkeit werden die Gleichungen der Form 0 = 0 gestrichen. 1.3.3 Die Zeilenstufenform eines LGS Wenn das LGS lösbar ist, kann die Lösungsmenge aus der Staffelform durch rückwärts Einsetzen ermittelt werden, wie am Regalbeispiel bereits verdeutlicht wurde. Diese Rücksubstitution entspricht einem Transformationsschritt auf Basis der Staffelform: R4. die Einträge in den Pivotspalten oberhalb der Pivotstellen werden durch Additionsschritte in Null umgeformt. Satz 1.4 Jedes lösbare LGS lässt sich mit elementaren Zeilenumformungen in die Zeilenstufenform (kurz: ZSF) vgl. Abbildung 1.7 bringen. Hierzu leitet man mit den Schritten R1 bis R3 vgl. S. 27 die Staffelform her und eliminiert anschließend mittels R4 die Pivotvariablen sukzessive so lange, bis jede Gleichung genau eine Pivotvariable enthält. Das Verfahren zur Bestimmung der ZSF für lösbare LGS wurde algorithmisch bereits dargestellt vgl. Abbildung 1.5, S. 26 . Wir illustrieren den Schritt R4: <?page no="30"?> 30 1 Lineare Gleichungssysteme j 1 j 2 j k ↓ ↓ ↓ 0 · · · 0 1 ∗ · · · ∗ 0 ∗ · · · ∗ · · · 0 ∗ · · · ∗ ∗ 0 · · · 0 0 0 · · · 0 1 ∗ · · · ∗ · · · 0 ∗ · · · ∗ ∗ 0 · · · 0 0 0 · · · 0 0 0 · · · 0 . . . 0 ∗ · · · ∗ ... ... ... ... ... ... ... ... ... ... ... ... . . . 0 ∗ · · · ∗ 0 · · · 0 0 0 · · · 0 0 0 · · · 0 · · · 1 ∗ · · · ∗ ∗ 0 · · · 0 0 0 · · · 0 0 0 · · · 0 · · · 0 0 · · · 0 0 ... ... ... ... ... ... ... ... ... ... ... ... 0 · · · 0 0 0 · · · 0 0 0 · · · 0 · · · 0 0 · · · 0 0 Abbildung 1.7: Die Zeilenstufenform eines lösbaren LGS Beispiel 1.15 (Fortsetzung von Beispiel 1.14 vgl. S. 28 ) ⎛ ⎝ 1 2 4 5 5 0 0 0 1 − 3 4 1 0 0 0 0 1 − 6 ⎞ ⎠ I → I − 5 · III II → II − 4 · III −−−−−−−−−−−−−−→ ⎛ ⎝ 1 2 4 5 0 30 0 0 1 − 3 0 25 0 0 0 0 1 − 6 ⎞ ⎠ I → I − 4 · II −−−−−−−−−−−−→ ⎛ ⎝ 1 2 0 17 0 − 70 0 0 1 − 3 0 25 0 0 0 0 1 − 6 ⎞ ⎠ Hierbei wurde zuerst die Basisvariable x 5 aus der ersten und zweiten Gleichung eliminiert. Wenn man zuerst die Basisvariable x 3 in der ersten Gleichung eliminiert, so kommt man zum gleichen Endergebnis, hat aber einen etwas höheren händischen Rechenaufwand, weil in der zweiten Zeile, fünften Spalte der ZSF nach dem ersten Additionsschritt noch ein von Null verschiedener Eintrag stünde. Dieser müsste bei der Elimination von x 3 in die erste Gleichung „weitergereicht“ werden. Faustregel Am effizientesten ist spaltenweise Rücksubstitution „von rechts nach links“. An der Zeilenstufenform lassen sich spezielle Lösungen und die Lösungsmenge ablesen. Beispiel 1.16 (Fortsetzung von 1.15) Aus der Staffelform des obigen Beispiels wurde bereits die spezielle Lösung x 1 = − 70, x 2 = 0, x 3 = 25, x 4 = 0, x 6 = − 6 durch rückwärts Einsetzen ad hoc bestimmt. Diese Lösung läßt sich nun explizit aus der ZSF ablesen: Die rechte Spalte der ZSF gibt die Werte der Pivotvariablen in dieser speziellen Lösung an. Die anderen Variablen werden gleich Null gesetzt. Die Gleichungen zur ZSF sind die folgenden und werden durch Freistellen der Pivotvariablen umgeformt ⎧ ⎨ ⎩ x 1 + 2x 2 + 17x 4 = − 70 x 3 − 3x 4 = 25 x 5 = − 6 ⇒ ⎧ ⎨ ⎩ x 1 = − 70 − 2x 2 − 17x 4 x 3 = 25 + 3x 4 x 5 = − 6 ( ∗ ) Nun können die Nicht-Pivotvariablen beliebig eingesetzt werden, wodurch die Pivotvariablen fixiert werden. Insbesondere ergibt x 2 = 0, x 4 = 0 die „spezielle“ Lösung. Zusammengefasst besteht die Lösungsmenge des LGS nun aus allen Tupeln (x 1 , . . . , x 5 ) mit x i ∈ R , welche die drei Gleichungen ( ∗ ) erfüllen. <?page no="31"?> Zusammenfassung Satz 1.5 (Die Lösungsmenge eines linearen Gleichungssystems) Für die Lösungsmenge L eines LGS in Unbekannten x 1 , . . . , x n gibt es drei Möglichkeiten: [1] L ist leer, d.h. es gibt keine Lösung. [2] Es gibt eine eindeutig bestimmte Lösung. Dann hat die ZSF des LGS nur Pivotspalten und die Lösung kann rechts in der ZSF abgelesen werden. [3] Es gibt mehrere Lösungen. Dann kann man die Variablen in zwei Gruppen einteilen: [a] zum einen die Nicht-Pivotvariablen, welche frei gewählt werden dürfen, [b] zum anderen die Pivotvariablen, die sich aus den Nicht-Pivotvariablen in expliziten linearen Gleichungen ergeben. L besteht aus allen Tupeln (x 1 , . . . , x n ), welche diese Gleichungen erfüllen. Übungen zu Abschnitt 1.3 ? 7. Bestimmen Sie mit dem GEV die Lösungsmenge zu dem folgenden LGS: ⎛ ⎜ ⎜ ⎜ ⎝ 1 2 − 1 1 1 1 2 − 1 1 − 2 − 1 3 1 1 − 1 − 1 1 3 4 2 − 1 − 2 1 7 − 1 3 − 2 3 2 − 2 ⎞ ⎟ ⎟ ⎟ ⎠ 8. Lösen Sie die Funktionssteckbriefe der Aufgabe 1 vgl. S. 19 mit dem GEV. 9. Für welche t ∈ R sind die angegebenen LGS lösbar? Geben Sie jeweils auch die Lösungsmenge an. a) ( 2 1 t − 4 − 2 3 ) b) ( 2 1 t − 4 t 3 ) 10. Beim Einsetzungsverfahren wird eine lineare Gleichung in einem LGS nach einer Variablen aufgelöst und der rechts stehende Ausdruck in die übrigen Gleichungen substituiert. Erläutern Sie diesen Vorgehensweise anhand des Einsetzens der Variable x im LGS { 2x + 4y − 8z = 3 6x + 2y + 2z = 15 } und stellen Sie den Einsetzungsschritt mit Hilfe von elementaren Zeilenumformungen dar. Verfahren Sie entsprechend für das Gleichsetzungsverfahren. Zusammenfassung Das Gauß’sche Eliminationsverfahren löst lineare Gleichungssysteme auf, indem es sie durch Zeilenumformungen aus der impliziten Form, in der alle Variablen komplex aneinander gebunden sind, in eine explizite Form überführt. Bei der expliziten Form eines LGS, die sich aus der Zeilenstufenform ablesen lässt, zerfallen die Variablen in die Gruppe der Pivot- oder Basisvariablen, nach denen die Gleichungen freigestellt werden und die der Nicht-Pivot- oder Nicht-Basisvariablen, die frei gewählt werden können. Zudem tritt jede Basisvariable in genau einer Gleichung auf. Übungen zur Vertiefung von Kapitel 1 ? 14. Lösen Sie das LGS x 1 + x 2 − x 3 = a, 2x 1 − x 2 + 5x 3 = b, 2x 2 − 5x 3 = c für beliebige a, b, c ∈ R . 15. Die Firma „Caramba“ stellt Spielzeugrennbahnen her und bietet Starter- Sets, Ergänzungs- und Großpackungen an, <?page no="32"?> 32 1 Lineare Gleichungssysteme in denen neben Stromversorgung, Modellautos, Controller und Rundenzähler auch Doppelspurschienen in verschiedenen Ausfertigungen und Stückzahlen verpackt sind. Im Handel werden Sets angeboten: Schiene A B C D E Kurve 13 12 2 8 29 Gerade 6 3 10 5 16 Brücke 1 1 0 1 3 Looping 1 0 0 2 5 Kreuzung 1 0 2 2 5 Die unverbindlichen Preisempfehlungen sind 44, 99 e je Set A, C und D, 24, 99 e je Set B und 149, 99 e je Set E. Auf Lager sind noch 7300 Kurvenstücke, 3200 Geradenstücke, 600 Brücken, 200 Loopings und 400 Kreuzungen vorhanden. Diese sollen nun - zusammen mit den übrigen in ausreichenden Stückzahlen vorrätigen Teilen wie Stromversorgung etc. - zu Sets verpackt werden. a) Geben Sie die Möglichkeiten, die Sets zu packen, als Lösungsmenge eines LGS an. b) Welche Lösung ergibt den höchsten Umsatz, wenn man davon ausgeht, dass alle Packungen verkauft werden? <?page no="33"?> 2 Lineare Optimierung Übersicht Von einem linearen Optimierungsproblem (LOP) wird gesprochen, wenn ein linearer Term (meist Kosten, Verlust oder Gewinn) minimiert oder maximiert werden soll, und dabei gleichzeitig alle Variablen durch eine oder mehrere lineare Gleichungen oder Ungleichungen aneinander gebunden sind. Lineare Optimierungsprobleme sind weit verbreitet in der betrieblichen Planung, z.B. in der Produktion, bei der Planung von Verkehrsnetzen, aber auch in der Spieltheorie, die als mathematische Disziplin in der Volkswirtschaftslehre eingesetzt wird. Selbst wenn die auftretenden Probleme nicht mehr linear sind (z.B. nichtlineare Zielfunktion), wird die lineare Optimierung zuweilen immer noch als „lokale Lösungsstrategie“ eingesetzt. Insgesamt ist festzuhalten, dass Techniken zur Lösung linearer Optimierungsprobleme unbedingt in den generellen „Werkzeugkasten“ der Wirtschaftswissenschaften gehören. Probleme der linearen Optimierung wurden erstmals 1939 von Kantorowitsch besprochen, der Simplex-Algorithmus als klassisches Verfahren wurde 1947 von Dantzig vorgestellt. Aus einer händischen Rechnung entstanden, werden mittlerweile durch den Einsatz von Computern in der Praxis auch enorm große LOP (tausende Variablen, hunderte Nebenbedingungen) einer Lösung zugänglich. Hier haben sich neben dem Simplex-Algorithmus auch andere theoretisch effizientere - Verfahren wie Innere- Punkt-Methoden etabliert. Im Zusammenspiel mit effizienten Verfahren zur Behandlung großer linearer Gleichungssysteme ist aber auch der Simplex-Algorithmus immer noch ein wichtiges Hilfsmittel. Das vorliegende Kapitel stellt einen Einstieg in die lineare Optimierung dar. Mit einigen Beispielen wird die Grundproblematik vgl. Abschnitt 2.3, S. 38 und danach eine einheitliche Ausgangssituation vgl. Abschnitt 2.2, S. 36 beschrieben. Methodisch beginnen wir vgl. Abschnitt 2.3, S. 38 mit LGS, deren Lösungsmenge sich im Sinne des vorigen Kapitels mit nur einer freien Variable darstellen lässt. LOP mit solchen Nebenbedingungen lassen sich dann auch ganz ohne den Simplex-Algorithmus lösen, dessen Grundidee und Funktionsweise sich aber bei nur einer freien Variable gut veranschaulichen und auf mehrere freie Variable generalisieren lässt. Mit der Zweiphasenmethode vgl. Abschnitt 2.4, S. 50 wird das Problem der ersten Basislösung gelöst, welche der Simplex-Algorithmus benötigt und welche - anders als in den anfänglichen Beispielen - im Regelfall nicht über die Zeilenstufenform des Gauß’schen Eliminationsverfahrens gefunden werden kann. Abschließend gehen wir kurz auf gängige Software-Lösungen ein vgl. Abschnitt 2.5, S. 55 . <?page no="34"?> 34 2 Lineare Optimierung 2.1 Probleme der linearen Optimierung, Beispiele Definition 2.1 ! Ein lineares Optimierungsproblem hat eine in n Variablen x 1 , . . . , x n ≥ 0 lineare Zielfunktion c 1 x 1 + · · · + c n x n , die zu minimieren oder zu maximieren ist. m lineare Gleichungen, d.h. für i = 1, . . . , m (mit gegebenen reellen Zahlen a ij , b i , c j ) a i1 x 1 + · · · + a in x n = b i bzw. ≤ bzw. ≥ 2.1.1 Optimaler Verbrauch von Rohstoffen Bei der Besprechung linearer Gleichungssysteme haben wir in Kapitel 1 bereits die damit verbundene Optimierungsaufgabe aufgezeigt. Beispiel 2.1 (Regalbeispiel, vgl. Beispiel 1.1) Aus den Lagerbeständen sollen die Regale in Quantitäten x 1 , x 2 , x 3 , x 4 ≥ 0 so gepackt werden, dass bei minimalen Verpackungskosten alle Bauteile aus dem Lager verbraucht werden. Die Verpackungskombinationen entsprechen der Lösungsmenge des LGS 2x 1 + 3x 2 + 4x 3 + 5x 4 = 300 x 1 + x 2 + 2x 3 + 4x 4 = 130 5x 1 + 10x 2 + 15x 3 + 20x 4 = 1000 Gesucht ist eine Lösung mit minimalen Gesamtkosten 5x 1 + 6x 2 + 10x 3 + 12x 4 . 2.1.2 Transportprobleme Die gesamten Transportkosten eines Gutes zwischen mehreren Quell- und Zielorten mit vorgegebenen Angeboten bzw. Bedarfen und streckenabhängigen Stückkosten sollen minimiert werden. Gesamtangebot bzw. -bedarf der Quellbzw. Zielorte stimmen überein und sind ganzzahlig. Die Variablen x ij geben an, wieviele Einheiten von Quellort i nach Zielort j befördert werden; sie entsprechen saldiert jeweils dem Angebot der Quellorte bzw. dem Bedarf der Zielorte. Beispiel 2.2 Beim Transport von Rohkaffee seien folgende Kosten gegeben (Angaben in 1000 e / t): von Anbaugebiet zu Röster 1 2 3 1 7 6 5 2 5 4 6 Die Anbaugebiete liefern 42t bzw. 18t; die Röstereien benötigen 15t bzw. 25t bzw. 20t. Gesucht ist eine Transportmengenverteilung mit minimalen Gesamttransportkosten. Die Gesamtkosten 7x 11 + 6x 12 + 5x 13 + 5x 21 + 4x 22 + 6x 23 für x ij ≥ 0 sollen minimiert werden unter zwei Nebenbedingungen für die Anbaugebiete und drei für die Röstereien: x 11 + x 12 + x 13 = 42, x 21 + x 22 + x 23 = 18 x 11 + x 21 = 15, x 12 + x 22 = 25, x 13 + x 23 = 20 <?page no="35"?> 2.1 Probleme der linearen Optimierung, Beispiele 35 2.1.3 Zuordnungsprobleme Personen/ Objekten werden vorgegebene Aktivititäten/ Funktionen zugeordnet; Derartige Probleme stehen in engem Zusammenhang zu Transportproblemen, erfordern aber ganzzahlige, meist sogar 0-1-wertige Lösungen. Beispiel 2.3 Ein Gebäudekomplex aus vier Einheiten G 1 , . . . , G 4 soll umgebaut werden, um vier Betriebe E 1 , . . . , E 4 aufzunehmen. Der Umbau von G j zum Zwecke von E k koste c jk . Die Variable x jk besagt, ob der Umbau erfolgt (x jk = 1) oder nicht (x jk = 0). Dabei muss für alle k, j ∈ { 1, . . . , 4 } gelten: Gebäude k bekommt genau eine Funktion, d.h. x k 1 + x k 2 + x k 3 + x k 4 = 1. Genau ein Gebäude bekommt Funktion j, d.h. x 1 j + x 2 j + x 3 j + x 4 j = 1. Die gesamten Umbaukosten, d.h. c 11 x 11 +c 12 x 12 +c 13 x 13 +c 14 x 14 + · · · +c 41 x 41 +c 42 x 42 + c 43 x 43 + c 44 x 44 sollen minimiert werden unter den obigen acht Nebenbedingungen. Beispiel 2.4 Eine Schule veranstaltet für 107 Schülerinnen und Schüler Studienfahrten zu 4 Zielen. Jede/ r Lernende vergibt Prioritäten 1 bis 4 für die Ziele (jede Priorität einmal). Die Ziele haben Unterbzw. Obergrenzen a 1 , . . . , a 4 bzw. b 1 , . . . , b 4 ≥ 0 der Teilnehmerzahl. Es bezeichne x jk ∈ { 0, 1 } die Zuordnung von Person j zu Fahrtziel k ∈ { 1, . . . , 4 } . Dabei bedeutet Eins die Zuweisung und Null die Nichtzuweisung. Eine Zuweisung, welche die Person mit Priorität p ∈ { 1, . . . , 4 } gewählt hat, wird mit „Opportunitätskosten“ c jk = o p belegt, dabei ist üblicherweise o 1 = 0. Gesucht ist eine Zuordnung mit minimalen Gesamtkosten c 11 x 11 + · · · c 14 x 14 + · · · + c 107 , 1 x 107 , 1 + · · · c 107 , 4 x 107 , 4 unter den Restriktionen Ein Fahrtziel je Schüler/ in: x j 1 + · · · + x j 4 = 1 für alle 1 ≤ j ≤ 107, Kapazitäten der Fahrziele: a k ≤ x 1 k + · · · + x 107 ,k ≤ b k für alle 1 ≤ k ≤ 4 Dies ist ein LOP mit 4 × 107 = 428 Variablen und 107+2 × 4 = 115 Nebenbedingungen. Übungen zu Abschnitt 2.1 ? 1. Werkstücke A, B, C mit einem Stückprofit von je 200 e (A,B) sowie 400 e (C) werden mit Hilfe von drei Maschinen und nachstehendem Zeitaufwand gefertigt. Formulieren Sie das LOP „Profitmaximierung unter Zeitrestriktionen“. h/ Werkstück Maschine A B C Betriebszeit I 0 1 1 100h II 2 1 1 120h III 2 1 0 120h 2. Eine Firma transportiert die von ihr hergestellten Maschinen A, B, C mit drei LKW-Typen. Zur optimalen Ausnutzung der Ladefläche können mehrere Maschinen verschiedenen Typs gleichzeitig geladen werden: je Ladung des LKW-Typs Maschine I II III Lieferung A 1 1 1 12 B 0 1 2 10 C 2 1 1 16 <?page no="36"?> 36 2 Lineare Optimierung Für eine Lieferung soll der Fuhrpark möglichst kostengünstig eingesetzt werden. Jede Fuhre kostet 600 e (Typ I), 900 e (Typ II) bzw. 1350 e (Typ III). Formulieren Sie das lineare Optimierungsproblem „Kostenminimierung unter Auftragsrestriktion”. Beachten Sie, dass mit der eingesetzten Transportkapazität das Auftragsvolumen überschritten werden darf und dass hinreichend viele LKW aller Typen zur Verfügung stehen. 2.2 Standardform eines LOP Ein LOP ist zur algorithmischen Lösung meist nicht unmittelbar geeignet: Einerseits einen müssen die Handlungsanweisungen je nachdem, ob es sich um eine Minimierung oder eine Maximierung handelt, separat beschrieben werden. Andererseits liegen oft lineare Ungleichungen vor, die man nicht gut lösen kann. Beide Schwierigkeiten lassen sich durch Überführung in die Standardform behandeln: Definition 2.2 ! Mit folgenden Eigenschaften ist ein lineares Optimierungsproblem in Standardform: die Zielfunktion ist zu minimieren, d.h. hat die Form c 1 x 1 + · · · c n x n ! = min x 1 ,...,x n ≥ 0 , die Nebenbedingungen sind Gleichungen, ⎧ ⎨ ⎩ a 11 x 1 + · · · + a 1n x n = b 1 ... a m1 x 1 + · · · + a mn x n = b m In Matrizenschreibweise hat ein Problem in Standardform die Gestalt c T x ! = min x ≥ 0 unter Ax = b mit c ∈ R n , A ∈ R m × n , b ∈ R m Jedes LOP lässt sich in eine lösungsgleiche Standardform überführen, indem folgende Schritte durchgeführt werden: [1] Ist das Optimierungsproblem ein Maximierungsproblem c T x ! = max x ≥ 0 , so geht man über zum Minimierungsproblem d T x ! = min x ≥ 0 mit d = − c, d.h. alle Koeffizienten der Zielfunktion werden mit − 1 multipliziert. [2] Ist die i-te Nebenbedinung eine Ungleichung, so wird diese mit Hilfe einer so genannten Schlupfvariable s i ≥ 0 in eine äquivalente Gleichung überführt und zwar die Ungleichung a i 1 x 1 + · · · + a in x n ≤ b i in a i 1 x 1 + · · · + a in x n +s i = b i die Ungleichung a i 1 x 1 + · · · + a in x n ≥ b i in a i 1 x 1 + · · · + a in x n − s i = b i Alle Ungleichung bekommen somit verschiedene Schlupfvariablen; Schlupfvariablen sind stets nichtnegativ; deshalb müssen die beiden Ungleichungstypen verschieden behandelt werden, denn bei ≤ -Bedingungen gibt die Schlupfvariable an, um wieviel die rechte Seite unterschritten wird, während bei ≥ -Bedingungen von s i angegeben wird, um wieviel die rechte Seite übertroffen wird. Schlupfvariablen verändern die Zielfunktion prinzipiell nicht; will man allerdings die Zielfunktion angeben, so muss diese alle Variablen beinhalten, also auch die Schlupfvariablen. Dies geschieht durch Summanden der Form 0 · s i . <?page no="37"?> 2.2 Standardform eines LOP 37 Beispiel 2.5 Es wird angenommen, dass im Regalbeispiel Träger im Lagerbestand übrig bleiben dürfen (z.B. weil diese auch in anderen Artikeln eingesetzt werden können). Querstangen und Böden hingegen müssen komplett verpackt werden. Die Optimierungsaufgabe lautet dann: minimiere 5x 1 + 6x 2 + 10x 3 + 12x 4 mit x i ≥ 0 unter 2x 1 + 3x 2 + 4x 3 + 5x 4 ≤ 300 x 1 + x 2 + 2x 3 + 4x 4 = 130 5x 1 + 10x 2 + 15x 3 + 20x 4 = 1000 Mit Schlupfvariable s 1 ≥ 0 werden die Nebenbedingungen zum LGS 2x 1 + 3x 2 + 4x 3 + 5x 4 + s 1 = 300 x 1 + x 2 + 2x 3 + 4x 4 = 130 5x 1 + 10x 2 + 15x 3 + 20x 4 = 1000 Zusammen mit der Zielfunktion 5x 1 +6x 2 +10x 3 +12x 4 = 5x 1 +6x 2 +10x 3 +12x 4 +0s 1 ist die Standardform erreicht. Soll hingegen der Deckungsbeitrag 65x 1 + 120x 2 + 170x 3 + 230x 4 bei gleichen Nebenbedingungen maximiert werden, so ist dies gleichwertig dazu, den Term − 65x 1 − 120x 2 − 170x 3 − 230x 4 zu minimieren. Mit den obigen Nebenbedingungen erhält man dann die Standardform. Zur erhaltenen Standardform wird mit dem Simplexalgorithmus eine optimale Lösung gesucht. Aus dieser bekommt man dann die Lösung des Ausgangsproblems, indem die Schlupfvariablen gestrichen werden. Vielfach haben die Schlupfvariablen aber auch noch eine ökonomische Bedeutung und werden in diesem Sinne mit aufgeführt. Beispiel 2.6 Im letzten Beispiel stellt die Schlupfvariable s 1 die Anzahl der im Lager verbleibenden Träger dar. Diese Zahl ist wegen der weiteren Verfügbarkeit, aber auch wegen der resultierenden Lagerkosten in der Praxis wichtig. Die Standardform muss möglicherweise noch zwei weiteren Transformationen unterzogen werden, ehe die eigentliche Optimierung durchgeführt werden kann: Zum einen könnten sich Gleichungen der Nebenbedingungen wechselseitig auseinander herleiten lassen. Dies ist z.B. daran erkennbar, dass sich durch geeignete Zeilenumformungen wie die Überführung in Zeilenstufenform mit dem Gauß’schen Eliminationsverfahren eine Nullgleichung herleiten lässt. Entsprechende Gleichungen bzw. Zeilen sind aus der Gleichungsmatrix zu löschen, weil anderenfalls im Simplexalgorithmus eine spezielle Lösung nicht ablesbar ist. Redundante Gleichungen gibt es z.B. bei Transportproblemen wegen identischer Quell- und Zielmengen-Summen. In Beispiel 2.2 vgl. S. 34 lauten die fünf Gleichungen <?page no="38"?> 38 2 Lineare Optimierung x 11 + x 12 + x 13 = 42 x 21 + x 22 + x 23 = 18 x 11 + x 21 = 15 x 12 + x 22 = 25 x 13 + x 23 = 20 Werden die Quellort-Gleichungen addiert, so ergibt sich dieselbe Gleichung wie bei Addition der Zielort-Gleichungen, nämlich x 11 + x 12 + x 13 + x 21 + x 22 + x 23 = 60 Hier ist genau eine beliebige Gleichung überflüssig und muss gestrichen werden. Zum anderen könnten Gleichungen vorhanden sein, bei denen auf der rechten Seite negative Werte stehen. Diese Gleichungen müssen mit ( − 1) multipliziert werden, weil anderenfalls im Simplexalgorithmus Lösungen abgelesen werden, bei denen einzelne Variablen negative Werte besitzen und die somit nicht zulässig sind. Übungen zu Abschnitt 2.2 ? 3. Bringen Sie das folgende lineare Optimierungsproblem in Standardform 10x 1 + 10x 2 + 20x 3 + 40x 4 ! = min 2x 1 − 4x 2 + 3x 3 + x 4 ≥ − 200 2x 2 − 2x 3 + 4x 4 ≥ 100 − x 1 + x 2 ≤ 100 x 1 + x 2 + 2x 4 = 150 x 1 , x 2 , x 3 , x 4 ≥ 0 4. Bringen Sie die linearen Optimierungsprobleme der Aufgaben in Abschnitt 2.1 (Maschinenbelegung und Transportplanung) jeweils in Standardform und veranschaulichen Sie die ökonomische Bedeutung der auftretenden Schlupfvariablen. 2.3 Simplex-Algorithmus Der Simplex-Algorithmus ist - zunächst ähnlich wie das Gauß’sche Eliminationsverfahren - eine „ gesteuerte“ Abfolge von Zeilenumformungen, mit denen das lineare Gleichungssystem der Nebenbedingungen umgeformt wird. Im Gegensatz zum GEV werden die Umformungen beim Simplexverfahren aber durch die Zielfunktion gesteuert. Wenn in der Gleichungsmatrix dann alle möglichen Einheitsspalten auftreten, so heißt diese Darstellung Basisform. Wie bei der Zeilenstufenform, die ebenfalls eine Basisform ist, kann man eine spezielle Basislösung ablesen. Aufbauend auf der Basisform stellt man ein Simplex-Tableau auf, die zusätzlichen Einträge helfen bei der eingangs genannten „Steuerung“. Der Simplex-Algorithmus beginnt mit einer ersten Basisform und leitet über eine Reihe von Basiswechseln weitere Basisformen her. Er endet mit einer Basisform, aus der man die Optimallösung oder die Information, dass es keine solche gibt, ablesen kann. Das Verfahren lässt sich am besten veranschaulichen, wenn in der Lösungsmenge nur eine freie Variable vorkommt. 2.3.1 Beispiel mit einer freien Variable Wir betrachten die Situation aus Beispiel 2.1 vgl. S. 34 . Gesucht ist eine Lösung, bei der die Lagerbestände vollständig verpackt werden, so dass die Gesamtkosten 5x 1 + 6x 2 + 10x 3 + 12x 4 <?page no="39"?> 2.3 Simplex-Algorithmus 39 minimal sind. Zu der Forderung, die Bauteile komplett zu verpacken, gehört ein LGS mit einer aus der Materialverflechtungstabelle ablesbaren Gleichungsmatrix. Diese wird in Zeilenstufenform überführt: ⎡ ⎣ 2 3 4 5 300 1 1 2 4 130 5 10 15 20 1000 ⎤ ⎦ −→ ⎡ ⎣ 1 0 0 1 30 0 1 0 − 3 40 0 0 1 3 30 ⎤ ⎦ Dabei handelt es sich um die gleichen Zeilenumformungen wie in Beispiel 1.10 vgl. S. 25 . Die Lösungsmenge des LGS besteht aus allen 4-Tupeln (x 1 , x 2 , x 3 , x 4 ) mit x 1 = 30 − x 4 , x 2 = 40 + 3x 4 und x 3 = 30 − 3x 4 Mit diesen Bedingungen können die Pivot-Variablen x 1 , x 2 , x 3 im Zielwert Z = 5x 1 + 6x 2 + 10x 3 + 12x 4 für die Gesamtkosten durch die Nicht-Pivot-Variable x 4 substituiert werden. Das ergibt die reduzierte Zielfunktion Z = 690 − 5x 4 in folgenden Schritten: Z = 5(30 − x 4 ) + 6(40 + 3x 4 ) + 10(30 − 3x 4 ) + 12x 4 „Substituieren“ = 5 · 30 + 6 · 40 + 10 · 30 + (5 · ( − 1) + 6 · 3 + 10 · ( − 3) + 12) · x 4 „Sammeln“ = 5 · 30 + 6 · 40 + 10 · 30 − (5 · 1 + 6 · ( − 3) + 10 · 3 − 12) · x 4 „Negieren“ = 690 − 5x 4 „Vereinfachen“ Der als „Negieren“ bezeichnete Schritt, in dem der Faktor ( − 1) systematisch ausgeklammert und in das Rechenzeichen übernommen wird, könnte dabei auch übersprungen werden. Im Simplex-Algorithmus kann allerdings der Term 5 · 1 + 6 · ( − 3) + 10 · 3 − 12 leichter aus dem betreffenden Tableau abgelesen werden als der momentan noch näher liegende Ausdruck 5 · ( − 1) + 6 · 3 + 10 · ( − 3) + 12, weil im Tableau die Gleichungen nicht nach den Basisvariablen aufgelöst werden vgl. S. 41 . Man erkennt, dass die Kosten Z = 690 − 5x 4 aufgrund des negativen Vorfaktors von x 4 dann minimal werden, wenn x 4 maximal wird, d.h. wenn möglichst viele Regale vom Typ Bill4 hergestellt werden. Berücksichtigt man jetzt noch, dass aus ökonomischer Sicht die Auswahl der Variablenwerte auf x 1 ≥ 0, x 2 ≥ 0, x 3 ≥ 0, x 4 ≥ 0 begrenzt wird, so folgt aus der Lösungsmengendarstellung x 4 ≥ 0 x 1 = 30 − x 4 ≥ 0 ⇔ x 4 ≤ 30 1 = 30 x 2 = 40 + 3x 4 ≥ 0 ⇔ x 4 ≥ − 40 3 x 3 = 30 − 3x 4 ≥ 0 ⇔ x 4 ≤ 30 3 = 10, d.h. es dürfen höchstens 10 Regale vom Typ Bill4 verpackt werden, anderenfalls würde sich (wenigstens) bei Bill3 ein negativer Wert ergeben, was nicht erlaubt ist. Da nach dem vorher Gesagten gleichzeitig so viele Regale Bill4 wie möglich hergestellt werden sollen, um die Kosten zu minimieren, müssen zur Kostenminimierung x 4 = 10 Bausätze <?page no="40"?> 40 2 Lineare Optimierung Bill4, x 1 = 40 − x 4 = 20 Bausätze Bill1 und x 2 = 40 + 3x 4 = 70 Bausätze Bill2 gepackt werden. Bill3 wird nicht hergestellt, denn x 3 = 30 − 3x 4 = 0. Die Zahl von 10 = min { 30 1 , 30 3 } Bausätzen Bill4, jenseits derer keine Lösung der Verpackungsaufgabe mehr besteht, wird auch Engpass der Variable x 4 genannt. In der linearen Optimierung gehört zur Zeilenstufenform des linearen Gleichungssystems die spezielle Lösung x 1 = 30, x 2 = 40, x 3 = 30, x 4 = 0, welche man erhält, indem die Nicht-Pivotvariable x 4 gleich Null gesetzt wird. Der Koeffizient 5 in der reduzierten Zielfunktion 690 − 5x 4 zeigt, dass die Lösung nicht optimal ist, sondern die Variable x 4 möglichst groß sein sollte. Er wird Delta-Wert der Nicht-Pivotvariable x 4 genannt. 2.3.2 Simplex-Tableau Alle genannten Argumente und Werte werden im Simplex-Tableau der aktuellen Lösung x 1 = 30, x 2 = 40, x 3 = 30, x 4 = 0 erfasst. Dieses ist eine Tabelle, deren Herzstück hier die Zeilenstufenform (F | d) = ⎛ ⎝ 1 0 0 1 30 0 1 0 − 3 40 0 0 1 3 30 ⎞ ⎠ ist. Statt „Zeilenstufenform“ soll ab jetzt der allgemeinere Begriff Basisform verwendet werden, dazu später mehr. Entsprechend nennt man die Pivotvariablen auch Basisvariablen. Das Simplex-Tableau erweitert die Basisform: Es wird eine Zeile mit den Koeffizienten der Zielfunktion ergänzt. Das Symbol x markiert die Spalte, aus der die Werte der Basisvariablen in einer Basislösung abgelesen werden. Links wird eine Spalte hinzugefügt, in der die Zielkoeffizienten jeder Basisvariable stehen, d.h. derjenigen Variablen die aus der Basisform für die spezielle Lösung abgelesen werden. 5 6 10 12 x 1 0 0 1 30 0 1 0 − 3 40 0 0 1 3 30 5 6 10 12 x 5 1 0 0 1 30 6 0 1 0 − 3 40 10 0 0 1 3 30 Die Werte links zeigen gleichzeitig an, welche Spalten Basisspalten sind (wenn es mehrere Variablen mit gleichen Kostenkoeffizienten gibt, empfiehlt es sich ggf., noch eine weitere Spalte mit den Indizes oder Namen der Basisvariablen hinzuzufügen). Mit dieser Spalte der Basiskostenkoeffizienten vereinfacht sich die Berechnung der weiteren Einträge im Simplex-Tableau. Das Tableau wird vervollständigt durch eine Zeile ganz unten, in der die reduzierte Zielfunktion dargestellt wird. Bekanntlich heißt diese im vorliegenden Fall Z = 690 − 5x 4 . Man stellt diese Gleichung so um, dass der Zielwert 690 der aktuellen Basislösung zusammen mit dem (technischen) Ausdruck Z auf die rechte Seite der Gleichung gelangt, und schreibt die Variablen auf die linke Seite, d.h. Z = 690 − 5x 4 ⇔ 5x 4 = 690 − Z. Mit „Dummy“-Termen für die eliminierten Variablen x 1 , x 2 , x 3 bekommt die Zielfunktion folgende Gleichung zugeschrieben: 0x 1 + 0x 2 + 0x 3 + 5x 4 = 690 − Z. <?page no="41"?> 2.3 Simplex-Algorithmus 41 Diese Gleichung wird als letzte Zeile an das Simplex-Tableau gehängt, der Ausdruck − Z wird dabei weggelassen, weil er in jeder reduzierten Zielfunktion an dieser Stelle vorkommt: 5 6 10 12 x 5 1 0 0 1 30 6 0 1 0 − 3 40 10 0 0 1 3 30 0 0 0 5 690 Die Einträge der neuen Zeile nennt man Delta-Werte. Sie können bestimmt werden, ohne die reduzierte Zielfunktion durch Substitution der Basisvariablen zu berechnen. Mit den vorliegenden Basiskoeffizienten ist dies ein rein schematischer Schritt, der durch Hervorhebung im Simplex-Tableau noch einmal verdeutlicht werden soll: 5 6 10 12 x 5 1 0 0 1 30 6 0 1 0 − 3 40 10 0 0 1 3 30 0 0 0 5 690 δ 1 = 5 · 1 + 6 · 0 + 10 · 0 − 5 = 0 5 6 10 12 x 5 1 0 0 1 30 6 0 1 0 − 3 40 10 0 0 1 3 30 0 0 0 5 690 δ 2 = 6 · 0 + 6 · 1 + 10 · 0 − 6 = 0 5 6 10 12 x 5 1 0 0 1 30 6 0 1 0 − 3 40 10 0 0 1 3 30 0 0 0 5 690 δ 3 = 10 · 0 + 6 · 0 + 10 · 1 − 10 = 0 5 6 10 12 x 5 1 0 0 1 30 6 0 1 0 − 3 40 10 0 0 1 3 30 0 0 0 5 690 δ 4 = 5 · 1 + 6 · ( − 3) + 10 · 3 − 12 = 5 Es reicht aus, diese Rechnung für Delta-Werte von Nichtbasisvariablen durchzuführen (in diesem Fall also für δ 4 ), weil Delta-Werte zu Basisvariablen/ Basisspalten stets Null sind, denn sie stellen in der reduzierten Zielfunktion Koeffizienten der Basisvariablen dar, welche ja gerade aus der Zielfunktion eliminiert wurden. Übrigens: Die Formel für δ 4 trat bereits bei der Berechnung der reduzierten Zielfunktion (durch „Negieren“) auf vgl. S. 39 . Während sie dort eigentlich überflüssig war und nur diesen Term herausstellen sollte, ist sie hier ein wichtiger Baustein im Aufbau des Simplex-Tableaus. Wir werden später noch einen anderen Weg besprechen, die letzte Zeile zu bestimmen nämlich durch Fortschreibung aus einem gegebenen Tableau vgl. S. 44 . Für das erste Tableau des Simplex-Algorithmus muss jedoch stets die Delta- Wert-Zeile wie oben dargestellt berechnet werden. Die letzte Zeile enthält schließlich noch den Zielwert, der sich analog zu den Delta- Werten berechnen lässt, wobei aber zum Schluss kein Koeffizient subtrahiert wird: 5 6 10 12 x 5 1 0 0 1 30 6 0 1 0 3 40 10 0 0 1 3 30 0 0 0 5 690 Z = 5 · 30 + 6 · 40 + 10 · 30 = 690 Falls noch keine optimale Lösung vorliegt, wird das Simplex-Tableau um eine weitere Spalte ganz rechts ergänzt, in der die oben beschriebenen Engpässe stehen. Dazu betrachtet man eine (beliebige) Spalte mit Delta-Wert größer als Null (hier δ 4 = 5). Sie zeigt an, dass der Zielwert verringert werden kann, wenn die betreffende Variable <?page no="42"?> 42 2 Lineare Optimierung (hier x 4 ) mit einem positiven Wert belegt wird. Dies ist aber meist nicht unbegrenzt möglich, denn - wie für das Beispiel bereits oben erläutert - stellen einige Gleichungen Bedingungen dar, die für x 4 einen Engpass bedeuten. Dieser Engpass wird nun als Spalte rechts im Tableau hinzugefügt: 5 6 10 12 x x/ f 5 1 0 0 1 30 30 1 = 30 6 0 1 0 − 3 40 − 10 0 0 1 3 30 30 3 = 10 0 0 0 5 690 Die Engpässe ergeben sich aus den Forderungen x i ≥ 0 an die Basisvariablen, hier: Die erste Gleichung heißt x 1 + x 4 = 30 ⇔ x 1 = 30 − x 4 . Weil x 1 ≥ 0 gefordert ist, folgt hieraus 30 − x 4 ≥ 0 ⇔ x 4 ≤ 30 1 = 30. Die erste Nebenbedinung hat also den Engpass 30 1 , erkennbar daran, dass man im Simplextableau den x-Wert der 1. Zeile durch den f-Wert der 1. Zeile, 4. Spalte dividiert. Die zweite Gleichung heißt x 2 − 3x 4 = 40 ⇔ x 2 = 40 + 3x 4 , d.h. es liegt ein negativer f-Wert f 24 = − 3 vor. Dann gilt x 2 ≥ 0 ⇔ 40 + 3x 4 ≥ 0 ⇔ x 4 ≥ − 40 3 , d.h. es liegt kein Engpass für x 4 vor, weil aus x 4 ≥ 0 schon x 4 ≥ − 40 3 folgt. In der Engpassspalte wird dies durch den Eintrag „ − “ in der 2. Zeile markiert. Ebenfalls liegt kein Engpass vor, wenn der betreffende f-Wert Null ist; dann ist die Basisvariable unabhängig von der Nichtbasisvariable ≥ 0 (sie nimmt nämlich den auf der rechten Seite der Gleichung stehenden Wert an). Die dritte Gleichung heißt x 3 + 3x 4 = 30 ⇔ x 3 = 30 − 3x 4 . Weil x 3 ≥ 0 gefordert ist, folgt hieraus 30 − 3x 4 ≥ 0 ⇔ x 4 ≤ 30 3 = 10. Die dritte Nebenbedingung hat also den Engpass 30 3 , erkennbar daran, das man im Simplextableau den x-Wert der 3. Zeile durch den f-Wert der 3. Zeile, 4. Spalte dividiert. Die Engpassspalte wird also schematisch gebildet, indem man komponentenweise die Einträge der x-Spalte durch die f-Werte der Pivotspalte teilt (sofern der betreffende f-Wert größer als Null ist, sonst wird „ − “eingetragen). Deshalb wird die Engpassspalte auch mit x/ f bezeichnet. Wenn das Simplex-Tableau eine optimale Lösung anzeigt, ist es nicht nötig, die Engpassspalte anzugeben. 2.3.3 Basiswechsel mit einer freien Variablen In 2.3.1 vgl. S. 38f. wurde eine bessere Lösung mit Zielwert 640 durch Ausschöpfen des Engpasses für x 4 bestimmt: x 1 = 20, x 2 = 70, x 3 = 0, x 4 = 10. Zusätzlich ist erkennbar, dass dies auch schon die Optimallösung ist, weil das lineare Gleichungssystem nur eine freie Variable x 4 hat, der gesamte Lösungsraum durch einen Minimalwert 0 und einen Maximalwert 10 für diese Nicht-Basisvariable x 4 begrenzt wird und die Zielfunktion sich in die Form 690 − 5x 4 bringen lässt. Eine lineare nichtkonstante Funktion (hier: wegen des Faktors − 5 streng monoton fallend) nimmt ihr Minimum aber immer am Rand des Intervalls (hier: des Intervalls [0; 10]) an. Unabhängig davon fällt auf, dass in der neuen Lösung wieder drei Variablen ungleich Null und die übrigen Variablen (hier: eine) gleich Null ist. Auch diese Lösung kann man wieder als spezielle Lösung einer Basisform darstellen, d.h. einer Matrix mit drei <?page no="43"?> 2.3 Simplex-Algorithmus 43 Einheitsspalten, diesmal den Spalten 1,2 und 4. Der Prozess der Herleitung dieser neuen Basisform aus der aktuell schon gegebenen Basisform heißt Basiswechsel bzw. Pivotisierung. Er geschieht dadurch, dass anstelle der dritten nun die vierte Spalte zur Basisspalte mit einem 1-Eintrag in der 3. Zeile wird. Für den Basiswechsel müssen folgende Schritte durchgeführt werden: [1] Selektion: Festlegung eines Eintrages in der neu einzurichtenden Basisspalte, des so genannten Pivotelementes f k . Dabei wird die neue Pivotspalte zu einem Delta-Wert δ > 0 gewählt, anschließend werden die Engpasswerte zu dieser Pivotspalte berechnet. die Pivotzeile k so gewählt, dass mit der zuvor festgelegten Pivotspalte der kleinstmögliche Engpass der x/ f-Spalte zugrunde liegt. Das Pivotelement hebt man zur Übersicht im Tableau hervor. [2] Normierung: Multiplikation der k-ten Zeile mit 1 f k . Das Pivotelement ist nun 1. [3] Elimination: Addition von Vielfachen der k-ten Zeile zu allen anderen Zeilen, so dass die übrigen Einträge der neuen Basisspalte zu Null werden. Im Beispiel beginnen wir mit der aktuellen Basisform. Meist wird dabei das komplette Simplex-Tableau aufgeschrieben, weggelassen (bzw. später ergänzt) werden in Zwischenschritten üblicherweise Koeffizienten der ersten Spalte (Basis-Zielfunktionskoeffizienten), soweit sie ohne Bedeutung sind, weil die betreffende Basisspalte nicht vorhanden ist. die Engpasswerte, die in Zwischenschritten ebenfalls bedeutungslos sind. Die Delta-Zeile wird mitgeführt, weil sie im Rahmen des Basiswechsels durch eine Zeilenumformung fortgeschrieben statt neu berechnet werden kann. Wir führen den Basiswechsel am Regalbeispiel durch. Im vorliegenden Simplextableau ist f 34 = 3 das Pivotelement, denn die vierte Spalte hat den positiven Delta-Wert δ 4 = 5 und der zugehörige Engpass steht in der dritten Zeile. Wir markieren das Pivotelement und überführen das Tableau durch einen Multiplikationsschritt, bei dem das Pivotelement zu Eins normiert wird, in ein „Zwischentableau“: 5 6 10 12 x x/ f 5 1 0 0 1 30 30 6 0 1 0 − 3 40 − 10 0 0 1 3 30 10 0 0 0 5 690 III → III/ 3 −−−−−−−−−−−→ 5 6 10 12 x 5 1 0 0 1 30 6 0 1 0 − 3 40 0 0 1 3 1 10 0 0 0 5 690 Die übrigen Einträge in der neuen Pivotspalte werden jetzt durch Additionsschritte in Null überführt, wobei sich die restlichen Einträge der betreffenden Zeilen natürlich mit verändern. Die spezielle Form der Umformungen sorgt aber dafür, dass die anderen Pivot-Spalten unverändert bleiben, so dass am Ende wieder drei Einheitsspalten im Tableau stehen und die Basis-Zielfunktionskoeffizienten links ergänzt werden können: 5 6 10 12 x 5 1 0 0 1 30 6 0 1 0 − 3 40 0 0 1 3 1 10 0 0 0 5 690 I → I − III II → II + 3III −−−−−−−−−−−−−→ 5 6 10 12 x 5 1 0 − 1 3 0 20 6 0 1 1 0 70 12 0 0 1 3 1 10 0 0 0 5 690 <?page no="44"?> 44 2 Lineare Optimierung Hier lässt sich nun die neue Basislösung x 1 = 20, x 2 = 70, x 3 = 0, x 4 = 10 ablesen. Wir wissen ja schon aus früheren Überlegungen, dass diese Lösung optimal ist. Im Simplex-Tableau kann man dies auch erkennen, wenn die Delta-Werte (und der Zielwert) aktualisiert werden. Dies kann zum einen durch Neuberechnung aus dem vorliegenden Tableau geschehen: δ 1 =5 · 1 − 5 = 0 δ 2 =6 · 1 − 6 = 0 δ 3 =5 · ( − 1 3 ) + 6 · 1 + 12 · 1 3 − 10 = − 5 3 δ 4 =12 · 1 − 12 = 0 Z =5 · 20 + 6 · 70 + 12 · 10 = 640 Das gleiche Ergebnis erhält man, wenn man den Prozess der Pivotisierung in die Delta- Zeile fortsetzt. Konkret wird der Delta-Wert in der neuen Pivot-Spalte durch einen Additionsschritt in Null überführt, wodurch sich der Delta-Wert der alten Pivot-Spalte mittransformiert: Somit lautet das Folgetableau 5 6 10 12 x 5 1 0 − 1 3 0 20 6 0 1 1 0 70 12 0 0 1 3 1 10 0 0 0 5 690 −−−−−−−−−−−−−−→ IV → IV − 5III 5 6 10 12 x 5 1 0 − 1 3 0 20 6 0 1 1 0 70 12 0 0 1 3 1 10 0 0 − 5 3 0 640 Inhaltlich ist der Additionsschritt gleichwertig dazu, dass die neue Basisvariable x 4 der vorigen reduzierten Zielfunktion durch die alte Basisvariable und neue Nichtbasisvariable x 3 substituiert wird. Aus der dritten Zeile liest man die Gleichung 1 3 x 3 + x 4 = 10 ab und formt nach x 4 um: x 4 = 10 − 1 3 x 3 . Das ergibt die neue Darstellung der reduzierten Zielfunktion, wie sie auch aus dem neuen Simplex-Tableau abgelesen werden kann: Z = 690 − 5x 4 = 690 − 5(10 − 1 3 x 3 ) = 640 + 5 3 x 3 d.h. − 5 3 x 3 = 640 − Z (beachten Sie wieder, dass der Term − Z in der Delta-Zeile weggelassen wird vgl. S. 41 ). Das zuletzt gewonnene Tableau ist nunmehr das Simplextableau der Lösung x 1 = 20, x 2 = 70, x 3 = 0, x 4 = 10 mit Zielwert 640. Dass die Lösung optimal ist, lässt sich ebenfalls aus dem Tableau ablesen. Alle Delta-Werte sind kleiner oder gleich Null. Die reduzierte Zielfunktion Z = 640 + 5 3 x 3 kann man aus der Delta-Zeile ablesen, und sie zeigt - wie die durchweg nicht positiven Delta-Werte im Tableau -, dass durch eine Erhöhung des Wertes der Nichtbasisvariable x 3 der Zielwert über den Wert 640 der aktuellen Lösung hinaus allenfalls erhöht werden kann. Die Zielfunktion muss aber minimiert werden, deshalb die Optimalitätseigenschaft. 2.3.4 Basiswechsel mit mehreren freien Variablen Die Vorgehensweise des Basiswechsels haben Sie nun anhand einer freien Variable kennen gelernt, sie lässt sich aber genau so gut durchführen, wenn mehr als eine freie Variable in der Basisform vorkommt. Es gibt entsprechend mehr Spalten und Delta-Werte im Tableau, der Basiswechsel wird anhand einer passend ausgewählten Pivotspalte durchgeführt. Als Beispiel betrachten wir wieder die Verpackungs-Situation. Nun nehmen wir an, dass die Regalträger nicht komplett verpackt werden müssen, weil sie auch noch für <?page no="45"?> 2.3 Simplex-Algorithmus 45 andere Möbeltypen verwendet werden können. Daher sind die Nebenbedingungen 2x 1 + 3x 2 + 4x 3 + 5x 4 ≤ 300 x 1 + x 2 + 2x 3 + 4x 4 = 130 5x 1 + 10x 2 + 15x 3 + 20x 4 = 1000 mit minimalen Kosten 5x 1 + 6x 2 + 10x 3 + 12x 4 zu lösen. Es wird wie in Beispiel 2.5 vgl. S. 37 erklärt eine Schlupfvariable x 5 für die nicht genutzten Träger eingeführt, die die Kostenfunktion nicht verändert und die Ungleichung in eine Gleichung 2x 1 + 3x 2 + 4x 3 + 5x 4 + x 5 = 300 überführt. Wir leiten für das LGS wieder die Zeilenstufenform her: ⎛ ⎝ 2 3 4 5 1 300 1 1 2 4 0 130 5 10 15 20 0 1000 ⎞ ⎠ ZSF → ⎛ ⎝ 1 0 0 1 1 30 0 1 0 − 3 1 40 0 0 1 3 − 1 30 ⎞ ⎠ Aus der ZSF liest man die explizite Lösungsmenge ab: x 4 ≥ 0 und x 5 ≥ 0 sind prinzipiell frei wählbar, die Pivot-Variablen errechnen sich hieraus zu x 1 = 30 − x 4 − x 5 ≥ 0, x 2 = 40 + 3x 4 − x 5 ≥ 0, x 3 = 30 − 3x 4 + x 5 ≥ 0 Setzt man diese in die Zielfunktion ein, so ergibt sich die reduzierte Zielfunktion 5x 1 + 6x 2 + 10x 3 + 12x 4 + 0x 5 = 5(30 − x 4 − x 5 ) + 6(40 + 3x 4 − x 5 ) + 10(30 − 3x 4 + x 5 ) + 12 · x 4 + 0 · x 5 = 5 · 30 + 6 · 40 + 10 · 30 + (5 · ( − 1) + 6 · 3 + 10 · ( − 3) + 12)x 4 + (5 · ( − 1) + 6 · ( − 1) + 10 · 1 + 0 · 1)x 5 = 5 · 30 + 6 · 40 + 10 · 30 − ( 5 · 1 + 6 · ( − 3) + 10 · 3 − 12 )x 4 − ( 5 · 1 + 6 · 1 + 10 · ( − 1) − 0 )x 5 = 690 − 5x 4 − x 5 Die spezielle Lösung der ZSF entspricht der schon früher gefundenen x 1 = 30, x 2 = 40, x 3 = 30, x 4 = 0, bei der alle Teile verpackt werden, auch die Träger, d.h. x 5 = 0. Diese Rechnung kann wieder in einem Simplex-Tableau zusammengefasst werden: 5 6 10 12 0 5 1 0 0 1 1 30 6 0 1 0 − 3 1 40 10 0 0 1 3 − 1 30 0 0 0 5 1 690 Die Delta-Werte und Kosten berechnen sich wie im Beispiel mit einer freien Variable. Die einzig hinzukommende Rechnung betrifft den Delta-Wert der fünften Spalte: δ 5 = 5 · 1 + 6 · 1 + 10 · ( − 1) − 0 = 1 Diese Rechnung bündelt die obige schreibaufwändige Substitution bei der Berechnung der reduzierten Zielfunktion. Die Kosten lassen sich jetzt auf zwei Arten verringern: <?page no="46"?> 46 2 Lineare Optimierung Man erhöht x 4 , d.h. verpackt auch Regale vom Typ Bill4. Dann beträgt der x 4 - Engpass min { 30 1 , 30 3 } = 10. Das Simplex-Tableau vervollständigt sich dann zu 5 6 10 12 0 x/ f 5 1 0 0 1 1 30 30 6 0 1 0 − 3 1 40 − 10 0 0 1 3 − 1 30 10 0 0 0 5 1 690 und der Basiswechsel wird am markierten Pivotelement f 34 = 3 durchgeführt. Man erhöht x 5 , d.h. lässt möglichst viele Träger ungenutzt. Dann ist der x 5 -Engpass min { 30 1 , 40 1 } = 30. Das Simplex-Tableau vervollständigt sich dann zu 5 6 10 12 0 x/ f 5 1 0 0 1 1 30 30 6 0 1 0 − 3 1 40 40 10 0 0 1 3 − 1 30 − 0 0 0 5 1 690 und der Basiswechsel wird am markierten Pivotelement f 15 = 1 durchgeführt. Der Wechsel ist einfacher, weil das Pivotelement nicht mehr auf 1 normiert werden muss. Im Simplex-Algorithmus wird pro Schritt stets nur eine Basisvariable gewechselt. Die reduzierte Zielfunktion Z = 690 − 5x 4 − x 5 zeigt, dass ein zusätzliches Regal Bill4 die Kosten fünfmal stärker verringert als die Verringerung des Verbrauchs um einen Träger. Auf den ersten Blick sollte man also Spalte 4 in die Basis aufnehmen (Prinzip des größten Delta-Wertes) - dies ist auch die ursprüngliche Vorgehensweise von Dantzig . Aber zum einen könnte die starke Abnahme der Kosten durch einen kleinen Engpass abgeschwächt werden, zum anderen könnten ggf. noch wesentlich mehr weitere Basiswechsel nötig sein als bei anderer Wahl der Pivotspalte. Schlimmer noch: es gibt Beispiele, in denen das Prinzip des größten Delta-Wertes dazu führt, dass im weiteren Verlauf eine Basisform hergeleitet wird, die zuvor schon einmal bestimmt wurde [ Beale , 1955]. Aus algorithmischer Sicht besteht hier die Gefahr einer Endlosschleife, was sich mit folgender Regel vermeiden lässt[ Bland , 1977]: Bland-Regel: Das Pivotelement f k sollte zur Vermeidung von Zyklen nach folgenden Regeln ausgewählt werden: Pivot-Spalte : anhand des am weitesten links stehenden δ > 0, Pivot-Spalte k: anhand des obersten minimalen x k / f k (mit f k > 0). Grundsätzlich könnte man in beiden Regelteilen unabhängig voneinander „links“ bzw. „obersten“ durch „rechts“ bzw. „untersten“ ersetzen. Auch andere vorab pauschal festgelegte Reihenfolgen der n Spaltenindizes sind möglich. Für Handrechnungen stellt das Zykeln in der Regel anders als bei algorithmischen Umsetzungen höchstens ein Ärgernis, aber kein Problem dar (weil das Zykeln ja bemerkt würde), so dass die Auswahl des Pivotelementes unter den Obervoraussetzungen (Delta-Wert > 0, minimaler Engpass dazu) eher willkürlich stattfinden kann. Wir wollen im vorliegenden Beispiel abhängig von der Wahl des Pivotelementes f k die beiden möglichen Rechenwege aufführen, zunächst die Auswahl von f 34 = 3: <?page no="47"?> 2.3 Simplex-Algorithmus 47 5 6 10 12 0 x x/ f 5 1 0 0 1 1 30 30 6 0 1 0 − 3 1 40 − 10 0 0 1 3 − 1 30 10 0 0 0 5 1 690 1 3 III −−→ 5 6 10 12 0 x 1 0 0 1 1 30 0 1 0 − 3 1 40 0 0 1 3 1 − 1 3 10 0 0 0 5 1 690 I − III II + 3III −−−−−→ IV − 5III 5 6 10 12 0 x x/ f 5 1 0 − 1 3 0 4 3 20 15 6 0 1 1 0 0 70 − 12 0 0 1 3 1 − 1 3 10 − 0 0 − 5 3 0 8 3 640 Das neue Tableau ist nicht optimal, weil δ 5 = 8 3 > 0. Spalte 5 wird neue Basisspalte. Nach Berechnung der Engpässe stellt sich f 15 = 4 3 als neues Pivotelement heraus: 5 6 10 12 0 x x/ f 5 1 0 − 1 3 0 4 3 20 15 6 0 1 1 0 0 70 − 12 0 0 1 3 1 − 1 3 10 − 0 0 − 5 3 0 8 3 640 I · 3 4 −→ 5 6 10 12 0 x 3 4 0 − 1 4 0 1 15 0 1 1 0 0 70 0 0 1 3 1 − 1 3 10 0 0 0 0 8 3 640 III + 1 3 I −−−−−→ IV − 8 3 III 5 6 10 12 0 0 3 4 0 − 1 4 0 1 15 6 0 1 1 0 0 70 12 1 4 0 1 4 1 0 15 − 2 0 − 1 0 0 600 Mit dem letzten Tableau ist die Optimallösung gefunden, weil alle Delta-Werte kleiner oder gleich Null sind. Die zugehörige Lösung lautet x 1 = 0, x 2 = 70, x 3 = 0, x 4 = 15, x 5 = 15 mit minimalen Kosten Z = 600. In der Lösung ist noch die Schlupfvariable x 5 = 15 aufgeführt. Für das Ausgangsproblem wird diese Variable einfach gestrichen. Es folgt die Rechnung bei Auswahl des Pivotelements f 15 : 5 6 10 12 0 x x/ f 5 1 0 0 1 1 30 30 6 0 1 0 − 3 1 40 40 10 0 0 1 3 − 1 30 − 0 0 0 5 1 690 II − I III + I −−−→ IV − I 5 6 10 12 0 x x/ f 0 1 0 0 1 1 30 30 6 − 1 1 0 − 4 0 10 − 10 1 0 1 4 0 60 15 − 1 0 0 4 0 660 Auch hier ist die Optimallösung nach einem Schritt noch nicht erreicht. Mit der Umformung III → 1 4 III bekommt man 5 6 10 12 0 1 0 0 1 1 30 − 1 1 0 − 4 0 10 1 4 0 1 4 1 0 15 − 1 0 0 4 0 660 I − III II + 4 · III −−−−−−→ IV − 4 · III 5 6 10 12 0 x 0 3 4 0 − 1 4 0 1 15 6 0 1 1 0 0 70 12 1 4 0 1 4 1 0 15 − 2 0 − 1 0 0 600 Der Rechenweg ist fast genau so aufwendig wie der zuerst gewählte. Grundsätzlich gibt es keine Regel, die die erforderliche Anzahl an Basiswechseln so gering wie möglich hält. In Extrembeispielen besucht das Verfahren annähernd jede mögliche Basisform, von denen es bei n Variablen und k Gleichungen bis zu ( n k ) Stück geben kann man spricht von exponentieller „Worst-Case“-Laufzeit in n, der Anzahl der Variablen. Dieser Fall wird jedoch in der Praxis eher nicht beobachtet, im Gegenteil ist das Verfahren generell („Average-Case“) sehr schnell, so dass sich der Simplex-Algorithmus auch bei großen Problemen - mit geeigneten Anpassungen - immer noch als effizient erweist. Abschließend behandeln wir ein Beispiel, in dem man anhand des Simplex-Tableaus erkennt, dass keine Optimallösung existiert. Die Nebenbedingungen liegen in Form folgender Gleichungsmatrix vor, die in ZSF überführt wird. ⎛ ⎝ 2 3 4 − 10 300 1 1 2 − 5 130 5 10 15 − 30 1000 ⎞ ⎠ ZSF → ⎛ ⎝ 1 0 0 − 3 30 0 1 0 0 40 0 0 1 − 1 30 ⎞ ⎠ <?page no="48"?> 48 2 Lineare Optimierung [1] Simplex- Tableau zur gegebenen Basisform [2] alle δ j ≤ 0? [3] Wähle δ > 0 [4] alle f k ≤ 0? [5] Wähle k mit f k > 0 und x k f k = min Lösung gefunden [6] Basiswechsel an f k Problem unlösbar nein nein ja ja Abbildung 2.1: Fluss-Darstellung des Simplex-Algorithmus c 1 . . . c . . . c n x x/ f c i 1 f 11 . . . f 1 . . . f 1 n d 1 d 1 / f 1 ... ... ... ... ... ... c i k f k 1 . . . f k . . . f kn d k d k / f k ... ... ... ... ... ... c i m f m 1 . . .f m . . . f mn d m d m / f m δ 1 . . . δ . . . δ n z δ = c i 1 · f 1 + c i 2 · f 2 + · · · + c i m · f m − c Abbildung 2.2: Simplex-Tableau und Delta-Werte Die Zielfunktion sei Z = 5x 1 + 6x 2 + 10x 3 − 30x 4 . Dazu gehört das Simplextableau 5 6 10 − 30 x x/ f 5 1 0 0 − 3 30 − 6 0 1 0 0 40 − 10 0 0 1 − 1 30 − 0 0 0 5 690 Wegen δ 4 = 5 > 0 ist die Optimallösung nicht erreicht. Zur vierten Spalte gibt es keine Engpässe, weil alle Basisvariablen entweder unabhängig von x 4 sind (hier: x 2 = 40) oder aber mit x 4 zunehmen (hier: x 1 = 30 + 3x 4 ≥ 0, x 3 = 30 + x 4 ≥ 0). Der Zielwert kann damit beliebig verringert werden. Das Problem hat keine Lösung, erkennbar daran, dass die f-Werte in Spalte 4 kleiner oder gleich Null sind. 2.3.5 Schematische Darstellung des Simplex-Verfahrens Der Simplex-Algorithmus ist in Abbildung 2.1 als Flussdiagramm dargestellt. Ausgehend von einem LOP mit Basisform (F | d), Basisspalten i 1 , . . . , i k und d j ≥ 0 lauten seine Schritte: <?page no="49"?> 2.3 Simplex-Algorithmus 49 [1] Stelle das Simplex-Tableau auf (Basisform, δ-Werte) vgl. Abbildung 2.2 . [2] Wenn alle δ j ≤ 0: Optimallösung erreicht (STOP). Sonst Schritt [3]. [3] Wähle so, dass δ > 0. [4] Wenn alle f i ≤ 0, ist das Problem unlösbar (STOP). Sonst Schritt [5]. [5] Wähle k so, dass f k > 0 und d k / f k minimal ist. [6] Bestimme durch folgenden Basiswechsel am Pivotelement f k die neue Basisform (F ′ | d ′ ) mit Basisspalten i 1 , . . . , i k − 1 , , i k +1 , . . . , i m : [a] Teile die k-te Zeile durch f k : f ′ kj = f kj / f k , d ′ k = d k / f k [b] Subtrahiere von jeder Zeile i = k das f i -fache der k-ten Zeile: f ′ ij = f ij − f i f ′ kj = f ij − f i f kj / f k d ′ i = d i − f i d ′ k = d i − f i d k / f k [c] Neuberechnung von δ-Werten und Zielwert oder Fortschreibung: Subtrahiere das δ -fache der k-ten Zeile von der δ-Zeile. Fahre mit der neuen Basisform und Schritt [1] fort. 2.3.6 Diskussion des Verfahrens Basisformen sind durch ZUF aus einem LGS hergeleitete Gleichungsmatrizen, in denen sämtliche Einheitsspalten auftreten. Ihre zugehörigen speziellen Lösungen heißen Basislösungen, die Einheitsspalten selber heißen Basisspalten, die zugehörigen Variablen Basisvariablen. Sind alle Basisvariablen ≥ 0, so heißt die Basislösung und auch die Basisform zulässig. Das Simplex-Tableau erweitert eine zulässige Basisform um Kennzahlen der zugehörigen Basislösung und steuert damit den Basiswechsel im Simplexalgorithmus, so dass die folgende Basislösung, sofern sie gefunden werden kann, zulässig ist und einen kleineren Zielwert hat. Beim Basiswechsel wird genau eine Nichtbasisspalte (mit δ > 0) zur Basisspalte der folgenden Basisform („die Spalte geht in die Basis“) und jeweils genau eine Basisspalte (nämlich eine mit einem minimalen Engpass) zu einer Nichtbasisspalte in der folgenden Basisform („die Spalte verlässt die Basis“). Der Begriff „Basis“ hat in der Vektorrechnung eine eigenständige Bedeutung vgl. S. 78 . Dass man sich auf die Untersuchung bzw. Fortschreibung von Basisformen mit dem Simplex-Algorithmus beschränken kann, rechtfertigt der folgende Satz: Satz 2.1 Ein LOP mit optimaler Lösung hat stets auch eine optimale Lösung, die Basislösung ist. Das Verfahren endet in der Regel nach endlich vielen Schritten aufgrund des folgenden Sachverhaltes: Satz 2.2 Sind in einer nicht-optimalen Basislösung alle Basisvariablen ungleich Null, so erhält man durch den Basiswechsel eine Lösung mit strikt kleinerem Zielwert. Denn der Zielwert jeder zulässigen Lösung lässt sich ausgehend vom aktuellen nichtoptimalen Simplextableau gemäß Abbildung 2.2 im Falle von δ > 0 als Z − ∑ k δ k x k = Z − δ x − ∑ k = δ k x k <?page no="50"?> 50 2 Lineare Optimierung schreiben, wobei z der Zielwert der aktuellen Basislösung ist. Die hinten stehende Summe ist Null, denn entweder sind die δ k = 0 (Basisvariablen) oder die x k = 0 (Nichtbasisvariable). Geht nun x in die Basis, so verringert sich z um den Wert δ x > 0, denn δ > 0 und x > 0, wenn x in die Basis geht, weil x laut Annahme an alle Basislösungen ungleich Null (also > 0) ist. Eine Basislösung mit Basisvariablen mit Wert Null heißt degeneriert. Zyklen treten nach obigem Satz nur (und dann auch nur selten) auf, wenn degenerierte Basislösungen erzeugt werden. Oft wird das Verfahren - gerade bei Problemen mit sehr vielen Variablen - aber sehr langsam. Bei ausschließlich nichtdegenerierten Basislösungen wird der Algorithmus, angesichts von nur endlich vielen Basislösungen auch nach endlich vielen Schritten terminieren - mit einer Optimallösung oder erkennbarer Unlösbarkeit. Übungen zu Abschnitt 2.3 ? 5. Gegeben sei das LGS 2x 1 − x 2 − x 4 = 13 − 3x 2 − x 3 − 10x 4 = 12 − 2x 1 + x 2 + 2x 3 + 3x 4 = 7 a) Stellen Sie die Gleichungsmatrix auf. b) Geben Sie Basislösung und allgemeine Lösung zur Zeilenstufenform an. c) Leiten Sie durch Basiswechsel die übrigen wesentlich verschiedenen Basisformen her. Lesen Sie Basislösungen ab. 6. Zu minimieren ist für x i ≥ 0 der Ausdruck 10x 1 + 15x 2 + 30x 3 + 20x 4 + 10x 5 + 30x 6 unter den Nebenbedingungen − x 1 + x 2 − 2x 4 − x 5 = 200 x 1 + x 3 + x 4 + x 5 = 200 x 1 − x 4 + x 5 + x 6 = 600 Ermitteln Sie durch Basiswechsel verschiedene (zulässige oder nichtzulässige) Basislösungen zu dem folgenden Optimierungsproblem in Standardform und berechnen Sie jeweils die mit diesen Basislösungen verbundenen Zielfunktionswerte. 7. Im anfänglichen Regalproblem aus Abschnitt 1 (ohne Ungleichung) soll nun der Deckungsbeitrag 65x 1 + 120x 2 + 170x 3 + 230x 4 maximiert werden. Lösen Sie dieses Problem mittels des Simplex-Verfahrens; nutzen Sie dabei die Zeilenstufenform. 8. Untersuchen Sie mit Hilfe des Simplex- Verfahrens, ob das folgende lineare Programm eine Optimallösung besitzt: 2x 1 − x 2 + x 3 + 5x 4 ! = min − x 2 + x 3 + 2x 4 + x 5 = 2 x 1 + x 3 + 2x 4 + 2x 6 = 2 2x 2 + 2x 3 + x 7 = 3 x 1 , x 2 , x 3 , x 4 , x 5 , x 6 , x 7 ≥ 0 9. Verfahren Sie wie in der vorangegangenen Aufgabe mit dem linearen Programm 2x 1 − x 2 + x 3 + 5x 4 ! = min − x 2 + x 3 + 2x 4 + x 5 = 2 x 1 + x 3 + 2x 4 + 2x 6 = 2 x 1 , x 2 , x 3 , x 4 ≥ 0 10. Lösen Sie das Produktionsplanungsproblem aus Aufgabe 1 mittels des Simplex-Verfahrens. 2.4 Zweiphasenmethode Der Simplex-Algorithmus benötigt eine Startlösung, die wir im vorangegenen Abschnitt über die Zeilenstufenform des Gleichungssystems der Nebenbedingungen bestimmen konnten. Die Zeilenstufenform ist aber nur in Ausnahmefällen geeignet, denn meist ist die zugehörige Basislösung gar nicht zulässig, weil sie negative Werte beinhaltet. <?page no="51"?> 2.4 Zweiphasenmethode 51 ⎛ ⎝ 2 3 4 5 1 300 1 1 2 4 0 180 5 10 15 20 0 1000 ⎞ ⎠ ⎛ ⎝ 1 0 0 1 1 80 0 1 0 − 3 1 − 60 0 0 1 3 − 1 80 ⎞ ⎠ ⎛ ⎝ 1 0 − 1 3 0 4 3 160 3 0 1 1 0 0 20 0 0 1 3 1 − 1 3 80 3 ⎞ ⎠ ⎛ ⎝ 1 0 1 4 0 160 0 1 1 0 0 20 0 0 − 1 − 3 1 − 80 ⎞ ⎠ ⎛ ⎝ 3 1 0 0 4 180 − 3 0 1 0 − 4 − 160 1 0 0 1 1 80 ⎞ ⎠ ⎛ ⎝ − 1 1 0 − 4 0 − 140 1 0 1 4 0 160 1 0 0 1 1 80 ⎞ ⎠ ⎛ ⎝ 0 1 1 0 0 20 1 4 0 1 4 1 0 40 3 4 0 − 1 4 0 1 40 ⎞ ⎠ ⎛ ⎝ 0 1 1 0 0 20 1 4 − 1 4 0 1 0 35 3 4 1 4 0 0 1 45 ⎞ ⎠ ⎛ ⎝ 1 1 3 0 0 4 3 60 0 1 1 0 0 20 0 − 1 3 0 1 − 1 3 20 ⎞ ⎠ ⎛ ⎝ 1 − 1 0 4 0 140 0 1 1 0 0 20 0 1 0 − 3 1 − 60 ⎞ ⎠ Abbildung 2.3: Verschiedene Basisformen im Verpackungsbeispiel Betrachten wir beispielhaft wieder das Regal-Verpackungsproblem, bei dem nicht alle Regalträger verpackt werden müssen. Jetzt nehmen wir aber an, dass 180 statt 130 Querstangen im Lager sind, führen wieder eine Schlupfvariable für die Träger ein und überführen das Gleichungssystem der Nebenbedingungen in die Zeilenstufenform: ⎛ ⎝ 2 3 4 5 1 300 1 1 2 4 0 180 5 10 15 20 0 1000 ⎞ ⎠ −→ ⎛ ⎝ 1 0 0 1 1 80 0 1 0 − 3 1 − 60 0 0 1 3 − 1 80 ⎞ ⎠ Die zugehörige Basislösung x 1 = 80, x 2 = − 60, x 3 = 80, x 4 = 0, x 5 = 0 ist nicht brauchbar, weil x 2 < 0. Also kann eine erste zulässige Basislösung nicht mit dem Gauß’schen Eliminationsverfahren gefunden werden. Es stellt sich die Frage, ob das Problem überhaupt eine Basisform mit nichtnegativer Basislösung hat. Dies ist in der Tat der Fall. Indem man beispielsweise ausgehend von der Zeilenstufenform verschiedene, nicht vom Simplex-Algorithmus gelenkte Basiswechsel durchführt, könnte man neun Basisformen gemäß Abbildung 2.3 erhalten die Kanten des innen dargestellten Graphen zeigen, welche Basisformen man durch Basiswechsel direkt ineinander überführen kann. Tatsächlich gibt es sogar 54 Basisformen, von denen je 6 dieselbe Basislösung haben und ausschließlich durch Zeilenvertauschungen auseinander hervorgehen. Für jede Basislösung steht oben eine repräsentative Basisform, die Basisspalten sind jeweils hervorgehoben. Für die Spalten 1,4,5 gibt es keine Basisform (daher wird rechts unten in Abbildung 2.3 die Ausgangsgleichungsmatrix dargestellt), weil die Spalten linear abhängig sind vgl. S. 73 . Von den insgesamt 9 Basislösungen haben nur vier ausschließlich nichtnegative Einträge, bei diesen sind oben die rechten Seiten hervorgehoben. Schon in diesem Beispiel ist es sehr aufwändig, eine erste zulässige Basislösung zu finden und wir wollen Sie nicht ermutigen, dies durch Handrechnung und Probieren zu lösen, wenn Sie nicht viel Zeit mitbringen. Erst recht in größeren Optimierungsproblemen gleicht die Suche nach einer ersten zulässigen Basislösung ohne weitere Hilfen der sprichwörtlichen Suche nach der „Nadel im Heuhaufen“. Die Zweiphasenmethode ist eine elegante Strategie zur Lösung dieses Problems, weil sie die Suche nach einer zulässigen Basislösung ebenfalls als LOP darstellt und dieses <?page no="52"?> 52 2 Lineare Optimierung dann löst. Dazu sind folgende vorbereitenden Schritte durchzuführen: Eine Gleichung der Nebenbedingungen, die auf der rechten Seite einen negativen Wert auf, wird mit − 1 multipliziert. Das ist wichtig, weil später die Basislösungen einfach auf der rechten Seite abgelesen werden und ja nicht negativ sein sollen. Fehlende Einheitsspalten werden nun an die anderen Variablenspalten des LGS angehängt, was die Anzahl der Variablen im Problem erhöht. Die zusätzlichen Spalten heißen künstlich, die zugehörigen Variablen künstliche Variablen. Aus der erweiterten Gleichungsmatrix kann man sofort eine Basislösung ablesen. Im obigen Verpackungsbeispiel fehlen in der Ausgangs-Gleichungsmatrix zwei Einheitsspalten, die nun hinzugefügt werden: ⎛ ⎝ 2 3 4 5 1 300 1 1 2 4 0 180 5 10 15 20 0 1000 ⎞ ⎠ ⎛ ⎝ 2 3 4 5 1 0 0 300 1 1 2 4 0 1 0 180 5 10 15 20 0 0 1 1000 ⎞ ⎠ Hierzu gehören nun zwei künstliche Variablen x 6 , x 7 und die zulässige Basislösung x 1 = 0, x 2 = 0, x 3 = 0, x 4 = 0, x 5 = 300, x 6 = 180, x 7 = 1000 Würde der obere Eintrag in der Gleichungsmatrix rechts − 300 statt 300 lauten, so müsste zunächst die erste Zeile mit ( − 1) multipliziert werden und es gäbe dann überhaupt keine Einheitsspalten, so dass drei künstliche Variablen benötigt würden, d.h. ⎛ ⎝ 2 3 4 5 1 − 300 1 1 2 4 0 180 5 10 15 20 0 1000 ⎞ ⎠ ⎛ ⎝ − 2 − 3 − 4 − 5 − 1 1 0 0 300 1 1 2 4 0 0 1 0 180 5 10 15 20 0 0 0 1 1000 ⎞ ⎠ Die gewonnene Gleichungsmatrix liegt jetzt in Basisform vor, so dass durch Basiswechsel weitere Basisformen gewonnen werden können. Wenn als Ergebnis dieser Basiswechsel keine der künstlichen Spalten mehr in der Basis ist, kann man die künstlichen Spalten einfach streichen und hat eine Basisform des ursprünglichen Problems. Das Verschieben der Basisspalten aus dem „künstlichen“ in den ursprünglichen Bereich mittels Basiswechsel nennt man Phase 1, die weitere Optimierung Phase 2. In Phase 1 muss eine andere Zielfunktion verwendet werden - die ursprüngliche Zielfunktion hat ja zu wenig Variablen. Die neue Zielfunktion wird so gestaltet, dass der Verbleib von künstlichen Variablen in der Basis so stark wie möglich bestraft wird, die Aufnahme von ursprünglichen Variablen in die Basis hingegen gar nicht. Die Zielfunktion der Phase 1 hat folgende Koeffizienten: Die Variablen des Ausgangsproblems haben Koeffizienten Null. Die künstlichen Variablen haben Koeffizienten Eins. Der Simplex-Algorithmus wird bei dieser Kostenfunktion versuchen, die künstlichen Variablen aus der Basis zu entfernen und durch Ausgangsvariablen zu ersetzen. Das Optimierungsproblem der Phase 1 hat immer eine Lösung, denn die Zielfunktion ist stets ≥ 0. Bei linearen Minimierungsproblemen ist dies aber schon ausreichend dafür, dass es eine Optimallösung gibt, sofern es überhaupt eine zulässige Lösung der Nebenbedingungen gibt - das ist in Phase 1 aber immer der Fall, weil genau zu diesem Zweck die künstlichen Variablen eingeführt wurden. Im obigen Beispiel mit den zwei künstlichen Variablen lautet die zu minimierende Zielfunktion der ersten Phase 0x 1 + 0x 2 + 0x 3 + 0x 4 + 0x 5 + 1x 6 + 1x 7 . <?page no="53"?> 2.4 Zweiphasenmethode 53 Es wird Phase 1 nach den Vorschriften des Simplex-Algorithmus durchgeführt. Das Starttableau steht rechts, Nr. 1 . Wegen der zahlreichen positiven Delta-Werte gibt es Lösungsvarianten für die Basiswechsel. Nach Bland’s Regel müsste Spalte 1 in die Basis gehen, was im Folgenden nicht berücksichtigt wird. 1 0 0 0 0 0 1 1 x x f 0 2 3 4 5 1 0 0 300 60 1 1 1 2 4 0 1 0 180 45 1 5 10 15 20 0 0 1 1000 50 6 11 17 24 0 0 0 1180 Wir bringen statt dessen Spalte 4 ins die Basis und erhalten Tableau Nr. 2 mit noch zwei positiven Delta-Werten. Mit dem nächsten Basiswechsel verlässt auch die letzte künstliche Variable die Basis. Tableau Nr. 3 ist dann optimal in Phase 1. Beide künstlichen Variablen sind aus der Basis entfernt. 2 0 0 0 0 0 1 1 x x f 0 3 4 7 4 3 2 0 1 − 5 4 0 75 50 0 1 4 1 4 1 2 1 0 1 4 0 45 90 1 0 5 5 0 0 − 5 1 100 20 0 5 5 0 0 − 6 0 100 3 0 0 0 0 0 1 1 x x f 0 3 4 1 4 0 0 1 1 4 − 3 10 45 0 1 4 − 1 4 0 1 0 3 4 − 1 10 35 0 0 1 1 0 0 − 1 1 5 20 0 0 0 0 0 − 1 − 1 0 In Phase 2 streicht man die künstlichen Spalten und verwendet die ursprüngliche Zielfunktion; Starttableau 4 hat noch einem positiven Delta-Wert. Das Folgetableau 5 ist Optimaltableau. Optimale Lösung ist x 1 = 0, x 2 = 20, x 3 = 0, x 4 = 40, x 5 = 40 mit Zielwert 600. Gemäß Variable x 5 bleiben 40 Regalträger ungenutzt. Es werden 20 Stück Bill2 und 40 Stück Bill4 gepackt. 4 5 6 10 12 0 x f 0 3 4 1 4 0 0 1 45 180 12 1 4 − 1 4 0 1 0 35 − 10 0 1 1 0 0 20 20 − 2 1 0 0 0 620 5 5 6 10 12 0 x x f 0 3 4 0 − 1 4 0 1 40 12 1 4 0 1 4 1 0 40 6 0 1 1 0 0 20 − 2 0 − 1 0 0 600 Wir ändern das Beispiel nochmals ab. Statt 300 stehen jetzt 200 Träger zur Verfügung (nicht komplett zu verbrauchen). Wieder sind zwei künstliche Variablen nötig, was in Phase 1 zu Starttableau 1 führt. In den beiden Basiswechseln bis zum Optimaltableau 3 verlässt nur eine künstliche Variable die Basis. Der Zielwert ist größer als Null, auch das bedeutet, dass noch wenigstens eine künstliche Variable in der Basis ist, eben x 7 . Man findet also keine Basislösung, die ausschließlich aus ursprünglichen Variablen besteht. Das Problem mit 200 Trägern ist unlösbar. 1 0 0 0 0 0 1 1 x x f 0 2 3 4 5 1 0 0 200 50 1 1 1 2 4 0 1 0 130 65 1 5 10 15 20 0 0 1 1000 200 3 6 11 17 24 0 0 0 1130 2 0 0 0 0 0 1 1 x x f 0 1 2 3 4 1 5 4 1 4 0 0 50 40 1 0 − 1 2 0 3 2 − 1 2 1 0 30 20 1 − 5 2 − 5 4 0 5 4 − 15 4 0 1 250 200 − 5 2 − 7 4 0 11 4 − 17 4 0 0 280 3 0 0 0 0 0 1 1 x 0 1 2 7 6 1 0 2 3 − 5 6 0 25 0 0 − 1 3 0 1 − 1 3 2 3 0 20 1 − 5 2 − 5 6 0 0 − 10 3 − 5 6 1 225 − 5 2 − 5 6 0 0 − 10 3 − 11 6 0 225 <?page no="54"?> 54 2 Lineare Optimierung LOP in Standardform Phase 1: Hilfsproblem mit zusätzlichen künstlichen Variablen und künstlicher Kostenfunktion Zielwert in Phase 1 > 0? Problem unlösbar Phase 2: Ausgangsproblem mit Startlösung aus Phase 1 durchführen. ja nein Abbildung 2.4: Fluss-Darstellung der Zweiphasenmethode Zuletzt lösen wir das Transportproblem aus Beispiel 2.2 vgl. S. 34 , in Standardform: Minimiere 7x 11 +6x 12 +5x 13 +5x 21 +4x 22 +6x 23 mit x ij ≥ 0 unter x 11 +x 12 +x 13 = 42, x 21 + x 22 + x 23 = 18, x 11 + x 21 = 15, x 12 + x 22 = 25. Die Tableaus lauten: 1 0 0 0 0 0 0 1 1 x x/ f 0 1 1 1 0 0 0 0 0 42 42 0 0 0 0 1 1 1 0 0 18 − 1 1 0 0 1 0 0 1 0 15 15 1 0 1 0 0 1 0 0 1 25 − 1 1 0 1 1 0 0 0 40 2 0 0 0 0 0 0 1 1 x x/ f 0 0 1 1 − 1 0 0 − 1 0 27 27 0 0 0 0 1 1 1 0 0 18 − 0 1 0 0 1 0 0 1 0 15 − 1 0 1 0 0 1 0 0 1 25 25 0 1 0 0 1 0 − 1 0 25 3 0 0 0 0 0 0 1 1 x 0 0 0 1 − 1 − 1 0 − 1 − 1 2 0 0 0 0 1 1 1 0 0 18 0 1 0 0 1 0 0 1 0 15 0 0 1 0 0 1 0 0 1 25 0 0 0 0 0 0 − 1 − 1 0 4 7 6 5 5 4 6 x x/ f 5 0 0 1 − 1 − 1 0 2 − 6 0 0 0 1 1 1 18 18 7 1 0 0 1 0 0 15 15 6 0 1 0 0 1 0 25 − 0 0 0 3 3 0 373 5 7 6 5 5 4 6 x x/ f 5 1 0 1 0 − 1 0 17 − 6 − 1 0 0 0 1 1 3 3 5 1 0 0 1 0 0 15 − 6 0 1 0 0 1 0 25 25 − 3 0 0 0 3 0 328 6 7 6 5 5 4 6 x 5 0 0 1 0 0 1 20 4 − 1 0 0 0 1 1 3 5 1 0 0 1 0 0 15 6 1 1 0 0 0 − 1 22 0 0 0 0 0 − 3 319 Zur Erläuterung: Eine redundante Nebenbedingung wurde gestrichen. Phase 1 benötigt zwei künstliche Variablen (Tableaus 1 , 2 und 3 ). Die optimale Lösung mit Zielwert Null ergibt für das Ausgangsproblem eine Startlösung durch Streichen der künstlichen Spalten. In der rechten Spalte wird Phase 2 mit der ursprünglichen Kostenfunktion durchgeführt (Tableaus 4 , 5 und 6 ). Bei minimalen Gesamtkosten von 319 (Tausend Euro) müssen 20t von Gebiet 1 zu Röster 3, 15t von Gebiet 2 zu Röster 1, 22t von Gebiet 1 zu Röster 2 und 3t von Gebiet 2 zu Röster 2 transportiert werden. Alle f-Koeffizienten der Tableaus sind 0, 1 oder − 1. Aus dieser Beobachtung haben sich graphische Algorithmen entwickelt, die direkt auf Grundlage der Kostenmatrix arbeiten (Transporttableau, Zyklenmethode, [ Müller-Funk/ Kathöfer , 2017]). Wir fassen die Zweiphasenmethode zusammen, der Ablauf ist in Abbildung 2.4 schematisch dargestellt: <?page no="55"?> 2.5 Softwaregestützte Lösung linearer Optimierungsprobleme 55 [1] Bringe das LOP in Standardform (S), entferne „redundante“ Gleichungen. Überführe durch Zeilenumformungen alle rechten Seiten des LGS in Werte ≥ 0. [2] Phase 1: Ergänze alle fehlenden Einheitsspalten. Löse das Minimierungsproblem mit „künstlicher“ Kostenfunktion mit Simplexalgorithmus. [3] Phase 2: Bei einer Lösung von Phase 1 mit Zielwert > 0 ist das Ausgangsproblem nicht lösbar; anderenfalls erhält man mit der Lösung aus Phase 1 nach Streichen der künstlichen Variablen und mit der ursprünglichen Zielfunktion in Phase 2. entweder eine optimale Basislösung und durch Streichen der Schlupfvariablen eine Lösung des Ausgangs-LOP, oder eine Basislösung mit einem δ-Wert δ > 0 und f-Werten f i ≤ 0. Dann ist die Zielfunktion nach unten unbeschränkt, es gibt keine Optimallösung. Übungen zu Abschnitt 2.4 ? 11. Lösen Sie x 1 + 2x 2 + 4x 4 ! = min x i ≥ 0 unter 2x 1 + 4x 2 + 3x 3 + x 4 ≥ − 200 2x 2 + 2x 3 + 4x 4 ≥ − 100 − x 1 + 2x 2 ≤ 100 x 1 + x 2 + 2x 4 = 150 12. Ist folgendes LOP lösbar? 10x 1 + 20x 2 + 40x 4 ! = min x i ≥ 0 2x 1 + 4x 2 + 3x 3 + x 4 ≤ 10 2x 2 + 2x 3 + 4x 4 ≤ − 10 − x 1 + 2x 2 + 2x 4 ≤ − 10 13. Lösen Sie das LOP in Aufgabe 2.2. 14. Eine Papierfabrik hat einen Auftrag für Papierrollen der Breiten 60, 30 und 20 cm, die sie aus 95cm breiten Rollen durch sechs Zuschnitte herstellen kann: Breite 1 2 3 4 5 6 Auftrag 60 1 1 0 0 0 0 1440 30 1 0 3 2 1 0 2160 20 0 1 0 1 3 4 1080 Wie kann der Auftrag mit möglichst wenig 95cm-Rollen erfüllt werden? 2.5 Softwaregestützte Lösung linearer Optimierungsprobleme Reale LOP sind für eine händische Lösung meist zu groß. Dann greift man auf Software- Lösungen zurück: Probleme mit relativ wenigen Variablen und Nebenbedingungen lassen sich in gängigen Tabellenkalkulationen mit integrierten Hilfsprogrammen lösen („Solver“). Bei LOP mit vielen Variablen/ Nebenbedingungen bieten sich Bibliotheken an, z.B. COIN-OR LP oder die Bibliothek lp_solve (z.B. für Java, R). Beispielhaft wird gezeigt, wie das Verpackungsproblem aus Beispiel 2.1 vgl. S. 34 mit dem Solver der Tabellenkalkulation Calc aus der OpenOffice -Suite gelöst werden kann. In einem Tabellenblatt wie in Abbildung 2.5 links werden folgende Einträge vorgenommen: Die Zellen B2 bis E2 nehmen im Laufe der Optimierung die Werte der Variablen x 1 bis x 4 auf, sie bleiben erst einmal leer (der Solver benötigt keine Startlösung). Die anderen markierten Zellen in Spalte F werden mit Formeln versehen, welche Gesamtkosten und Gesamtverbrauch berechnen. Die Gesamtkosten in F2 werden z.B. mit der <?page no="56"?> 56 2 Lineare Optimierung A B C D E F G 1 Regal Bill1 Bill2 Bill3 Bill4 Kosten 2 Anzahl 3 Stückkosten 5 6 10 12 Ist Soll 4 Träger 2 3 4 5 0 300 5 Querstange 1 1 2 4 0 130 6 Boden 5 10 15 20 0 1000 A B C D E F G 1 Regal Bill1 Bill2 Bill3 Bill4 Kosten 2 Anzahl 20 70 0 10 640 3 Stückkosten 5 6 10 12 Ist Soll 4 Träger 2 3 4 5 300 300 5 Querstange 1 1 2 4 130 130 6 Boden 5 10 15 20 1000 1000 Abbildung 2.5: Lösung des Verpackungsbeispiels mit dem Solver, links vor, rechts nach der Optimierung Formel F2=B3*B2+C3*C2+D3*D2+E3*E2 ermittelt. Der tatsächliche Verbrauch an Bauteilen wird in den Zellen F4 bis F6 aufgenommen, z.B. F4=B4*B2+C4*C2+D4*D2+E4*E2 . Im Menü „Extras“ ruft man den Solver auf, wählt das Minimumproblem und trägt als Zielzelle F2 sowie als veränderbare Zellen B2: E2 ein. Schließlich müssen noch die Nebenbedingungen abgebildet werden. Dies geschieht über den Vergleich von Ist mit Soll. In die Felder „Zellbezug“ bzw. „Operator“ bzw. „Wert“ werden die Einträge F4: F6 bzw. = bzw. G4: G6 eingetragen. Unter den Optionen wählen Sie schließlich noch aus, dass die Variablen nichtnegativ sein sollen. Mit „Lösen“ wird die Optimierung gestartet und liefert nach unmittelbar Zeit die Einträge vgl. Abbildung 2.5 rechts. Ähnlich sieht die Konfiguration des „Solver“ unter MS-Excel aus, wobei der Solver einmalig aktiviert werden muss (Menü „Optionen/ Add-Ins/ Verwalten Gehe zu Excel Add-Ins“). LOP mit mehr als 200 Variablen und 50 Nebenbedingungen (z.B. das Fahrtenproblem in Beispiel 2.4 vgl. S. 35 )) lassen sich nicht mit dem installierten Solver lösen. Für Excel hilft hier das externe Tool OpenSolver (www.opensolver.org, auf Grundlage der COIN-OR LP -Bibliothek), welches sich als VBA-Skript laden und dann wie der Solver bedienen lässt. Zusammenfassung Lineare Optimierungsproblem lassen sich mit dem Simplex-Algorithmus lösen. Dieser überführt die Nebenbedingungen von einer zulässigen Basisform in die nächste, so dass sich der Zielwert dabei stets verringert. Die Basiswechsel orientieren sich an der durch Variablensubstitution erhaltenen reduzierten Zielfunktion (in Gestalt der Delta-Werte) und an den Engpässen der Nichtbasisspalten. Der Simplex-Algorithmus erfordert eine Basisform. Diese kann nach Einführung künstlicher Variablen (fehlender Basisspalten) wieder mit dem Simplex-Algorithmus ermittelt werden. Beide Phasen, die Ermittlung einer Startlösung und die eigentliche Optimierung mit Hilfe dieser Startlösung ergeben zusammen die Zweiphasenmethode. Software-Lösungen (auch) größerer LOP sind z.B. mit Tabellenkalkulationen oder geeigneten Programmbibliotheken möglich. Für weitere Anwendungen und Konzepte im Zusammenhang mit LOP (z.B. ganzzahlige lineare Optimierung, Dualität) sei auf die Literatur verwiesen, empfehlenswert sind z.B. [ Bazaraa/ Jarvis/ Sherali , 2010], [ Grimme/ Bossek , 2018] oder [ Müller- Funk/ Kathöfer , 2017]. <?page no="57"?> Zusammenfassung Übungen zur Vertiefung von Kapitel 2 ? 15. Lösen Sie jeweils das LOP und geben Sie auch an, wenn das Problem unlösbar ist. a) x 1 + 2x 2 + 4x 3 ! = min x 1 ,...,x 4 ≥ 0 x 1 + x 4 = 30 2x 1 + x 2 − 3x 3 = 40 b) x 1 + 2x 2 + 4x 3 ! = min x 1 ,...,x 4 ≥ 0 x 1 + x 4 = − 40 2x 1 + x 2 − 3x 3 + x 4 = − 30 c) − x 1 − 2x 2 − x 4 ! = min x 1 ,...,x 4 ≥ 0 x 1 + x 4 = 40 x 2 − 3x 3 + x 4 = 30 d) 4x 1 + x 2 + 7x 4 ! = min x 1 ,...,x 4 ≥ 0 x 1 + x 4 = 100 − x 1 + x 3 = 200 x 2 − x 4 = 400 e) 3x 1 − 4x 2 + 2x 3 + x 4 ! = min x 1 ,...,x 4 ≥ 0 x 1 + 3x 3 + 4x 4 = 100 − x 1 + x 3 + 3x 4 = 200 x 2 − 2x 4 = 400 f) 3x 1 − 4x 2 + 2x 3 + x 4 ! = min x 1 ,...,x 4 ≥ 0 x 1 + 4x 4 = 100 − x 1 + x 3 + 3x 4 = 200 x 2 − 4x 4 = 400 g) 3x 1 − 4x 2 + 2x 3 + x 4 + x 5 ! = min x i ≥ 0 x 1 + 4x 4 + 5x 5 = 100 − x 1 + x 3 + 3x 4 + x 5 = 200 x 2 + 2x 5 = 400 h) 10x 1 + 40x 2 + 20x 3 + 10x 4 + 10x 5 + 10x 6 ! = min x i ≥ 0 unter x 3 − x 4 + 4x 5 + 2x 6 = 350 x 2 − 2x 4 + 4x 5 = 100 x 1 + x 2 + 2x 5 + 3x 6 = 700 16. Gegeben sei das Tableau 3 0 2 − 1 0 1 8 − 1 0 2 0 1 0 2 2 1 0 − 1 0 0 4 5 0 0 − 5 0 0 18 a) Passt das Tableau zur Zielfunktion a1) x 1 + 2x 2 + 4x 3 + 2x 4 + x 5 + x 6 a2) 2x 1 + 2x 2 + 4x 3 + 2x 4 + x 5 + x 6 a3) x 1 + 2x 2 + 3x 3 + 4x 4 + 5x 5 + 6x 6 a4) − 14x 1 + 18x 3 + 5x 4 + 9x 5 ? b) Berechnen Sie das Folgetableau. 17. Gesucht ist ein Anlage-Portfolie für Rückstellungen von bis zu 30 Mio. e : Anlage A 1 A 2 A 3 Rendite in % 10 5 8 Risikokoeffizient 6 1 3 Das Portfolio soll maximale Rendite bei Höchstrisiko 100 haben. A 1 und A 3 zusammen ergeben maximal 50% von A 2 . a) Stellen Sie das zugehörige lineare Optimierungsproblem auf. b) Lösen Sie das Problem und interpretieren Sie Ihr Ergebnis. 18. In Duropa sollen von der gemeinsamen Währung Duro( D ) je mindestens 1 Million Stück der vier im Umlauf befindlichen Banknoten nachgedruckt werden, dabei je mindestens 30 Millionen D mit 5- und 10- D -Noten, 50 Millionen D mit 10- und 20- D -Noten , 200 Millionen D mit 20- und 50- D -Noten. Die Notendruckerei muss die Vorgaben möglichst kostengünstig bei folgenden Stückkosten umsetzen: Wert 5 D 10 D 20 D 50 D Kosten 1 D 5 D 5 D 10 D a) Erläutern Sie das LOP x 1 + 5x 2 + 5x 3 + 10x 4 ! = min 5x 1 + 10x 2 ≥ 15 10x 2 + 20x 3 ≥ 20 20x 3 + 50x 4 ≥ 130 x 1 , x 2 , x 3 , x 4 ≥ 0 in Hinblick auf die Aufgabenstellung (die Mindestmengen der vier Werte sind bereits herausgerechnet). b) Wie lautet die Standardform? <?page no="58"?> 58 2 Lineare Optimierung c) In Phase 2 erhalten Sie das Tableau 1 5 5 10 0 0 0 x 5 1 2 1 0 0 − 1 10 0 0 3 2 5 − 1 4 0 1 0 1 20 − 1 20 0 1 4 10 1 10 0 0 1 − 1 50 1 50 − 1 50 5 2 5 4 0 0 0 − 9 20 − 1 20 − 1 5 135 4 Bestimmen Sie die fehlenden x f -Werte und führen Sie einen Basiswechsel aus. Stellen Sie das Folgetableau auf. d) Wie lautet die Optimallösung und welche minimalen Kosten ergeben sich für den Druck der Banknoten? (Berücksichtigen Sie die Mindestherstellung! ) 19. Lösen Sie das Problem des kostenminimalen Kaffeetransportes (Beispiel 2.2 vgl. S. 34 ) mit dem Solver eines Tabellenkalkulationsprogramms. <?page no="59"?> 3 Vektoren in der Ökonomie Übersicht Vektoren als mathematische Formalisierung der Bündelung von ökonomischen Größen werden in diesem Kapitel in den ökonomischen Kontext eingeordnet vgl. Abschnitt 3.1 . Wir besprechen wesentliche Fakten rund um Linearkombinationen vgl. Abschnitt 3.2, S. 65 und erläutern das Konzept der Untervektorräume und ihrer Basen vgl. Abschnitt 3.3, S. 75 . Schließlich werden geometrische Grundkonzepte wie Winkel, Länge und Abstand auf Vektorräumen behandelt vgl. Abschnitt 3.4, S. 82 . Der Abstandsbegriffführt uns zum Prinzip der Projektion, auf dem die Kleinste-Quadrate-Methode der Statistik beruht vgl. Abschnitt 3.5, S. 89 . 3.1 Vektoren und Operationen mit Vektoren Ökonomische Größen wie Preis, Absatz, Nachfrage, Faktoreinsatzmenge können adäquat durch Verwendung reeller Zahlen oder, falls sie zunächst noch unbestimmt sind, durch reelle Variablen beschrieben werden. Vielfach ist man aber gezwungen, simultan mit mehreren dieser Größen zu rechnen: Ein Unternehmen der Fertigungsindustrie stellt in der Regel ein ganzes Bündel von Produkten in verschiedenen Mengen her. Jedem Produkt ist in der Fertigung eine Teileliste, also ein Bündel von Mengenangaben der benötigen Rohstoffe zugeordnet. Der Umsatz einer Unternehmung stellt sich als ein Bündel von Einzelumsätzen dargestellt werden, oft in zeitlicher Entwicklung. Ein Aktien-Portfolio stellt ein Bündel von einzelnen Kapitalanlagen dar. Ein Wahlergebnis besteht in einem Bündel von Stimmanzahlen oder Stimmanteilen. Der Markt für ein bestimmtes Gut wird durch ein Bündel von absoluten oder relativen Marktanteilen der Anbieter erfasst. Zur Untersuchung von Preisindizes und Inflationskennzahlen wird der ökonomische Bedarf von Haushalten durch den so genannten Warenkorb, ein Bündel von Mengen verschiedener repräsentativer Güter beschrieben. Unternehmen verwalten Kundenprofile, welche neben persönlichen Daten den Geschäftsverlauf beinhalten. Zur Beschreibung des jeweiligen ökonomischen Sachverhaltes durch ein geeignetes „Profil“ sind in aller Regel gebündelte Größen, oft in Form von Bündeln reeller Zahlen, erforderlich; die Größen eines Bündels haben zudem meist verschiedene nicht untereinander kompatible Einheiten. <?page no="60"?> 60 3 Vektoren in der Ökonomie Definition 3.1 ! [1] Es bezeichnet R n die Menge/ Gesamtheit aller Spaltenvektoren mit n Komponenten ⎛ ⎝ x 1 ... x n ⎞ ⎠ mit Einträgen x 1 , . . . , x n ∈ R . [2] Die Menge aller reellen Zeilenvektoren (x 1 , . . . , x n ) oder (x 1 | x 2 | . . . | x n ) wird mit R n bezeichnet. Statt Zeilenvektoren sagt man auch geordnete n-Tupel. [3] Transposition von Vektoren: Für einen Spaltenvektor x ∈ R n , x = ⎛ ⎝ x 1 ... x n ⎞ ⎠ setzt man x T : = (x 1 , . . . , x n ) (lies: „x transponiert“) . [4] Für einen Zeilenvektor y = (y 1 , . . . , y n ) ∈ R n setzt man y T : = ⎛ ⎝ y 1 ... y n ⎞ ⎠ . Beispiel 3.1 (Beispiele für Vektoren in der Ökonomie) Im Regalbau-Beispiel ist durch ⎛ ⎝ 300 130 1000 ⎞ ⎠ = (300, 130, 1000) T der Spaltenvektor der zur Verfügung stehenden Rohstoffmengen „Träger, Querstangen, Regalböden“ festgelegt. Der zugehörige Spaltenvektor der Endproduktmengen (Regaltypen) mit maximalem Deckungsbeitrag lautet ⎛ ⎜ ⎝ 20 70 0 10 ⎞ ⎟ ⎠ = (20, 70, 0, 10) T . Drei Produkte eines Unternehmens erzielten im Jahr 2004 den Umsatz-Zeilenvektor (35000, 17300, 40000) (Angaben in 1000 e ). Am 22.10.1997 konnte man am Schalter eines deutschen Bankhauses für 100 DM folgende Devisen erwerben (Angabe als Spaltenvektor): ⎛ ⎝ 54, 05 US-Dollar 33, 39 brit. Pfund 323, 62 frz. Franc ⎞ ⎠ Bei einer Wahl stellen sich vier Parteien. Für zwei ausgezählte Stimmbezirke lauten die absoluten Stimmenzahlen in Form von Vektoren ⎛ ⎜ ⎝ 1000 1500 300 1200 ⎞ ⎟ ⎠ und ⎛ ⎜ ⎝ 2000 3000 600 2400 ⎞ ⎟ ⎠ . Bei einer Umfrage unter Absolventen in einem wirtschaftswissenschaftlichen Studiengang werden Studiendauer, durchschnittliche monatliche finanzielle Förderung und die Abschlußnote festgehalten. Dabei wurden auch folgende zwei Profile angegeben: ⎛ ⎝ 13 Semester 400 e 3, 3 ⎞ ⎠ und ⎛ ⎝ 10 Semester 450 e 1, 7 ⎞ ⎠ Auf dem Mobilkommunikations-Markt des Inselstaates Wiwinesien treten vier Anbieter auf. Im vierten Quartal 2001 ergibt eine Marktuntersuchung die in Tabelle 3.1 angegebenen Daten. Jede der fünf numerischen Spalten in der Tabelle kann als Spaltenvektor des R 4 aufgefasst werden, jede Zeile zu einem Mobilfunkanbieter als Zeilenvektor des R 5 . <?page no="61"?> 3.1 Vektoren und Operationen mit Vektoren 61 Anbieter Netzabdeckung Preis des Kundenzahl im Standardtarif in Prozent Standardtarifs absolut in Prozent relativ Tekom 99 12,50 3.000.000 60 3 5 E-Minus 95 10,50 500.000 10 1 10 D2 1 2 97 12,00 900.000 18 9 50 Intracom 98 11,00 600.000 12 3 25 Gesamt 5.000.000 100 1 Tabelle 3.1: Markt-Daten eines (fiktiven) Mobilfunkmarktes Die Darstellung der relativen Marktanteile in der letzten Spalte von Tabelle 3.1 nennt man einen stochastischen Vektor. Definition 3.2 ! Ein Vektor p = (p 1 , . . . , p n ) T ∈ R n mit folgenden Eigenschaften heißt stochastischer Vektor: [1] p i ≥ 0 für alle i = 1, . . . , n, [2] p 1 + · · · + p n = 1 Stochastische Vektoren als Bündel von Marktanteilen finden sich insbesondere auch in Wahlanalysen; sie werden benötigt, wenn Anteile bzw. relative Häufigkeiten gemessen werden. Im Rahmen der Modellierung beschreiben sie - im diskreten Kontext - subjektive bzw. objektive Wahrscheinlichkeiten. Auch Zeilenvektoren mit den genannten Eigenschaften werden als stochastische Vektoren bezeichnet. Vektoren werden in der Schule um ihrer physikalischen Anwendungen willen zumeist analytisch-geometrisch eingeführt. Man stellt sie in der Anschauungsebene und dem Anschauungsraum mit Pfeilen dar, die einen Start- und einen Zielpunkt ausweisen. Pfeile gleicher Länge und Orientierung werden miteinander identifiziert. Bei den ökonomischen Anwendungen der Vektorrechnung liegt jedoch der Aspekt der Bündelung ökonomischer Größen eindeutig im Vordergrund, daher verzichten wir auch darauf Vektoren mit Pfeilen zu bezeichnen. Allerdings werden Richtung(svektor)en später in der Analysis auch noch eine Rolle spielen vgl. Abschnitt 6.4.1, S. 198 . 3.1.1 Elementare Operationen mit Vektoren Vektoren werden erst dadurch zu einem brauchbaren Instrument der Ökonomie, dass man sie mittels geeigneter Operationen in andere ökonomische Größen bzw. Profile überführen kann. Addition und Multiplikation reeller Zahlen führen zu den wichtigsten Verknüpfungstypen für Vektoren: Definition 3.3 (Vektoraddition) ! Für x = (x 1 , . . . , x n ) T ∈ R n , y = (y 1 , . . . , y n ) T ∈ R n setzt man x + y : = ⎛ ⎝ x 1 ... x n ⎞ ⎠ + ⎛ ⎝ y 1 ... y n ⎞ ⎠ = ⎛ ⎝ x 1 + y 1 ... x n + y n ⎞ ⎠ Ganz entsprechend verfährt man mit der Addition von Zeilenvektoren. <?page no="62"?> 62 3 Vektoren in der Ökonomie Beispiel 3.2 Bei der Addition der Bezirks-Stimmanteile aus dem Eingangsbeispiel ergibt sich ⎛ ⎜ ⎝ 1000 1500 300 1200 ⎞ ⎟ ⎠ + ⎛ ⎜ ⎝ 2000 3000 600 2400 ⎞ ⎟ ⎠ = ⎛ ⎜ ⎝ 1000 + 2000 1500 + 3000 300 + 600 1200 + 2400 ⎞ ⎟ ⎠ = ⎛ ⎜ ⎝ 3000 4500 900 3600 ⎞ ⎟ ⎠ Definition 3.4 (Skalarmultiplikation von Vektoren) ! Für (x 1 , . . . , x n ) T ∈ R n und α ∈ R setzt man αx : = α ⎛ ⎝ x 1 ... x n ⎞ ⎠ = ⎛ ⎝ αx 1 ... αx n ⎞ ⎠ ∈ R n (entsprechend für Zeilenvektoren). α ∈ R heißt in diesem Zusammenhang Skalar. Beispiel 3.3 zur Skalarmultiplikation: Wollte man am 22.10.1997 bei besagtem Bankhaus Devisen für 800 DM, d.h. für den achtfachen angegebenen Wert erwerben, so hätte dies für die verschiedenen Währungen folgende Beträge gegeben: 8 · ⎛ ⎝ 54, 05 33, 39 323, 62 ⎞ ⎠ = ⎛ ⎝ 8 · 54, 05 8 · 33, 39 8 · 323, 62 ⎞ ⎠ = ⎛ ⎝ 432, 4 (US-Dollar) 267, 12 (brit. Pfund) 2588, 96 (franz. Franc) ⎞ ⎠ Durch Operationen auf Vektoren lassen sich also anschauliche Einzelrechnungen effizient zusammenfassen. Dies ist nicht nur händisch sinnvoll, sondern kann gerade bei umfangreicheren Problemen informationstechnisch ausgenutzt werden, weil Programmiersprachen oft in der Lage sind, mit Vektoren als Objekten zu operieren, und der übliche Additions- und Multiplikations-Kalkül von reellen Zahlen intuitiv auf Vektoren übertragen werden kann: Satz 3.1 (Regeln für Vektoraddition und Skalarmultiplikation) V1. Für alle x, y, z ∈ R n gilt: [a] x + (y + z) = (x + y) + z (Assoziativgesetz) [b] quad x + y = y + x (Kommutativgesetz) V2. Der Nullvektor ¯0 : = ⎛ ⎝ 0 ... 0 ⎞ ⎠ ∈ R n hat folgende Eigenschaften [a] x + ¯0 = x für alle x ∈ R n . ¯0 wird auch als neutrales Element der Vektoraddition bezeichnet. [b] Für alle x ∈ R n ist − x = ( − 1)x ∈ R n und x + ( − x) = ¯0. (inverses Element der Vektoraddition). V3. Für alle α, β ∈ R und alle x ∈ R n gilt: α(βx) = (αβ)x und 1x = x V4. Für alle α, β ∈ R und x, y ∈ R n gelten die Distributivgesetze: [a] α(x + y) = αx + αy [b] (α + β)x = αx + βx <?page no="63"?> 3.1 Vektoren und Operationen mit Vektoren 63 3.1.2 Vektorräume Neben den besprochenen Mengen R n und R n gibt es in der Mathematik zahllose weitere Mengen L , in denen Rechenoperationen vom Typ Vektoraddition und Multiplikation mit Skalaren erklärt sind und die Eigenschaften V1-V4 gelten. Definition 3.5 ! Eine Menge L von Objekten heißt R -Vektorraum, wenn auf ihr die Operationen Vektoraddition und Skalarmultiplikation (mit Skalaren aus R ) sowie ein spezifischer Vektor ¯0 als Nullvektor erklärt sind, welche den Regeln V1 bis V4 genügen. Beispiele von Vektorräumen (neben R n und R n ) sind die Menge aller R -wertigen Folgen, vorstellbar als Tupel (x 1 , x 2 , x 3 , . . . ) mit unendlich vielen Komponenten. - Die Vektoraddition zweier Folgen (x 1 , x 2 , x 3 , . . . ) und (y 1 , y 2 , y 3 , . . . ) ergibt die Folge (x 1 + y 1 , x 2 + y 2 , x 2 + y 3 , . . . ). - Die skalare Multiplikation von (x 1 , x 2 , x 3 , . . . ) mit α ∈ R ergibt die Folge (αx 1 , αx 2 , αx 3 , . . . ). - Der Nullvektor ist die Folge (0, 0, 0, . . . ) mit lauter Null-Einträgen. die Menge aller Funktionen auf einem gegebenen Intervall [a, b] - Die Vektoraddition zweier Funktionen f, g : [a, b] → R ergibt die Funktion h : [a, b] → R , h(x) = f(x) + g(x) - Die skalare Multiplikation einer Funktion f : [a, b] → R mit einem Skalar α ∈ R ergibt die Funktion h : [a, b] → R , h(x) = αf(x). - Der Nullvektor ist die Funktion f : [a, b] → R , f(x) = 0 Auch wenn Folgen und Funktionen im ökonomischen Kontext eine große Rolle spielen, werden wir sie aber im folgenden doch nicht unter dem Vektorraum-Aspekt behandeln. Die Tupel-Vektorräume R n und R n tragen neben den später noch behandelten Matrizen-Mengen eine viel größere Bedeutung, ebenso wie Teilmengen L ⊆ R n , die selber Vektorräume sind, d.h. die folgende drei Eigenschaften haben: [1] Der Nullvektor ¯0 liegt in L . [2] Liegen zwei Vektoren x, y in L , so auch deren Summe x + y. [3] Liegt ein Vektor x in L , so auch ein beliebiges skalar Vielfaches αx. Beispiel 3.4 Wir betrachten die Menge L = { (s, t, s − t) T : s, t ∈ R} ⊂ R 3 derjenigen Vektoren im R 3 , bei denen die dritte Komponente Differenz der ersten beiden ist. Wir untersuchen, ob es sich bei L um einen R -Vektorraum handelt, indem wir die Anforderungen an einen R -Vektorraum prüfen: [1] Es ist (0, 0, 0) T ∈ L , man wähle hierzu s = t = 0. [2] Sind x = (s 1 , t 1 , s 1 − t 1 ) T ∈ L und y = (s 2 , t 2 , s 2 − t 2 ) T ∈ L , so liegt auch x+ y ∈ L , denn x + y = ⎛ ⎝ s 1 + s 2 t 1 + t 2 (s 1 + s 2 ) − (t 1 + t 2 ) ⎞ ⎠ = ⎛ ⎝ s t s − t ⎞ ⎠ mit s = s 1 + s 2 und t = t 1 + t 2 . <?page no="64"?> 64 3 Vektoren in der Ökonomie [3] Wenn x = (s 1 , t 1 , s 1 − t 1 ) T ∈ L und t ∈ R , dann liegt auch αx in L , denn αx = α ( s 1 t 1 , s 1 − t 1 ) = ⎛ ⎝ αs 1 αt 1 αs 1 − αt 1 ⎞ ⎠ = ⎛ ⎝ s t s − t ⎞ ⎠ mit s = αs 1 , t = αt 1 Insgesamt ist L also ein R -Vektorraum und lässt sich schreiben als Menge der Vektoren ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ = ⎛ ⎝ s t s − t ⎞ ⎠ = s ⎛ ⎝ 1 0 1 ⎞ ⎠ + t ⎛ ⎝ 0 1 − 1 ⎞ ⎠ mit beliebigen Skalaren s, t ∈ R . Beispiel 3.5 Wir betrachten die Menge L = { (s, t, st) T : s, t ∈ R} ⊂ R 3 , d.h. die Menge derjenigen Vektoren im R 3 , bei denen die dritte Komponente das Produkt der ersten beiden ist. Wir prüfen der Reihe nach die Anforderungen an einen R -Vektorraum. [1] Der Nullvektor liegt in L (man setze s = t = 0). [2] Die Summe zweier Vektoren aus L muss nicht in L liegen. Beispielsweise liegen x = (1, 1, 0) T und y = (2, 1, 2) T in L , nicht aber x + y = (3, 2, 2) T . Die dritte Komponente 2 ist nicht das Produkt der ersten beiden Komponenten 3 und 2. [3] Auch die skalare Vervielfachbarkeit wird von L nicht erfüllt, beispielsweise liegt der Vektor (2, 1, 2) T in L , mit α ∈ { 0, 1 } nicht aber der Vektor α(2, 1, 2) T = (2α, α, 2α) T , dann müsste nämlich die dritte Komponente Produkt der ersten beiden sein, also müsste gelten 2α = (2α)α = 2α 2 . Das ist nur für α ∈ { 0, 1 } richtig. Insgesamt ist L kein R -Vektorraum. Schon nach der Prüfung der zweiten Anforderung war dieser Sachverhalt geklärt. Beispiel 3.6 Wir betrachten die Menge L = { (x 1 , x 2 , x 3 ) T ∈ R 3 : 2x 1 + 5x 2 − x 3 = 0 } . Diese Teilmenge des Anschauungsraumes ist ein R -Vektorraum, denn: [1] ¯0 = (0, 0, 0) T liegt in L , erfüllt die vorgegebene lineare Gleichung. [2] Vektoren x = (x 1 , x 2 , x 3 ) T und y = (y 1 , y 2 , y 3 ) T in L erfüllen 2x 1 + 5x 2 − x 3 = 0 bzw. 2y 1 + 5y 2 − y 3 = 0. Dann erfüllt auch z = (z 1 , z 2 , z 3 ) = x + y = (x 1 + y 1 , x 2 + y 2 , x 3 + y 3 ) T die Gleichung und liegt in L , denn 2z 1 + 5z 2 − z 3 wird zu 2(x 1 + y 1 ) + 5(x 2 + y 2 ) − (x 3 + y 3 ) = (2x 1 + 5x 2 − x 3 ) + (2y 1 + 5y 2 − y 3 ) = 0 [3] Ist x = (x 1 , x 2 , x 3 ) T ein Vektor in L und erfüllt somit die Gleichung 2x 1 +5x 2 − x 3 = 0, so auch ein beliebiges skalar Vielfaches z = (z 1 , z 2 , z 3 ) T = αx = (αx 1 , αx 2 , αx 3 ) T von x, denn 2z 1 + 5z 2 − z 3 = 2(αx 1 ) + 5(αx 2 ) − (αx 3 ) = α(2x 1 + 5x 2 − x 3 ) = 0 Dieses Beispiel steht stellvertretend für einen allgemeinen Sachverhalt: Satz 3.2 Die Lösungsmenge eines homogenen linearen Gleichungssystems, geschrieben als Menge von Zeilenvektoren (bzw. Spaltenvektoren) ist ein R -Vektorraum. Ist A die Koeffizientenmatrix des homogenen LGS, so wird dieser R -Vektorraum auch als Kern von A bezeichnet, in Formelschreibweise: L = Kern(A). <?page no="65"?> 3.2 Koordinatensysteme und Linearkombinationen 65 Dies lässt sich genau wie in dem vorliegenden Beispiel nachrechnen, ist aber in allgemeiner Schreibweise erheblich aufwendiger. Weil homogene lineare Gleichungssysteme häufig als technische Hilfsmittel in der Ökonomie auftreten, ist das Verständnis ihrer Lösungsmengen von hoher Bedeutung. Wir werden diese später noch genauer untersuchen vgl. Abschnitt 3.3, S. 75 . Künftig werden wir statt von einem R -Vektorraum meist von einem Vektorraum sprechen und den Vorsatz R weglassen, da eigentlich alle ökonomisch relevanten Vektorräume auf R als Menge der Skalare basieren - zuweilen werden noch komplexe Zahlen als mögliche Skalare verwendet, worauf wir aber nicht näher eingehen werden. Übungen zu Abschnitt 3.1 ? 1. Seien α 1 = 3, α 2 = 2 und a = ( 1 2 ) , b = ( 2 3 ) , c = ⎛ ⎝ 1 2 3 ⎞ ⎠ , d = ⎛ ⎝ 2 3 4 ⎞ ⎠ . Berechnen Sie, falls möglich: a) a + b b) b − a c) a + b T d) a T +b T e) b T − a T f) a − c g) d T − c h) α 2 b − α 2 a i) α 1 a + α 1 b j) α 1 c + α 2 c k) α 1 a − α 2 b T l) α 1 c + 4α 1 d 2. Betrachten Sie die Tabelle 3.1 vgl. S. 61 zum fiktiven Mobilfunkmarkt auf Wiwinesien. Berechnen Sie den durchschnittlichen Preis, welchen ein Kunde für den Standardtarif zu zahlen hat. 3. Prüfen Sie, welche Mengen jeweils R - Vektorräume sind (dabei sei t ∈ R ) a) { (x 1 , x 2 ) T ∈ R 2 : x 1 + 2x 2 = t } , b) { (x 1 , x 2 ) ∈ R 2 : x 2 1 − 2tx 1 x 2 + x 2 2 = 0 } , c) { (x 1 , x 2 , x 3 ) T ∈ R 3 : x 2 1 = x 2 x 3 } , d) { (x 1 , x 2 , x 3 ) T ∈ R 3 : x 1 ∈ Z} , e) { (x 1 , . . . , x 5 ) T ∈ R 5 : a(x 3 − x 5 ) = 2x 1 + x 2 + x 4 , x 1 + ax 3 = 2x 4 − x 5 } . 4. Ist die Menge L der differenzierbaren Funktionen f : [a, b] → R auf einem gegebenen Intervall ein R -Vektorraum? Welche Ableitungsregeln werden benötigt? 3.2 Koordinatensysteme und Linearkombinationen Vektoren stellt man im R 2 und R 3 gewöhnlich in einem Kreuz aus senkrecht aufeinander stehenden mit einer Messskala versehenen Achsen dar. Die Vektoraddition in Anschauungsebene R 2 und Anschauungsraum R 3 lässt sich geometrisch mit Hilfe von Parallelogrammen, die Skalarmultiplikation mittels Punktstreckung durchführen. In Abbildung 3.1 sind diese Grundoperationen für Vektoren des R 2 veranschaulicht. Die Komponenten eines Vektors nennt man mit Bezug auf die Darstellung in einem Koordinatensystem auch Koordinaten, zu jeder Komponente gehört eine Achse des Koordinatensystems, die man deshalb auch Koordinatenachse nennt. Jeder Vektor, der einem Punkt auf einer Koordinatenachse entspricht, wird als Koordinatenvektor bezeichnet. Gemäß der Messskala ist hierbei der Koordinatenvektor zur Standard-Einheit besonders ausgezeichnet, man nennt ihn Koordinateneinheitsvektor oder einfach Einheitsvektor. Im R 2 sind dies die Vektoren (1, 0) T und (0, 1) T , im R 3 sind es (1, 0, 0) T , (0, 1, 0) T und (0, 0, 1) T . Die Koordinaten eines beliebigen Vektors x = (x 1 , x 2 ) T in der Anschauungsebene lassen sich ablesen, indem man jeweils das Lot auf die Kordinatenachsen fällt. Diesem <?page no="66"?> 66 3 Vektoren in der Ökonomie Abbildung 3.1: Illustration der Vektoraddition und der Skalarmultiplikation in R 2 , der Anschauungsebene Ablesevorgang entspricht das „Zerlegen“ des Vektors mit Hilfe der Koordinateneinheitsvektoren ( x 1 x 2 ) = x 1 ( 1 0 ) + x 2 ( 0 1 ) Man spricht dann auch von der Koordinatendarstellung des Vektors. Im Anschauungsraum lautet diese ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ = x 1 ⎛ ⎝ 1 0 0 ⎞ ⎠ + x 2 ⎛ ⎝ 0 1 0 ⎞ ⎠ + x 3 ⎛ ⎝ 0 0 1 ⎞ ⎠ Für reale ökonomische Anwendungen reicht die Beschränkung auf Vektoren mit höchstens drei Komponenten allerdings nicht aus, da die zugrundeliegenden Profile meist deutlich aufwendiger sind. Man ist daher gezwungen, auch solche Vektoren in Koordinatensystemen darzustellen, die vier oder mehr Komponenten aufweisen. Völlig entsprechend verwendet man die Bezeichnung Einheitsvektor dann wie folgt: Definition 3.6 ! Unter den Einheitsvektoren des R n versteht man die Vektoren e (1) : = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 1 0 0 ... 0 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ , e (2) : = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 0 1 0 ... 0 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ , . . . , e (n) : = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 0 0 0 ... 0 1 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ . Entsprechend ist der Einheitsvektor (ohne eigenständiges Symbol) im Zeilenraum R n erklärt. Auch in den nicht mehr geometrisch vorstellbaren Vektorräumen, d.h. für n ≥ 4, legen e (1) , . . . , e ( n ) ein Koordinatensystem im folgenden Sinne fest: Jeder Vektor x = (x 1 , . . . , x n ) T ∈ R n lässt sich durch Skalare und Einheitsvektoren des R n darstellen: x = x 1 e (1) + x 2 e (2) + . . . + x n e ( n ) . Die Koordinatendarstellung ist eindeutig: Falls x = a 1 e (1) + . . . + a n e ( n ) und x = b 1 e (1) + . . . + b n e ( n ) , so gilt a 1 = b 1 , . . . , a n = b n . <?page no="67"?> 3.2 Koordinatensysteme und Linearkombinationen 67 Abbildung 3.2: Illustration der Darstellung von Vektoren als Linearkombination in „schiefen“ Koordinatensystemen. Im Beispiel stellt sich der Vektor (2, 3 2 ) T aus den Vektoren (2, 1 2 ) T und ( − 1; 1) T wie folgt dar: (2, 3 2 ) T = 7 5 (2, 1 2 ) T + 4 5 ( − 1, 1) T . In Anschauungsebene und Anschauungsraum sind die geometrischen Messskalen auf den Koordinatenachsen und die Einheitsvektoren also verschiedene Darstellungen desselben Sachverhaltes. Mit den Einheitsvektoren ist sowohl die Lage der Achsen festgelegt als auch die Position der Eins auf der Messskala. Umgekehrt liegen die Einheitsvektoren als Punkte genau auf den Eins-Stellen der Messskalen. Für n ≥ 4 sind die n Einheitsvektoren ein rechnerischer Ersatz für die nicht mehr visualisierbaren geometrischen Messskalen; sie legen die „klassischen“ senkrecht aufeinander stehenden Koordinatenachsen fest, auf denen sich die Vektorkoordinaten ablesen lassen. Bei der Umsetzung von Anwendungsfragen kann man aber oft nicht einfach auf Einheitsvektoren e (1) , . . . , e ( n ) zurückgreifen, sondern ist gezwungen, anstelle der Einheitsvektoren mit nicht senkrecht aufeinander stehenden und nicht gleich langen Koordinatenvektoren a (1) , . . . , a ( m ) zu rechnen, wobei zudem die Anzahl m dieser Vektoren nicht zwangsläufig der Anzahl n der Komponenten entsprechen muss. Man hat also „schiefe“ Koordinatenachsen und möchte wissen, ob und wie die Koordinatendarstellung anderer Vektoren möglich in diesem Koordinatensystem möglich ist. In Abbildung 3.2 ist dies für die Anschauungsebene illustriert. Dass dies auch in ökonomischem Kontext Anwendung finden kann, sei anhand von Beispielen aus der Produktion und der Statistik verdeutlicht. Zunächst Beispiele mit „mehr als n“ Koordinatenachsen: Beispiel 3.7 (Fortsetzung von Beispiel 1.1 vgl. S. 16 ) Hier gehören zu jedem Regaltyp Teilelisten für Stellwangen, Querstangen und Böden. Diese lassen sich regaltypabhängig als Vektoren ⎛ ⎝ 2 1 5 ⎞ ⎠ , ⎛ ⎝ 3 1 10 ⎞ ⎠ , ⎛ ⎝ 4 2 15 ⎞ ⎠ , ⎛ ⎝ 5 4 20 ⎞ ⎠ darstellen. Um die vorhandenen Rohstoffe in Form des Vektors (300, 130, 1000) T aufzubrauchen, muss man das LGS 2x 1 + 3x 2 + 4x 3 + 5x 4 = 300 x 1 + x 2 + 2x 3 + 4x 4 = 130 5x 1 + 10x 2 + 15x 3 + 20x 4 = 1000 <?page no="68"?> 68 3 Vektoren in der Ökonomie Tankstelle Gewinn Umsatz Kraftstoff Sonstige 1 3 6 7 2 4 2,5 6 3 2 8,5 5 4 3 6,5 7 5 3,5 9,5 7,5 Tabelle 3.2: Gewinn- und Umsatzdaten zum Tankstellenbeispiel 3.9, Angaben in Tausend Euro. lösen. Dies ist gleichbedeutend damit, den Rohstoffvektor im Koordinatensystem der Teilelisten-Vektoren darzustellen: ⎛ ⎝ 300 130 1000 ⎞ ⎠ = x 1 ⎛ ⎝ 2 1 5 ⎞ ⎠ + x 2 ⎛ ⎝ 3 1 10 ⎞ ⎠ + x 3 ⎛ ⎝ 4 2 15 ⎞ ⎠ + x 4 ⎛ ⎝ 5 4 20 ⎞ ⎠ Zusätzlich muss im ökonomischen Kontext x i ≥ 0 (und sogar x i ∈ N 0 ) gelten. Die Darstellung ist nicht eindeutig, weshalb zusätzlich eine ökonomisch vorteilhafte Darstellung gesucht wird, etwa diejenige mit maximalem Deckungsbeitrag. Beispiel 3.8 (Fortsetzung von Beispiel 1.2 vgl. S. 18 ) Zu jedem Schnittmuster gehören Listen mit den aus den Mustern sich ergebenden Anzahlen der drei Rollen, d.h. die Produktlisten ⎛ ⎝ 1 1 0 ⎞ ⎠ , ⎛ ⎝ 1 0 1 ⎞ ⎠ , ⎛ ⎝ 0 3 0 ⎞ ⎠ , ⎛ ⎝ 0 2 1 ⎞ ⎠ , ⎛ ⎝ 0 1 3 ⎞ ⎠ , ⎛ ⎝ 0 0 4 ⎞ ⎠ Um die Schnittmuster für die geforderten Rollenanzahlen (1440, 2160, 1080) T zu berechnen, ist das LGS x 1 + x 2 = 1440 x 1 + 3x 3 + 2x 4 + x 5 = 2160 x 2 + x 4 + 3x 5 + 4x 6 = 1080 zu lösen. Gleichwertig hierzu ist die Darstellung des erstrebten Produktvektors im Koordinatensystem der sechs Schnittmuster-Produktlisten , d.h. ⎛ ⎝ 1440 2160 1000 ⎞ ⎠ = x 1 ⎛ ⎝ 1 1 0 ⎞ ⎠ + x 2 ⎛ ⎝ 1 0 1 ⎞ ⎠ + x 3 ⎛ ⎝ 0 3 0 ⎞ ⎠ + x 4 ⎛ ⎝ 0 2 1 ⎞ ⎠ + x 5 ⎛ ⎝ 0 1 3 ⎞ ⎠ + x 6 ⎛ ⎝ 0 0 4 ⎞ ⎠ Auch hier sucht man unter den mehreren (ganzzahligen) Lösungen eine optimale, z.B. mit geringstem Rollenverbrauch x 1 + x 2 + x 3 + x 4 + x 5 + x 6 . Im nächsten Beispiel wird die Koordinatendarstellung mit einer „zu kleinen“ Anzahl von Koordinatenvektoren gesucht. Dies ist typisch für Fragestellungen der Regression: Beispiel 3.9 (Statistik) Der Inhaber einer Kette von fünf freien Tankstellen möchte wissen, wie sich der Gewinn der Tankstellen aus den Umsätzen der Sparten Kraftstoffe (K), und Sonstige (S) <?page no="69"?> 3.2 Koordinatensysteme und Linearkombinationen 69 zusammensetzt. Hieraus erhofft er sich Informationen über die Rentabilität eventueller Investitionen (z.B. weitere Kraftstoffe, frische Brötchen im Food-Bereich usw.). Über die fünf - von Lage und Ausstattung gleichwertigen - Tankstellen liegen Informationen über die Umsätze sowie den Gewinn eines speziellen Tages vor, die in Tabelle 3.2 wiedergegeben sind. Die Zahlen sind fiktiv und grob gerundet, um die Rechnungen einfach zu halten. Stellt man die Gewinne und Umsätze in den Vektoren g = ⎛ ⎜ ⎜ ⎜ ⎝ g 1 g 2 g 3 g 4 g 5 ⎞ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎜ ⎜ ⎜ ⎝ 3 4 2 3 3, 5 ⎞ ⎟ ⎟ ⎟ ⎠ u (1) = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ u (1) 1 u (1) 2 u (1) 3 u (1) 4 u (1) 5 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎜ ⎜ ⎜ ⎝ 6 2, 5 8, 5 6, 5 9, 5 ⎞ ⎟ ⎟ ⎟ ⎠ u (2) = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ u (2) 1 u (2) 2 u (2) 3 u (2) 4 u (2) 5 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎜ ⎜ ⎜ ⎝ 7 6 5 7 7, 5 ⎞ ⎟ ⎟ ⎟ ⎠ dar, so könnte man versuchen, den Gewinn der j-ten Tankstelle, d.h. g j in der Form g j = α 0 + α 1 · u (1) j + α 2 · u (2) j mit einem „Sockelgewinn“ α 0 und geeigneten für alle fünf Tankstellen gültigen Faktoren α 0 , α 1 , α 2 ∈ R zu schreiben. Mit diesen Koeffizienten muss also folgendes LGS gelten: 3 = α 0 + 6α 1 + 7α 2 4 = α 0 + 2, 5α 1 + 6α 2 2 = α 0 + 8, 5α 1 + 5α 2 3 = α 0 + 6, 5α 1 + 7α 2 3, 5 = α 0 + 9, 5α 1 + 7, 5α 2 Je Sparte i gibt der Faktor α i den Anteil des jeweiligen Spartenumsatzes an, der als Gewinn anfallen wird, wenn das Modell gültig ist. Gerade in Planungsphasen ist man manchmal nur an einer Art „Überschlagsrechnung“ zu Prognosezwecken und nicht an der formal endgültig korrekten Verbuchung von Umsätzen und Kosten interessiert. Dann kann ein Modell wie das angegebene rechnerisch Vorteile gegenüber einem komplexeren Gewinn- und Verlustmodell für jede einzelne Tankstelle haben. Wir können die obigen fünf Erklärungsgleichungen in Vektorschreibweise g = α 0 u (0) + α 1 u (1) + α 2 u (2) mit u (0) = (1 | 1 | 1 | 1 | 1) T bringen; ausgeschrieben lauten sie: ⎛ ⎜ ⎜ ⎜ ⎝ 3 4 2 3 3, 5 ⎞ ⎟ ⎟ ⎟ ⎠ = α 0 ⎛ ⎜ ⎜ ⎜ ⎝ 1 1 1 1 1 ⎞ ⎟ ⎟ ⎟ ⎠ + α 1 ⎛ ⎜ ⎜ ⎜ ⎝ 6 2, 5 8, 5 6, 5 9, 5 ⎞ ⎟ ⎟ ⎟ ⎠ + α 2 ⎛ ⎜ ⎜ ⎜ ⎝ 7 6 5 7 7, 5 ⎞ ⎟ ⎟ ⎟ ⎠ Ziel ist hier also - aus mathematischer Sicht - eine Darstellung des Gewinnvektors g in drei Koordinaten, die sich aus einem Sockelgewinns und den Spartenumsätzen ergeben. Die drei Vektoren reichen aber zur Koordinatendarstellung nicht aus, denn das obige LGS ist nicht lösbar; es wird sich bei jeder Tankstelle j eine Abweichung e j ergeben e j = g j − (α 0 + α 1 u (1) j + α 2 u (2) j ) d.h. g j = α 0 + α 1 u (1) j + α 2 u (2) j + e j In Vektorschreibweise gilt dann ⎛ ⎜ ⎜ ⎜ ⎝ 3 4 2 3 3, 5 ⎞ ⎟ ⎟ ⎟ ⎠ = α 0 ⎛ ⎜ ⎜ ⎜ ⎝ 1 1 1 1 1 ⎞ ⎟ ⎟ ⎟ ⎠ + α 1 ⎛ ⎜ ⎜ ⎜ ⎝ 6 2, 5 8, 5 6, 5 9, 5 ⎞ ⎟ ⎟ ⎟ ⎠ + α 2 ⎛ ⎜ ⎜ ⎜ ⎝ 7 6 5 7 7, 5 ⎞ ⎟ ⎟ ⎟ ⎠ + ⎛ ⎜ ⎜ ⎜ ⎝ e 1 e 2 e 3 e 4 e 5 ⎞ ⎟ ⎟ ⎟ ⎠ <?page no="70"?> 70 3 Vektoren in der Ökonomie Statt eine exakte Darstellung des Gewinns aus den Umsätzen zu berechnen, sucht man jetzt nach Koeffizienten α 0 , α 1 , α 2 mit denen der Fehlervektor (e 1 , . . . , e 5 ) T möglichst nahe bei Null liegende Einträge hat. Präziser versucht man den Ausdruck e 2 1 + · · · + e 2 5 so klein wie möglich zu machen. Es handelt sich bei der vorliegenden Fragestellung um ein Beispiel aus dem Bereich der Regressionsanalyse, welche thematisch in die Statistik gehört, vgl. etwa [ Schira , 2003]. Nachfolgend werden wir immer wieder auf dieses Beispiel zurückkommen und dabei die Einordnung von Regressionsaufgaben in die Vektor-, Matrizen- und Differentialrechnung vornehmen vgl. S. 77 , vgl. S. 96 . In der Mathematik hat sich für die in den Beispielen genannten Koordinatendarstellungen der Begriff „Linearkombination“ eingebürgert. Definition 3.7 (Linearkombinationen von Vektoren) ! Es seien a (1) , . . . , a (m) Vektoren des R n . [1] Ein Vektor x ∈ R n , der sich in der Form x = α 1 a (1) + . . . + α m a (m) mit α 1 , . . . , α m ∈ R („Skalare“) schreiben lässt, heißt Linearkombination (kurz: LK) von a (1) , . . . , a (m) . [2] Die Menge L aller Linearkombinationen von a (1) , . . . , a (m) heißt lineare Hülle von a (1) , . . . , a (m) . Als Symbol wird die Bezeichnung L = Span(a (1) , . . . , a (m) ) verwendet. Beispiel 3.10 Es seien die Vektoren a (1) = (1, 2, 1) T , a (2) = (1, 1, − 1) T und a (3) = (2, 3, − 1) T gegeben. Lässt sich x = (2, 1, 0) T als Linearkombination von a (1) , a (2) , a (3) darstellen? Zu klären ist also, ob es α 1 , α 2 , α 3 ∈ R gibt mit α 1 ⎛ ⎝ 1 2 1 ⎞ ⎠ + α 2 ⎛ ⎝ 1 1 − 1 ⎞ ⎠ + α 3 ⎛ ⎝ 2 3 − 1 ⎞ ⎠ = ⎛ ⎝ 2 1 0 ⎞ ⎠ Fasst man die Vektoren der LK zu einem Vektor zusammen, so ergibt sich die zu lösende Vektorgleichung ⎛ ⎝ α 1 + α 2 + 2α 3 2α 1 + α 2 + 3α 3 α 1 − α 2 − α 3 ⎞ ⎠ = ⎛ ⎝ 2 1 0 ⎞ ⎠ Also müssen die beiden Vektoren in allen drei Komponenten übereinstimmen. Gleichwertig ist die Frage nach der Lösbarkeit des LGS α 1 + α 2 + 2α 3 = 2 2α 1 + α 2 + 3α 3 = 1 α 1 − α 2 − α 3 = 0 dessen Lösung mit dem Gauß’schen Eliminationsverfahren berechnet werden kann. Die Gleichungsmatrix des LGS wird in ZSF überführt: ⎛ ⎝ 1 1 2 2 2 1 3 1 1 − 1 − 1 0 ⎞ ⎠ → ⎛ ⎝ 1 0 0 3 0 1 0 7 0 0 1 − 4 ⎞ ⎠ Hieraus gewinnt man die eindeutig bestimmte Lösung α 1 = 3, α 2 = 7, α 3 = − 4. Es gibt also nur eine Art der Linearkombination, nämlich 3 ⎛ ⎝ 1 2 1 ⎞ ⎠ + 7 ⎛ ⎝ 1 1 − 1 ⎞ ⎠ − 4 ⎛ ⎝ 2 3 − 1 ⎞ ⎠ = ⎛ ⎝ 2 1 0 ⎞ ⎠ <?page no="71"?> 3.2 Koordinatensysteme und Linearkombinationen 71 Am Beispiel erkennt man, wie Linearkombinationen errechnet werden können: Berechnung von Linearkombinationen Um zu prüfen, ob und wie sich ein gegebener Vektor x ∈ R n als Linearkombination α 1 a (1) + . . . + α m a ( m ) von gegebenen Vektoren a (1) , . . . , a ( m ) ∈ R n darstellen lässt, geht man wie folgt vor: [1] Man stelle die Gleichungsmatrix ( a (1) . . . a ( m ) | x ) auf, d.h. die Vektoren a (1) , . . . , a ( m ) und x werden zu Spalten der Gleichungsmatrix. [2] Man löse das LGS. Jede Lösung (α 1 , . . . , α m ) des LGS entspricht einer möglichen LK stellt die Koeffizienten der Linearkombination dar. Mit diesem Ansatz kann man auch prüfen, welche Vektoren sich überhaupt als LK der gegebenen a (1) , . . . , a ( m ) darstellen lassen. Auf der rechten Seite des LGS stehen dann die - allgemein gehaltenen - Koeffizienten x 1 , . . . , x n des darzustellenden Vektors x. Aus der Staffelform des LGS liest man dann die Darstellbarkeit als LK, aus der Zeilenstufenform des LGS liest man Formeln für die Koeffizienten der LK ab. Beispiel 3.11 (Fortsetzung von Beispiel 3.10) Für die Vektoren des vorangegangenen Beispiels kann man zeigen: jeder beliebige Vektor x = (x 1 , x 2 , x 3 ) T ∈ R 3 lässt sich auf genau eine Art und Weise als Linearkombination der angegebenen Vektoren a (1) , a (2) , a (3) darstellen. Hierzu überführen wir die Gleichungsmatrix des zugehörigen LGS in ZSF. Zu beachten ist, dass die rechten Seiten des LGS dabei variable Größen x 1 , x 2 , x 3 sind: ⎛ ⎝ 1 1 2 x 1 2 1 3 x 2 1 − 1 − 1 x 3 ⎞ ⎠ II − 2I III − I −−−−−−−→ ⎛ ⎝ 1 1 2 x 1 0 − 1 − 1 x 2 − 2x 1 0 − 2 − 3 x 3 − x 1 ⎞ ⎠ − II −−→ ⎛ ⎝ 1 1 2 x 1 0 1 1 2x 1 − x 2 0 − 2 − 3 x 3 − x 1 ⎞ ⎠ III + 2II −−−−−−→ ⎛ ⎝ 1 1 2 x 1 0 1 1 2x 1 − x 2 0 0 − 1 3x 1 − 2x 2 + x 3 ⎞ ⎠ − III −−−→ ⎛ ⎝ 1 1 2 x 1 0 1 1 2x 1 − x 2 0 0 1 − 3x 1 + 2x 2 − x 3 ⎞ ⎠ Aus der zuletzt hergeleiteten Staffelform erkennt man, dass das LGS eindeutig lösbar ist, also ist x auf genau eine Art und Weise linear kombinierbar. Durch Überführung der Staffelform in die Zeilenstufenform bekommt man die Lösungskoeffizienten: ⎛ ⎝ 1 1 2 x 1 0 1 1 2x 1 − x 2 0 0 1 − 3x 1 + 2x 2 − x 3 ⎞ ⎠ I − 2III II − III −−−−−−−→ ⎛ ⎝ 1 1 0 7x 1 − 4x 2 + 2x 3 0 1 0 5x 1 − 3x 2 + x 3 0 0 1 − 3x 1 + 2x 2 − x 3 ⎞ ⎠ I − II −−−−→ ⎛ ⎝ 1 0 0 2x 1 − x 2 + x 3 0 1 0 5x 1 − 3x 2 + x 3 0 0 1 − 3x 1 + 2x 2 − x 3 ⎞ ⎠ Die Linearkombination ist also ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ = (2x 1 − x 2 + x 3 ) ⎛ ⎝ 1 2 1 ⎞ ⎠ + (5x 1 − 3x 2 + x 3 ) ⎛ ⎝ 1 1 − 1 ⎞ ⎠ + ( − 3x 1 + 2x 2 − x 3 ) ⎛ ⎝ 2 3 − 1 ⎞ ⎠ <?page no="72"?> 72 3 Vektoren in der Ökonomie Beispiel 3.12 (Fortsetzung von Beispiel 3.10) Im vorangegangen Beispiel gilt zusätzlich: Keiner der drei Vektoren a (1) , a (2) , a (3) lässt sich als Linearkombination der beiden anderen darstellen. Um beispielsweise zu prüfen, dass a (3) sich nicht als Linearkombination von a (1) , a (2) darstellen lässt, wird die Gleichungsmatrix des zugehörigen LGS in Staffelform gebracht: ⎛ ⎝ 1 1 2 2 1 3 1 − 1 − 1 ⎞ ⎠ II + ( − 2) I III + ( − 1) I −−−−−−−−−→ ⎛ ⎝ 1 1 2 0 − 1 − 1 0 − 2 − 3 ⎞ ⎠ II → ( − 1) II −−−−−−−−−→ ⎛ ⎝ 1 1 2 0 1 1 0 − 2 − 3 ⎞ ⎠ III + (2) II −−−−−−−−→ ⎛ ⎝ 1 1 2 0 1 1 0 0 − 1 ⎞ ⎠ Aus der Staffelform erkennt man, dass das lineare Gleichungssystem nicht lösbar ist. Also ist a (3) nicht als LK von a (1) , a (2) darstellbar. Beispiel 3.13 (Fortsetzung von Beispiel 3.10) Es soll im vorliegenden Beispiel die lineare Hülle Span(a (1) , a (2) ) berechnet werden. Zu prüfen ist also welche Vektoren x = (x 1 , x 2 , x 3 ) T sich als Linearkombination von a (1) , a (2) , also in der Form x = α 1 a (1) + α 2 a (2) darstellen lassen. ⎛ ⎝ 1 1 x 1 2 1 x 2 1 − 1 x 3 ⎞ ⎠ II − 2I III − 1I −−−−−−→ ⎛ ⎝ 1 1 x 1 0 − 1 x 2 − 2x 1 0 − 2 x 3 − x 1 ⎞ ⎠ − II −−→ ⎛ ⎝ 1 1 x 1 0 1 2x 1 − x 2 0 − 2 x 3 − x 1 ⎞ ⎠ III + 2II −−−−−−→ ⎛ ⎝ 1 1 x 1 0 1 2x 1 − x 2 0 0 3x 1 − 2x 2 + x 3 ⎞ ⎠ Die Staffelform hier zeigt: der Vektor x lässt sich genau dann als LK von a (1) , a (2) schreiben (d.h. das LGS ist genau dann lösbar), wenn seine Koeffizienten die lineare Gleichung 3x 1 − 2x 2 + x 3 = 0 erfüllen. Dann kann man die Lösungsmöglichkeiten aus der ZSF ablesen, für die ein weiterer Umformungsschritt nötig ist: ⎛ ⎝ 1 1 x 1 0 1 2x 1 − x 2 0 0 3x 1 − 2x 2 + x 3 ⎞ ⎠ I − II −−−−−−→ ⎛ ⎝ 1 0 x 2 − x 1 0 1 2x 1 − x 2 0 0 3x 1 − 2x 2 + x 3 ⎞ ⎠ Die lineare Hülle (d.h. Menge aller Linearkombinationen) von a (1 ) , a (2) besteht also aus allen Vektoren x = (x 1 , x 2 , x 3 ) T mit 3x 1 − 2x 2 + x 3 = 0 ⇔ x 3 = 2x 2 − 3x 1 . Für diese Vektoren ist die Darstellung als LK eindeutig und lautet ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ = (x 2 − x 1 ) ⎛ ⎝ 1 2 1 ⎞ ⎠ + (2x 1 − x 2 ) ⎛ ⎝ 1 1 − 1 ⎞ ⎠ Im nächsten Beispiel ist die Linearkombination nicht mehr eindeutig: Beispiel 3.14 Gegeben seien die Vektoren a (1) = ( 1 2 ) , a (2) = ( 2 3 ) und a (3) = ( 2 2 ) . Welche Vektoren x = ( x 1 x 2 ) lassen sich als Linearkombination von a (1) , a (2) , a (3) darstellen? Auch hier muss wieder ein LGS gelöst werden, dessen Gleichungsmatrix lautet: ( 1 2 2 x 1 2 3 2 x 2 ) −→ ( 1 2 2 x 1 0 − 1 − 2 − 2x 1 + x 2 ) −→ ( 1 2 2 x 1 0 1 2 2x 1 − x 2 ) −→ ( 1 0 − 2 − 3x 1 + 2x 2 0 1 2 2x 1 − x 2 ) Das LGS ist also lösbar ist mit allgemeiner Lösung ( − 3x 1 + 2x 2 + 2α, 2x 1 − x 2 − 2α, α), wobei der Skalar α ∈ R beliebig gewählt sein kann. Also lässt sich jeder Vektor x linear aus a (1) , a (2) kombinieren. Weiter kann man folgern: <?page no="73"?> 3.2 Koordinatensysteme und Linearkombinationen 73 Eine Darstellung von x ist ( x 1 x 2 ) = ( − 3x 1 + 2x 2 ) ( 1 2 ) + (2x 1 − x 2 ) ( 2 3 ) und allgemein ( x 1 x 2 ) = ( − 3x 1 + 2x 2 + 2α) ( 1 2 ) + (2x 1 − x 2 − 2α) ( 2 3 ) + α ( 2 2 ) mit α ∈ R a (3) = ( 2 2 ) lässt sich als LK von a (1) , a (2) darstellen: ( 2 2 ) = ( − 2) ( 1 2 ) + 2 ( 2 3 ) Auch die anderen beiden Vektoren sind jeweils LK der übrigen zwei (nachrechnen! ). Der Nullvektor lässt sich als LK von a (1) , a (2) und a (3) schreiben, und zwar speziell ( triviale Lösung) als ( 0 0 ) = 0 ( 1 2 ) + 0 ( 2 3 ) + 0 ( 2 2 ) sowie allgemein (mit α ∈ R ) ( 0 0 ) = (2α) ( 1 2 ) + ( − 2α) ( 2 3 ) + α ( 2 2 ) In Beispiel 3.14 gibt es neben der Darstellung ¯0 = 0 · a (1) + · · · + 0 · a ( m ) andere Linearkombinationen des Nullvektors (Dies gilt ebenso für jeden anderen darstellbaren Vektor). Außerdem lässt sich einer der drei Vektoren aus den anderen beiden linear kombinieren. Jede dieser drei Eigenschaften ist gleichwertig zu den anderen und hat zu einer Begriffsbildung geführt. Definition 3.8 (Lineare Abhängigkeit/ Unabhängigkeit) ! Vektoren a (1) , . . . , a (m) des R n heißen linear abhängig, kurz: l.a., wenn eine der folgenden gleichwertigen Eigenschaften zutrifft: A1. Einer der Vektoren a (1) , . . . , a (m) ist LK der übrigen Vektoren. A2. ¯0 lässt sich auf verschiedene Arten als LK von a (1) , . . . , a (m) schreiben. Andernfalls heißen a (1) , . . . , a (m) linear unabhängig (kurz: l.u.). Dies ist also der Fall, wenn eine der folgenden gleichwertigen Eigenschaften gilt: U1. Keiner der Vektoren a (1) , . . . , a (m) ist LK der übrigen Vektoren. U2. ¯0 = 0 · a (1) + · · · + 0 · a (m) lässt sich nur so als LK von a (1) , . . . , a (m) schreiben. Aus einem linear unabhängigen System lässt sich ein beliebiger Vektor auf genau eine Art linear kombinieren, falls dies überhaupt möglich ist. Linear unabhängige Vektoren sind der gängige Ersatz zur Festlegung von Koordinaten bzw. Koordinatenachsen, wenn auf die Einheitsvektoren aus sachlogischen Gründen nicht zurückgegriffen werden kann. Hierauf gehen wir im nächsten Abschnitt genauer ein. Ob ein System von Vektoren linear abhängig oder linear unabhängig ist, muss oft im Einzelfall nachgerechnet werden. Da es gemäß A2. und U2. dabei um die Darstellbarkeit des Nullvektors geht, geht man wie folgt vor: Nachweis der linearen Abhängigkeit/ Unabhängigkeit [1] Die auf Abhängigkeit/ Unabhängig zu prüfenden Vektoren werden als Spalten in eine Koeffizientenmatrix geschrieben [2] Die Koeffizientenmatrix wird in Staffelform überführt. [3] Wenn die Staffelform nur Pivotspalten hat, ist das System l.u., anderenfalls ist es l.a. Jeder Vektor zu einer Nicht-Pivotspalte ist LK der anderen Vektoren. <?page no="74"?> 74 3 Vektoren in der Ökonomie Beispiel 3.15 Die Vektoren a (1) = (1, 2, 1) T , a (2) = (1, 1, − 1) und a (3) = (0, 1, 2) sind linear abhängig. Die aus den Spaltenvektoren zusammengesetzte Matrix lässt sich nämlich in folgende Staffelform überführen: ⎛ ⎝ 1 1 0 2 1 1 1 − 1 2 ⎞ ⎠ → ⎛ ⎝ 1 1 0 0 1 − 1 0 0 0 ⎞ ⎠ Spalte 3 ist eine Nicht-Pivotspalte. Also lässt sich a (3) als LK von a (1) , a (2) schreiben. Damit sind die Vektoren linear abhängig. Beispiel 3.16 Die drei Vektoren a (1) = (1, 2, 1) T , a (2) = (1, 1, − 1) und a (3) = (0, s, t) mit s, t ∈ R sollen auf lineare Abhängigkeit/ Unabhängigkeit geprüft werden. Wir überführen die Koeffizientenmatrix in Staffelform ⎛ ⎝ 1 1 0 2 1 s 1 − 1 t ⎞ ⎠ → ⎛ ⎝ 1 1 0 0 − 1 s 0 − 2 t ⎞ ⎠ → ⎛ ⎝ 1 1 0 0 1 s 0 − 2 t ⎞ ⎠ → ⎛ ⎝ 1 1 0 0 1 s 0 0 t − 2s ⎞ ⎠ Falls t = 2s, so liegt eine Nullzeile und eine Nichtpivot-Spalte vor; dann ist das vorliegende System linear abhängig. Anderenfalls ist das System linear unabhängig. Im ersten durchgängig gerechneten Beispiel 3.10 vgl. S. 70 sind die drei Vektoren a (1) , a (2) , a (3) ∈ R 3 linear unabhängig; im zweiten Beispiel 3.14 vgl. S. 72 sind die drei Vektoren a (1) , a (2) , a (3) ∈ R 2 linear abhängig. Die Teilelisten-Vektoren aus Beispiel 3.7 vgl. S. 67 und die Produktlistenvektoren aus Beispiel 3.8 vgl. S. 68 sind jeweils linear abhängig, die Umsatzvektoren aus Beispiel 3.9 vgl. S. 68 sind linear unabhängig. Manchmal kann man aus übergeordneten Gründen ohne besondere Rechnung sehen, dass ein System von Vektoren linear abhängig ist: Satz 3.3 Ein System von mehr als n Vektoren des R n ist linear abhängig. Also besteht ein System linear unabhängiger Vektoren des R n aus höchstens n Vektoren. Stellt man nämlich den Nullvektor aus mehr als n Vektoren linear dar, so ergibt sich ein homogenes und daher lösbares LGS. Dieses hat aber gleichzeitig mehr Variablen als Gleichungen, ist also mehrdeutig lösbar. Der Nullvektor lässt sich also auf mehrere Arten linear kombinieren. Übungen zu Abschnitt 3.2 ? 5. Lässt sich der Vektor x als LK der übrigen Vektoren a ( i ) schreiben? Berechnen Sie ggf. alle Möglichkeiten. a) ( 1 3 ) , ( 2 5 ) , x = ( 3 2 ) b) ( 1 3 ) , ( 4 t ) , x = ( 3 t ) c) ⎛ ⎝ − 3 2 0 ⎞ ⎠ , ⎛ ⎝ 2 0 2 ⎞ ⎠ , ⎛ ⎝ 3 3 3 ⎞ ⎠ , x = ⎛ ⎝ 5 4 2 ⎞ ⎠ d) ⎛ ⎝ − 3 2 0 ⎞ ⎠ , ⎛ ⎝ 2 0 2 ⎞ ⎠ , ⎛ ⎝ 3 3 3 ⎞ ⎠ , ⎛ ⎝ 0 1 12 ⎞ ⎠ , x = ⎛ ⎝ 5 4 2 ⎞ ⎠ 6. Ergänzen Sie x so, dass der Vektor als LK von a (1) , a (2) darstellbar ist. <?page no="75"?> 3.3 Untervektorraum und Basis 75 a) a (1) = ⎛ ⎝ 1 3 1 ⎞ ⎠ , a (2) = ⎛ ⎝ − 6 − 2 1 ⎞ ⎠ , x = ⎛ ⎝ 5 4 ⎞ ⎠ b) a (1) = ⎛ ⎝ 0 4 − 2 ⎞ ⎠ , a (2) = ⎛ ⎝ − 6 t 1 ⎞ ⎠ , x = ⎛ ⎝ 5 4 ⎞ ⎠ 7. Stellen Sie die lineare Hülle der gegebenen Vektoren als Lösungsmenge eines geeigneten homogenen LGS dar. a) ⎛ ⎝ − 3 2 − 5 ⎞ ⎠ , ⎛ ⎝ 0 − 4 1 ⎞ ⎠ b) ⎛ ⎜ ⎝ 2 1 − 5 4 ⎞ ⎟ ⎠ , ⎛ ⎜ ⎝ 3 2 − 1 1 ⎞ ⎟ ⎠ 8. Prüfen Sie, ob die folgenden (Systeme von) Vektoren jeweils linear abhängig oder linear unabhängig sind. a) ⎛ ⎝ − 3 2 − 5 ⎞ ⎠ , ⎛ ⎝ 0 − 4 1 ⎞ ⎠ , ⎛ ⎝ 1 1 0 ⎞ ⎠ b) ⎛ ⎝ − 3 2 − 5 ⎞ ⎠ , ⎛ ⎝ 0 − 4 1 ⎞ ⎠ , ⎛ ⎝ 3 − 10 7 ⎞ ⎠ c) ⎛ ⎝ 1 2 3 ⎞ ⎠ , ⎛ ⎝ 0 t 1 ⎞ ⎠ , ⎛ ⎝ 2 2 t ⎞ ⎠ 9. Zeigen Sie: Wenn a (1) und a (2) linear unabhängige Vektoren des R n sind, so sind auch folgende Vektoren linear unabhängig a) sa (1) und ta (2) mit s = 0, t = 0, b) a (1) und a (1) + a (2) , c) a (1) und sa (1) + ta (2) mit t = 0. 3.3 Untervektorraum und Basis Mit der linearen Hülle Span(a (1) , . . . , a ( m ) ) gegebener Koordinatenvektoren des R n lässt sich rechnen wie mit dem R n selbst. Satz 3.4 Die lineare Hülle L = Span(a (1) , . . . , a (m) ) eines Systems a (1) , . . . , a (m) von Vektoren des R n ist wieder ein Vektorraum, d.h. es gilt [1] Der Nullvektor ¯0 liegt in L [2] Liegen x, y in L , so auch x + y. [3] Liegt x in L , so auch αx für beliebigen Skalar α ∈ R . Man sagt, die lineare Hülle sei abgeschlossen gegenüber den beiden elementaren Vektorraumoperationen. Vorstellbar ist das etwa so, dass bei der Addition von Vektoren aus einer durch ¯0 verlaufenden Ebene diese Ebene nicht verlassen wird. Beispiel 3.17 Im Anschauungsraum R 3 seien die beiden Vektoren a (1) = ( − 2, 1, 0) T , a (2) = ( − 4, 0, 1) T gegeben. Es sei L = Span(a (1) , a (2) ) die lineare Hülle von a (1) , a (2) . Wir illustrieren die Vektorraumeigenschaften an drei Rechenbeispielen: [1] Es ist ¯0 = (0, 0, 0) T = 0a (1) + 0a (2) in der linearen Hülle von a (1) und a (2) [2] Die Vektoren x = ( − 6, 1, 1) T = a (1) + a (2) und y = (6, 1, − 2) T = a (1) − 2a (2) liegen in L . Ebenso liegt dann die Vektorsumme x + y in L , denn sie lässt sich schreiben als x + y = (a (1) + a (2) ) + (a (1) − 2a (2) ) = 2a (1) − a (2) [3] Der Vektor x = (0, 2, − 1) T = 2a (1) − a (2) liegt in L . Jedes skalar Vielfache von x liegt ebenfalls in L , denn αx = (2α)a (1) − αa (2) Anschaulich handelt es sich bei Span(a (1) , a (2) ) um eine Ebene im R 3 , wie auch Abbildung 3.3 verdeutlicht. <?page no="76"?> 76 3 Vektoren in der Ökonomie Abbildung 3.3: Die von ( − 2, 1, 0) T und ( − 4, 0, 1) T erzeugte Ebene durch (0, 0, 0) T (Ausschnitt). Definition 3.9 ! Eine Teilmenge L eines Vektorraumes, die selber wieder ein Vektorraum ist, wird als Untervektorraum (UVR) bezeichnet. Jede Menge von Vektoren L , die sich als lineare Hülle schreiben lässt, ist nach dem bisher Gesagten ein Untervektorraum. Hierzu stimmt allerdings auch die Umkehrung. Satz 3.5 Jeder Untervektorraum L des R n lässt sich als lineare Hülle von endlich vielen Vektoren aus L darstellen. Es handelt sich hierbei nicht um eine konstruktive Aussage, d.h. damit ist kein konkretes Verfahren zur Ermittlung der erzeugenden Vektoren verbunden. Liegt also ein Vektorraum L als lineare Hülle Span(a (1) , . . . , a ( m ) ) vor, so sagt man auch, dass die Vektoren die Menge L „aufspannen“, d.h. man interpretiert a (1) , . . . , a ( m ) als Achsen eines Koordinatensystems. Damit könnte man nun verbinden, dass die Koordinaten eines Vektors bezüglich dieser Achsen eindeutig abgelesen werden können, d.h. dass sich ein Vektor in L in eindeutiger Weise linear kombinieren lässt. Wenn aber a (1) , . . . , a ( m ) linear abhängig sind, so ist dies nicht möglich. Beispiel 3.18 Im Anschauungsraum seien die drei Vektoren a (1) = ( − 2, 1, 0) T , a (2) = ( − 4, 0, 1) T und a (3) = (2, 1, − 1) T gegeben. Es sei L = Span(a (1) , a (2) , a (3) ). Die drei Vektoren sind linear abhängig, denn es ist a (3) = a (1) − a (2) . Zur Darstellung eines Vektors in L sind deshalb bereits zwei der Vektoren ausreichend. Beispielsweise hat der Vektor x = ( − 6, 1, 1) T u.a. die beiden Darstellungen ⎛ ⎝ − 6 1 1 ⎞ ⎠ = 1 · ⎛ ⎝ − 2 1 0 ⎞ ⎠ + 1 · ⎛ ⎝ − 4 0 1 ⎞ ⎠ + 0 · ⎛ ⎝ 2 1 − 1 ⎞ ⎠ ⎛ ⎝ − 6 1 1 ⎞ ⎠ = 2 · ⎛ ⎝ − 2 1 0 ⎞ ⎠ + 0 · ⎛ ⎝ − 4 0 1 ⎞ ⎠ + ( − 1) · ⎛ ⎝ 2 1 − 1 ⎞ ⎠ Vielleicht fragen Sie sich jetzt, ob es aus Anwendungssicht überhaupt problematisch ist, wenn die erzeugenden Vektoren einer Linearkombination linear abhängig sind. Betrachten wir hierzu noch einmal das Umsatzbeispiel 3.9. <?page no="77"?> 3.3 Untervektorraum und Basis 77 Beispiel 3.19 (Fortsetzung von Beispiel 3.9) Angenommen, die Kraftstoffumsätze würden lauten u (1) = (4, 2, 6, 2, 4) T , während die Umsätze aus dem sonstigen Angebotssortiment durch u (2) = (2, 1, 3, 1, 2) T gegeben sind. Sie können sofort sehen, dass diese beiden Vektoren linear abhängig sind, denn u (1) = 2u (2) . Es sei weiter angenommen, dass Sie von rechnerischen Gewinnanteilen von jeweils α 0 = 1 Euro Sockelgewinn, α 1 = 1 4 Euro beim Kraftstoff und α 2 = 1 2 Euro beim sonstigen Sortiment ausgehen können. Dann entspricht den beiden Umsatzvektoren ein rechnerischer Gewinnvektor u (0) + 1 4 u (1) + 1 4 u (2) = ⎛ ⎜ ⎜ ⎜ ⎝ 1 1 1 1 1 ⎞ ⎟ ⎟ ⎟ ⎠ + 1 4 ⎛ ⎜ ⎜ ⎜ ⎝ 4 2 6 2 4 ⎞ ⎟ ⎟ ⎟ ⎠ + 1 4 ⎛ ⎜ ⎜ ⎜ ⎝ 2 1 3 1 2 ⎞ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎜ ⎜ ⎜ ⎝ 5/ 2 7/ 4 13/ 4 7/ 4 5/ 2 ⎞ ⎟ ⎟ ⎟ ⎠ Derselbe rechnerische Gewinnvektor ergibt sich jedoch auch beispielsweise mit den Koeffizienten α 0 = 1, α 1 = 3 8 , α 2 = 0 oder α 0 = 1, α 1 = 0, α 2 = 3 4 ; es gibt unendlich viele Möglichkeiten, diesen Gewinnvektor zu „ generieren“. Umgekehrt ist es deshalb unmöglich die Gewinnanteile der beiden Umsatzsparten, für einen gegebenen Gewinnvektor verlässlich zu ermitteln. Das diesem Beispiel zugrunde liegende Problem der Regressionsrechnung wird als Kollinearität bezeichnet. Sie muss vermieden werden, wenn die errechneten Koeffizienten interpretierbar sein sollen. In der Statistik ist selbst „näherungsweise“ Kollinearität unerwünscht, weil bei der Berechnung der Koeffizienten numerische Schwierigkeiten auftreten können. Wir halten fest, dass es in manchen Situationen problematisch ist, einen Untervektorraum durch ein linear abhängiges System aufzuspannen. Man versucht dann, mit weniger, dafür aber linear unabhängigen Vektoren auszukommen. Ein solches Erzeugendensystem wird als Basis bezeichnet: Definition 3.10 ! Wird ein Untervektorraum L des R n von einem System linear unabhängiger Vektoren a (1) , . . . , a (m) aufgespannt, so nennt man dieses System eine Basis von L . 3.3.1 Gewinnung einer Basis aus einem Erzeugendensystem Aus einem linear abhängigen Erzeugendensystem a (1) , . . . , a ( m ) kann man eine Basis gewinnen, indem man sukzessive Vektoren aus dem System streicht, die sich durch die übrigen Vektoren linear kombinieren lassen. Das ist jedoch wörtlich ausgeführt sehr mühsam und mit dem sprichwörtlichen „Stochern im Nebel“ vergleichbar. Hier kann das Gauß’sche Eliminationsverfahren wieder helfen: Bestimmung einer Basis aus einem Erzeugendensystem Bei einem Untervektorraum in der Darstellung L = Span(a (1) , . . . , a ( m ) ) [1] bildet man aus den Spalten(vektoren) a (1) , . . . , a ( m ) eine Matrix A. [2] überführt man die erhaltene Matrix in Staffelform (oder in Zeilenstufenform). Vektoren a ( i ) , die zu Pivotspalten der Staffelform gehören, bilden eine Basis von L . <?page no="78"?> 78 3 Vektoren in der Ökonomie Beispiel 3.20 Es sei L = Span(a (1) , a (2) , a (3) , a (4) , a (5) , a (6) ) mit a (1) = ⎛ ⎜ ⎝ 1 2 1 − 1 ⎞ ⎟ ⎠ , a (2) = ⎛ ⎜ ⎝ 2 2 2 − 2 ⎞ ⎟ ⎠ , a (3) = ⎛ ⎜ ⎝ − 1 0 − 1 1 ⎞ ⎟ ⎠ , a (4) = ⎛ ⎜ ⎝ 2 0 − 1 0 ⎞ ⎟ ⎠ , a (5) = ⎛ ⎜ ⎝ − 1 1 1 1 ⎞ ⎟ ⎠ , a (6) = ⎛ ⎜ ⎝ 0 1 − 1 2 ⎞ ⎟ ⎠ Man bildet die Koeffizientenatrix A und berechnet die Zeilenstufenform zu A: A = ⎛ ⎜ ⎝ 1 2 − 1 2 − 1 0 2 2 0 0 1 1 1 2 − 1 − 1 1 − 1 − 1 − 2 1 0 1 2 ⎞ ⎟ ⎠ → ⎛ ⎜ ⎝ 1 0 1 0 0 1 0 1 − 1 0 0 − 1 0 0 0 1 0 1 0 0 0 0 1 1 ⎞ ⎟ ⎠ Man liest die Pivotspalten 1, 2, 4, 5 ab. Eine Basis von L ist also a (1) , a (2) , a (4) , a (5) . Der Begriff Basis tauchte bereits im Zusammenhang der linearen Optimierung auf vgl. S. 49 . Wählt man aus einem LGS, das zu einem LOP in Standardform gehört und die Koeffizientenmatrix A hat, Spalten so aus, dass sie zu den Basisspalten einer beliebigen Basisform des LGS korrespondieren, so erhält man eine Basis des Spaltenraumes, d.h. der linearen Hülle der Spalten(vektoren) der Koeffizientenmatrix. Zur Basisbestimmung aus einem Erzeugendensystem kann daher auch eine Basisform der zugehörigen Matrix verwendet werden. Diejenigen Vektoren bzw. Spalten der Ausgangsmatrix A, die zu Basisspalten der Basisform gehören, bilden eine Basis. Sie werden an dem obigen Beispiel bemerkt haben, dass die Anzahl der Basisvektoren durch die Anzahl der Pivotspalten festgelegt wurde. Man könnte nun fragen, ob es andere Verfahren zur Basisbestimmung gibt, die zu einer abweichenden Anzahl von Basisvektoren gelangen. Dies ist nicht der Fall. Satz 3.6 Zwei verschiedene Basen eines Untervektorraumes L ⊆ R n haben stets dieselbe Anzahl von Vektoren. Diese Zahl wird auch Dimension von L genannt. Als mögliche Dimensionen eines UVR des R n kommen nur 0, 1, 2, . . . , n in Frage: Der einzige Untervektorraum der Dimension 0 ist die Menge L = { ¯0 } , die also nur aus dem Nullvektor besteht. Zum Erzeugen dieses UVR ist kein Vektor erforderlich (der Vektor ¯0 für sich genommen ist linear abhängig). Ein UVR der Dimension 1 ist eine Gerade. Er besteht aus der Menge L = Span(a) = { αa : a ∈ R} aller skalar Vielfachen eines geeigneten Vektors a ∈ R n . Ein UVR L der Dimension 2 ist eine Ebene. Er besteht aus der Menge L = Span(a (1) , a (2) ) zweier geeigneter l.u. Vektoren a (1) , a (2) des R n . Der einzige UVR der Dimension n ist der R n selbst. Eine Basis dieses UVR ist beispielsweise das System der Einheitsvektoren e (1) , . . . , e ( n ) . 3.3.2 Basisbestimmung für Lösungsmengen homogener linearer Gleichungssysteme Untervektorräume können auch in anderer Gestalt als der linearen Hülle auftreten. Beispielsweise ist die Lösungsmenge Kern(A) eines homogenen LGS mit Koeffizientenmatrix A gemäß Satz 3.2 vgl. S. 64 ein Untervektorraum. Auch für solche UVR <?page no="79"?> 3.3 Untervektorraum und Basis 79 kann man eine Basis angeben. Dies benötigen wir später bei der Berechnung von Eigenvektoren vgl. Abschnitt 4.5, S. 124 und bei der Prüfung lokaler Extrema unter Nebenbedingungen vgl. Abschnitt 7.1.2, S. 235 . Beispiel 3.21 Gegeben sei das homogene LGS x 1 +3x 2 +x 3 +5x 4 = 0 x 1 +3x 2 +2x 3 +4x 4 +9x 5 = 0 2x 1 +6x 2 +9x 3 +12x 4 +27x 5 = 0 Die Lösungsmenge L wird als UVR mit Hilfe einer Basis dargestellt: ⎛ ⎝ 1 3 1 5 0 1 3 2 4 9 2 6 9 12 27 ⎞ ⎠ ZSF → ⎛ ⎝ 1 3 0 0 15 0 0 1 0 5 0 0 0 1 − 4 ⎞ ⎠ In Gleichungen geschrieben ergibt die ZSF ⎧ ⎨ ⎩ x 1 +3x 2 +15x 5 =0 x 3 +5x 5 =0 x 4 − 4x 5 =0 Wir stellen die Basisvariablen frei: ⎧ ⎨ ⎩ x 1 = − 3x 2 − 15x 5 x 3 = − 5x 5 x 4 = 4x 5 Lösung ist also jeder Vektor x = (x 1 , x 2 , x 3 , x 4 , x 5 ) T ∈ R 5 , der die genannten Gleichungen für die Basisvariablen erfüllt. Die Nicht-Basisvariablen dürfen beliebig gesetzt werden. Substituieren wir jetzt die Lösungsterme der Basisvariablen, so erhalten wir: x Subst. = ⎛ ⎜ ⎜ ⎜ ⎝ − 3x 2 − 15x 5 x 2 − 5x 5 4x 5 x 5 ⎞ ⎟ ⎟ ⎟ ⎠ Spreizen = ⎛ ⎜ ⎜ ⎜ ⎝ − 3x 2 x 2 0 0 0 ⎞ ⎟ ⎟ ⎟ ⎠ + ⎛ ⎜ ⎜ ⎜ ⎝ − 15x 5 0 − 5x 5 4x 5 x 5 ⎞ ⎟ ⎟ ⎟ ⎠ Faktorisieren = x 2 ⎛ ⎜ ⎜ ⎜ ⎝ − 3 1 0 0 0 ⎞ ⎟ ⎟ ⎟ ⎠ + x 5 ⎛ ⎜ ⎜ ⎜ ⎝ − 15 0 − 5 4 1 ⎞ ⎟ ⎟ ⎟ ⎠ Jede Lösung des LGS lässt sich mit den Schritten Substitution, Spreizung und Faktorisierung also als LK der Vektoren a (1) = ⎛ ⎜ ⎜ ⎜ ⎝ − 3 1 0 0 0 ⎞ ⎟ ⎟ ⎟ ⎠ , a (2) = ⎛ ⎜ ⎜ ⎜ ⎝ − 15 0 − 5 4 1 ⎞ ⎟ ⎟ ⎟ ⎠ schreiben; umgekehrt ist jede Linearkombination auch eine Lösung des Gleichungssystems. Es ist also L = Span(a (1) , a (2) ). Der Nullvektor lässt sich nur in der Form ⎛ ⎜ ⎜ ⎜ ⎝ 0 0 0 0 0 ⎞ ⎟ ⎟ ⎟ ⎠ = 0 ⎛ ⎜ ⎜ ⎜ ⎝ − 3 1 0 0 0 ⎞ ⎟ ⎟ ⎟ ⎠ + 0 ⎛ ⎜ ⎜ ⎜ ⎝ − 15 0 − 5 4 1 ⎞ ⎟ ⎟ ⎟ ⎠ darstellen, denn für die zweite bzw. fünfte Komponente ist jeweils a (1) bzw. a (2) „allein verantwortlich“. Die beiden Vektoren sind also l.u. Insgesamt bilden a (1) , a (2) eine Basis des R n . Die Basisvektoren kann man offenbar schematisch aus der ZSF des LGS ablesen: Satz 3.7 (Bestimmung einer Basis von Kern ( A )) Gegeben sei eine Koeffizientenmatrix A mit n Spalten und Zeilenstufenform Z, die k Pivotspalten und n − k Nichtpivot-Spalten hat. Dann gilt: [1] Jede Basis von Kern(A) besteht aus n − k Basisvektoren, d.h. dim(Kern(A)) = n − k. [2] Eine spezielle Basis bekommt man, indem man jeder Nicht-Pivotspalte von Z schematisch einen Basisvektor x wie folgt zuordnet vgl. Abbildung 3.4 : [a] An den Stellen j 1 , . . . , j k in x werden die Einträge von Z in Spalte mit umgekehrtem Vorzeichen eingetragen. [b] An Stelle in x wird der Wert 1 eingetragen. [c] Alle übrigen Einträge im Basisvektor werden gleich Null gesetzt. <?page no="80"?> 80 3 Vektoren in der Ökonomie · · · 1 · · · 0 · · · z 1 · · · 0 · · · · · · 0 · · · 1 · · · z 2 · · · 0 · · · · · · 0 · · · 0 · · · ... 0 · · · · · · 0 · · · 0 · · · z k 1 · · · ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ↓ ↓ ↓ ↓ j 1 j 2 j k ↓ ↓ ↓ ↓ · · · −z 1 · · · −z 2 · · · 1 · · · −z k · · · Z = x = ( ) T Abbildung 3.4: Berechnung einer Basis von Kern(A) aus der ZSF, Schema Beispiel 3.22 (Fortsetzung von Beispiel 3.21) Die Zeilenstufenform in Beispiel 3.21 lautet ⎛ ⎝ 1 3 0 0 15 0 0 1 0 5 0 0 0 1 − 4 ⎞ ⎠ Sie hat fünf Spalten, dabei drei Basisspalten, nämlich die Spalten 1, 3, 4 und zwei Nicht- Basisspalten, nämlich die Spalten 2, 5. Wir konstruieren beide Basisvektoren nach der obigen Blaupause: zur Nicht-Basisspalte ⎛ ⎝ 3 0 0 ⎞ ⎠ : ⎛ ⎜ ⎜ ⎜ ⎝ × × × × × ⎞ ⎟ ⎟ ⎟ ⎠ [a] −→ ⎛ ⎜ ⎜ ⎜ ⎝ − 3 × 0 0 × ⎞ ⎟ ⎟ ⎟ ⎠ [b] −→ ⎛ ⎜ ⎜ ⎜ ⎝ − 3 1 0 0 × ⎞ ⎟ ⎟ ⎟ ⎠ [c] −→ ⎛ ⎜ ⎜ ⎜ ⎝ − 3 1 0 0 0 ⎞ ⎟ ⎟ ⎟ ⎠ zur Nicht-Basisspalte ⎛ ⎝ 15 5 − 4 ⎞ ⎠ : ⎛ ⎜ ⎜ ⎜ ⎝ × × × × × ⎞ ⎟ ⎟ ⎟ ⎠ [a] −→ ⎛ ⎜ ⎜ ⎜ ⎝ − 15 × − 5 4 × ⎞ ⎟ ⎟ ⎟ ⎠ [b] −→ ⎛ ⎜ ⎜ ⎜ ⎝ − 15 × − 5 4 1 ⎞ ⎟ ⎟ ⎟ ⎠ [c] −→ ⎛ ⎜ ⎜ ⎜ ⎝ − 15 0 − 5 4 1 ⎞ ⎟ ⎟ ⎟ ⎠ Zu dieser schematischen Vorgehensweise wollen wir einige Anmerkungen machen: Der Sachverhalt dim(Kern(A)) = n − k, wobei k die Anzahl der Pivotspalten von A ist, wird auch als Dimensionsformel bezeichnet. Beim Füllen der Basisvektoren kann man im Schritt [a] die Einträge ohne Umkehrung des Vorzeichens und dafür in Schritt [b] den Eintrag − 1 vornehmen. Der sich ergebende Vektor ist dann der skalar Negative des obigen. Aus praktischen Erwägungen kann eine „Nachbearbeitung“ der einzelnen Basisvektoren durch skalare Vervielfältigung erfolgen, z.B. wenn die schematisch gefundenen Basisvektoren nicht ganzzahlige oder parametrische Komponenten beinhalten. Das Schema kann auch auf Basisformen der Gleichungsmatrix angewendet werden. Die Stellen j 1 , . . . , j k im Basisvektor x, an denen die Einträge − z 1 , . . . , − z k gesetzt werden, entsprechen dann den Basisspaltenindizes. Sie haben am vorangegangenen Beispiel gesehen, dass sich die Lösungsmenge eines homogenen linearen Gleichungssystems stets als Untervektorraum mit Hilfe von erzeugenden (Basis-)Vektoren schreiben lässt. Umgekehrt kann man aber auch zeigen, dass <?page no="81"?> 3.4 Längen und Winkel: Geometrie mit Vektoren 81 es zu jedem Untervektorraum in der Form L = Span(a (1) , . . . , a ( k ) ) ein homogenes lineares Gleichungssystem gibt, dessen Lösungsmenge gerade L ist. Beispiel 3.23 Wir betrachten die beiden Vektoren a (1) = ( − 2, 1, 0) T , a (2) = ( − 4, 0, 1) T und wollen den von ihnen aufgespannten Raum L als Lösungsmenge eines homogenen linearen Gleichungssystems schreiben. Welche Vektoren x = (x 1 , x 2 , x 3 ) T des R 3 sich als Linearkombinationen von a (1) , a (2) darstellen lassen, ist gleichwertig zu der Frage, für welche x 1 , x 2 , x 3 ∈ R das zu α 1 a (1) + α 2 a (2) = (x 1 , x 2 , x 3 ) T gehörige LGS in den Unbekannten α 1 , α 2 lösbar ist. Mit zwei Zeilenvertauschungen und zwei Additionsschritten wird die zugehörige Gleichungsmatrix in eine Staffelform (hier schon in die Zeilenstufenform) überführt: ⎛ ⎝ − 2 − 4 x 1 1 0 x 2 0 1 x 3 ⎞ ⎠ −→ ⎛ ⎝ 1 0 x 2 0 1 x 3 − 2 − 4 x 1 ⎞ ⎠ −→ ⎛ ⎝ 1 0 x 2 0 1 x 3 0 0 x 1 + 2x 2 + 4x 3 ⎞ ⎠ also ist x als LK von a (1) , a (2) darstellbar genau dann, wenn x 1 + 2x 2 + 4x 3 = 0. Die Darstellbarkeit ist gleichbedeutend mit der Lösbarkeit eines geeigneten homogenen LGS. Die Lösungsmenge dieses LGS ist genau die lineare Hülle von a (1) , a (2) . Im allgemeinen erhält man an dieser Stelle mehrere homogene lineare Gleichungen, also insgesamt ein homogenes LGS. Wir halten fest: Untervektorräume des R n und Lösungsmengen von homogenen linearen Gleichungssystemen in n Variablen entsprechen einander in eindeutiger Weise. Übungen zu Abschnitt 3.3 ? 10. Berechnen Sie eine Basis von a) Span( ( 1 2 ) , ( 2 1 ) , ( − 3 6 ) , ( 1 5 ) ) b) Span( ⎛ ⎝ 3 0 − 1 ⎞ ⎠ , ⎛ ⎝ 2 1 − 2 ⎞ ⎠ , ⎛ ⎝ 1 − 1 1 ⎞ ⎠ , ⎛ ⎝ 1 5 4 ⎞ ⎠ ) c) Span( ⎛ ⎝ 3 0 − 1 ⎞ ⎠ , ⎛ ⎝ 2 1 t ⎞ ⎠ , ⎛ ⎝ 1 − 1 1 ⎞ ⎠ , ⎛ ⎝ 1 5 4 ⎞ ⎠ ) 11. Berechnen Sie für die folgenden Matrizen A eine Basis von Kern(A). a) ⎛ ⎝ 1 2 − 3 2 1 0 3 1 1 ⎞ ⎠ b) ⎛ ⎝ 1 2 − t 2 1 t 3 1 2t ⎞ ⎠ c) ⎛ ⎜ ⎝ 1 0 0 2 0 1 − 2 3 0 − 1 0 7 − 2 1 2 1 0 9 − 1 − 3 3 1 2 4 ⎞ ⎟ ⎠ 12. Von einer Matrix A ist bekannt: A = ⎛ ⎝ 1 0 0 1 0 0 ⎞ ⎠ liegt in Zeilenstufenform vor. Eine Basis von Kern(A) ist ( − 1, − 7, 3, 0, 0) T und ( − 2, 6, 0, − 1, 0) T . Bestimmen Sie die fehlenden Einträge. 13. Stellen Sie Span(a (1) , a (2) ) als Lösungsmenge eines homogenen LGS dar: a) a (1) = ⎛ ⎝ 2 4 1 ⎞ ⎠ , a (2) = ⎛ ⎝ 3 − 1 − 2 ⎞ ⎠ b) a (1) = ⎛ ⎜ ⎝ 4 2 2 1 ⎞ ⎟ ⎠ , a (2) = ⎛ ⎜ ⎝ − 2 0 − 1 1 ⎞ ⎟ ⎠ <?page no="82"?> 82 3 Vektoren in der Ökonomie Abbildung 3.5: Länge, Abstand und rechter Winkel in der Anschauungsebene 3.4 Längen und Winkel: Geometrie mit Vektoren Die geometrische Darstellung von Vektoren des R 2 bzw. R 3 im kartesischen Koordinatensystem führt dazu, dass man dort die Orientierung von Vektoren zueinander mit elementargeometrischen Begriffen bzw. Kennzahlen beschreibt bzw. misst. Wir rekapitulieren die wichtigsten Begriffe für die Anschauungsebene, vgl. Abbildung 3.5. Beispiel 3.24 (Geometrische Grundbegriffe im R 2 , Teil 1) Unter der (euklidischen) Länge eines Vektors x = (x 1 , x 2 ) T ∈ R 2 versteht man den Wert ‖ x ‖ : = √ x 2 1 + x 2 2 . Unter dem (euklidischen) Abstand zwischen Vektoren x, y ∈ R 2 versteht man ‖ x − y ‖ = √ (x 1 − y 1 ) 2 + (x 2 − y 2 ) 2 , d.h. die Länge des Vektors x − y. Zwei Vektoren x = (x 1 , x 2 ) T und y = (y 1 , y 2 ) T stehen senkrecht (im rechten Winkel) aufeinander genau dann wenn in dem von ¯0, x und y erzeugten Dreieck der Satz des Pythagoras gilt, d.h. ‖ x ‖ 2 + ‖ y ‖ 2 = ‖ x − y ‖ 2 . Ausgeschrieben bedeutet dies x 2 1 + x 2 2 + y 2 1 + y 2 2 = (x 1 − y 1 ) 2 + (x 2 − y 2 ) 2 . Wenn man die Klammern ausmultipliziert und auf beiden Seiten alle quadratischen Aussdrücke substrahiert, so führt dies zu x 1 y 1 + x 2 y 2 = 0. Auch Winkel zwischen beliebigen Vektoren x, y des R 2 lassen sich mit Hilfe der Koordinaten von x, y darstellen: Beispiel 3.25 (Geometrische Grundbegriffe im R 2 , Teil 2) Mit ϕ sei der Winkel zwischen den beiden Vektoren x = (x 1 , x 2 ) T ∈ R 2 , y = (y 1 , y 2 ) T ∈ R 2 bezeichnet. Wir führen den Kosinus dieses Winkels rechnerisch auf x, y zurück. Der Einfachheit halber sollen beide Vektoren x, y ∈ R 2 die Länge 1 haben, d.h. es gelte x 2 1 + x 2 2 = 1 = y 2 1 + y 2 2 . Mit den Bezeichnungen in Abbildung 3.6 erkennt man dann: Für den dort eingezeichneten Winkel ϕ 1 gilt in dem rechtwinkligen Dreieck, dessen Hypotenuse der Vektor x bildet, nach dem Sinus- und Kosinussatz: x 1 = cos(ϕ 1 ) und x 2 = sin(ϕ 1 ). Der Winkel ϕ tritt in den beiden rechtwinkligen Dreiecken Δ(OP Q) und Δ(P QR) auf. Mit den Katheten p, q des letzteren Dreiecks folgt hieraus durch zweimalige Anwendung des Satzes von Pythagoras der Zusammenhang cos 2 (ϕ) = 1 − p 2 − q 2 . <?page no="83"?> 3.4 Längen und Winkel: Geometrie mit Vektoren 83 Abbildung 3.6: Winkel zwischen Vektoren im R 2 Der Punkt P (p 1 | p 2 ) hat nach dem Sinus- und Kosinussatz die Koordinaten p 1 = cos(ϕ 1 ) cos(ϕ) = x 1 cos(ϕ) und p 2 = sin(ϕ 1 ) cos(ϕ) = x 2 cos(ϕ). Die Katheten p, q lassen sich aus den Koordinaten p 1 , p 2 von P sowie aus x und y bestimmen: p = p 1 − y 1 = x 1 cos(ϕ) − y 1 , q = y 2 − p 2 = y 2 − x 2 cos(ϕ) Nun lässt sich der den Kosinus des Winkels ϕ auf x 1 , x 2 , y 1 , y 2 zurückführen. Es ist cos 2 (ϕ) = 1 − (p 2 + q 2 ) = 1 − (x 1 cos(ϕ) − y 1 ) 2 + (y 2 − x 2 cos(ϕ)) 2 = 1 − x 2 1 cos(ϕ) + 2x 1 y 1 cos(ϕ) − y 2 1 − y 2 2 + 2x 2 y 2 cos(ϕ) − x 2 2 cos 2 (ϕ) = 2 cos(ϕ)(x 1 y 1 + x 2 y 2 ) + 1 − (y 2 1 + y 2 2 ) − (x 2 1 + x 2 2 ) cos 2 (ϕ) = 2 cos(ϕ)(x 1 y 1 + x 2 y 2 ) − cos 2 (ϕ) Zusammenfassend gilt also cos 2 (ϕ) = 2 cos(ϕ)(x 1 y 1 + x 2 y 2 ) − cos 2 (ϕ). Für cos(ϕ) = 0 lässt sich diese Gleichung nach cos(ϕ) freistellen: cos(ϕ) = x 1 y 1 + x 2 y 2 Wenn x, y ∈ R 2 zwei beliebige Vektoren ungleich ¯0 sind, stimmt der Winkel zwischen x und y mit dem Winkel zwischen den Vektoren ˜ x, ˜ y überein, wobei ˜ x = (˜ x 1 , ˜ x 2 ) T = 1 ‖ x ‖ x = ( x 1 ‖ x ‖ , x 2 ‖ x ‖ ) T = ( x 1 √ x 2 1 + x 2 2 , x 2 √ x 2 1 + x 2 2 ) T ˜ y = (˜ y 1 , ˜ y 2 ) T = 1 ‖ y ‖ y = ( y 1 ‖ y ‖ , y 2 ‖ y ‖ ) T = ( y 1 √ y 2 1 + y 2 2 , y 2 √ y 2 1 + y 2 2 ) T denn ˜ x, ˜ y haben jeweils dieselbe „Richtung“ wie x, y. Sie haben andererseits jeweils die Länge 1, daher kann man ihren Winkel wie oben angegeben berechnen cos ϕ = ˜ x 1 ˜ y 1 + ˜ x 2 ˜ y 2 = x 1 ‖ x ‖ y 1 ‖ y ‖ + x 2 ‖ x ‖ y 2 ‖ y ‖ = x 1 y 1 + x 2 y 2 ‖ x ‖ · ‖ y ‖ <?page no="84"?> 84 3 Vektoren in der Ökonomie Entsprechend lässt sich im Anschauungsraum R 3 zeigen, dass die (euklidische) Länge eines Vektors x = (x 1 , x 2 , x 3 ) T als ‖ x ‖ = √ x 2 1 + x 2 2 + x 2 3 berechnet wird, der (euklidische) Abstand zwischen Vektoren x = (x 1 , x 2 , x 3 ) T und y = (y 1 , y 2 , y 3 ) T durch ‖ x − y ‖ = √ (x 1 − y 1 ) 2 + (x 2 − y 2 ) 2 + (x 3 − y 2 3 ) gegeben ist, zwei Vektoren x = (x 1 , x 2 , x 3 ) T und y = (y 1 , y 2 , y 3 ) T genau dann senkrecht zueinander stehen, wenn der Ausdruck x 1 y 1 + x 2 y 2 + x 3 y 3 gleich Null ist, der Kosinus des Winkels zwischen Vektoren x = (x 1 , x 2 , x 3 ) T und y = (y 1 , y 2 , y 3 ) T als (x 1 y 1 + x 2 y 2 + x 3 y 3 )/ ( ‖ x ‖‖ y ‖ ) bestimmt wird. Grundbegriffe in Anschauungsebene und -raum lassen sich also offenbar auf Summen- Ausdrücke des Typs x 1 y 1 + x 2 y 2 (+x 3 y 3 ) bzw. x 2 1 + y 2 1 (+x 2 3 ) zurückführen. Die erste Summe wird als Skalarprodukt der beiden Vektoren x, y bezeichnet. Mit der Erweiterung auf Vektoren x, y im nicht mehr anschaulich vorstellbaren Vektorraum R n können dann die geometrischen Grundbegriffe der (euklidischen) Länge und des (euklidischen) Abstandes im R n ebenso wie die Winkelmessung rechnerisch beschrieben werden. Definition 3.11 (Skalarprodukt und euklidische Norm im R n ) ! [1] Für x = (x 1 , . . . , x n ) T ∈ R n , y = (y 1 , . . . , y n ) T ∈ R n ist das Skalarprodukt (bzw. inneres Produkt) von x und y definiert als 〈 x, y 〉 : = x 1 y 1 + · · · + x n y n [2] ‖ x ‖ : = √ 〈 x, x 〉 = √ x 2 1 + · · · + x 2n heißt Euklidische Norm von x ∈ R n . [3] x, y ∈ R n heißen orthogonal (kurz: x ⊥ y), wenn 〈 x, y 〉 = 0. Sie heißen orthonormal , wenn zusätzlich ‖ x ‖ = ‖ y ‖ = 1. Beispiel 3.26 Das Skalarprodukt 〈 x, y 〉 lässt sich nur bilden, wenn Vektoren x, y gleich viele Komponenten haben. Also kann beispielsweise das Skalarprodukt der Vektoren (1, 2) T und (0, 3, 1) T , d.h. der Ausdruck 〈 ( 1 2 ) , ⎛ ⎝ 0 3 1 ⎞ ⎠ 〉 nicht gebildet bzw. berechnet werden. Beispiel 3.27 Im R 3 seien folgende Vektoren gegeben: x = ⎛ ⎝ 1, 4 − 0, 8 2, 3 ⎞ ⎠ , y = ⎛ ⎝ 4, 1 1, 2 − 0, 4 ⎞ ⎠ , z = ⎛ ⎝ 1, 2 2, 1 0 ⎞ ⎠ Skalarprodukte verschiedener Vektoren sind hier: 〈 x, y 〉 = 1, 4 · 4, 1 + ( − 0, 8) · 1, 2 + 2, 3 · ( − 0, 4) = 3, 86 = 〈 y, x 〉 <?page no="85"?> 3.4 Längen und Winkel: Geometrie mit Vektoren 85 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4 2 2 3 3 4 4 1 1 3 3 4 4 1 1 2 2 4 4 1 1 2 2 3 3 3 4 2 4 2 3 3 4 1 4 1 3 2 4 1 4 1 2 2 3 1 3 1 2 4 3 4 2 3 2 4 3 4 1 3 1 4 2 4 1 2 1 3 2 3 1 2 1 30 29 29 27 27 26 29 28 27 24 25 23 27 25 26 23 22 21 24 23 23 21 21 20 Tabelle 3.3: Skalarprodukt als Maßzahl für Gleich- und Gegenläufigkeit. Jede Spalte enthält in den Zeilen 2 bis 5 die Einträge eines Vektors y = (y 1 , . . . , y 4 ) T , der durch Permutation der Zahlen 1, . . . , 4 entsteht. In der sechsten Zeile steht jeweils das Skalarprodukt dieses Vektors mit dem Vektor (1, 2, 3, 4) T . 〈 x, z 〉 = 1, 4 · 1, 2 + ( − 0, 8) · 2, 1 + 2, 3 · 0 = 0 = 〈 z, x 〉 , also sind x, z orthogonal, in Zeichen x ⊥ z. 〈 y, z 〉 = 4, 1 · 1, 2 + 1, 2 · 2, 1 + ( − 0, 4) · 0 = 7, 44 = 〈 z, y 〉 Die euklidischen Längen der Vektoren betragen: ‖ x ‖ = √ 1, 4 2 + ( − 0, 8) 2 + 2, 3 2 ≈ 2, 81 ‖ y ‖ = √ 3, 1 2 + 1, 2 2 + ( − 0, 4) 2 ≈ 4, 29 ‖ z ‖ = √ 1, 2 2 + 2, 1 2 + 0 2 ≈ 2, 42 Beispiel 3.28 (Skalarprodukt als Maß für Gleichläufigkeit) Unter einem Ranking von n Objekten versteht man einen Vektor x ∈ R n , der aus einer Umordnung (Permutation) der Zahlen 1, . . . , n besteht. Solche Rankings treten oft bei der Bewertung verschiedener Produkte auf. Jedes Produkt bekommt aufgrund quantitativer Kennzahlen, durch Kundenbeurteilung oder andere Instanzen eine Rangzahl zugewiesen.Derartige Rankings werden natürlich regelmäßig aktualisiert und der zeitliche Zusammenhang analysiert. Hierzu kann das Skalarprodukt der Rankingvektoren verschiedener Zeitpunkte herangezogen werden. Wir betrachten beispielhaft das Ranking von vier Objekten. In Tabelle 3.3 sind die 24 verschiedenen Rankings jeweils in den Zeilen 2 bis 5 dargestellt. In der sechsten Zeile finden Sie jeweils das Skalarprodukt des entsprechenden Vektors y mit dem Vektor x = (1, 2, 3, 4). Beispielsweise ergibt sich der untere Eintrag in der ersten Spalte als 〈 ⎛ ⎜ ⎝ 1 2 3 4 ⎞ ⎟ ⎠ , ⎛ ⎜ ⎝ 1 2 3 4 ⎞ ⎟ ⎠ 〉 = 1 2 + 2 2 + 3 2 + 4 2 = 30 letzten Spalte als 〈 ⎛ ⎜ ⎝ 1 2 3 4 ⎞ ⎟ ⎠ , ⎛ ⎜ ⎝ 4 3 2 1 ⎞ ⎟ ⎠ 〉 = 1 · 4 + 2 · 3 + 3 · 2 + 4 · 1 = 20 Die Tabelle ist nach absteigender Größe dieses Skalarproduktes sortiert. Man sieht, dass die Fälle völliger Gleichläufigkeit bzw. Gegenläufigkeit von x und y die Tabellenränder d.h. die maximalen und minimalen Skalarprodukte festlegen. Außerdem kann man feststellen, dass bei zwei Vektoren, die sich nur durch eine Vertauschung zweier Elemente unterscheiden, derjenige das geringere Skalarprodukt mit x = (1, 2, 3, 4) T hat, bei dem die vertauschten Elemente in absteigender Größe vorliegen. Das Skalarprodukt beschreibt also, wie „aufsteigend“ der Vektor y in seinen Komponenten ist, es <?page no="86"?> 86 3 Vektoren in der Ökonomie ist eine Kennzahl für den Grad der Gleichläufigkeit mit dem - vollständig „aufsteigenden“ Vektor (1, 2, 3, 4) T . Nimmt man für x einen anderen Rangvektor, so erhält man die selben 24 Werte für das Skalarprodukt, nur in einer anderen Reihenfolge. Das Skalarprodukt zweier Rangreihen kann also als Maßzahl für die Gleichbzw. Gegenläufigkeit der Rangreihen dienen. Ein Wert nahe 30 bedeutet hier ungefähre Gleichläufigkeit, ein Wert nahe 20 hingegen ungefähre Gegenläufigkeit. Der in der Statistik häufig verwendete Pearson’sche Korrelationskoeffizient, mit dem der lineare Zusammenhang zwischen Datenreihen gemessen wird, ist eine „standardisierte“ Version des Skalarproduktes, er ergibt sich als Skalarprodukt der Datenreihen, die zuvor durch Subtraktion der Mittelwerte zentriert und anschließend durch Division mit den Standardabweichungen skaliert worden sind. Beispiel 3.29 Wiederum im R 3 betrachten wir a (1) = ⎛ ⎝ 3/ 5 4/ 5 0 ⎞ ⎠ , a (2) = ⎛ ⎝ 4/ 5 − 3/ 5 0 ⎞ ⎠ , a (3) = ⎛ ⎝ 0 0 1 ⎞ ⎠ Je zwei dieser Vektoren sind orthonormal: 〈 a ( j ) , a ( j ) 〉 = 0 für i = j und ‖ a ( i ) ‖ = 1. Im vorangegangenen Beispiel sagt man auch, dass a (1) , a (2) , a (3) paarweise orthonormal sind. Ein weiteres Beispiel paarweise orthonormaler Vektoren sind im R n die Einheitsvektoren e (1) , . . . , e ( n ) . Satz 3.8 (Eigenschaften des Skalarproduktes) S1. Für alle x ∈ R n gilt: 〈 x, x 〉 ≥ 0. Außerdem ist x = ¯0 ⇐⇒ 〈 x, x 〉 = 0 S2. Für alle x, y ∈ R n gilt: 〈 x, y 〉 = 〈 y, x 〉 . S3. Für alle x, y, z ∈ R n , α ∈ R gilt: a. 〈 x, y + z 〉 = 〈 x, y 〉 + 〈 x, z 〉 und 〈 x + y, z 〉 = 〈 x, z 〉 + 〈 y, z 〉 b. 〈 x, αy 〉 = α 〈 x, y 〉 = 〈 αx, y 〉 Eigenschaft S1 wird als Positivität, S2 als Symmetrie und S3 als Bilinearität des Skalarproduktes bezeichnet. Bei der Motivation des Skalarproduktes im R 2 war bereits deutlich geworden, dass der Wert 〈 x,y 〉 ‖ x ‖‖ y ‖ selber als Kosinus des Winkels zwischen den Strahlen, die von x und y erzeugt werden, interpretiert werden kann. Damit dies auch im geometrisch nicht mehr darstellbaren R n möglich ist, muss sichergestellt sein, dass dieser Bruch auch in der allgemeinen Form stets zwischen − 1 und 1 liegt. Dies ist in der Tat der Fall. Satz 3.9 (Cauchy-Schwarz-Ungleichung) Für alle x, y ∈ R n gilt |〈 x, y 〉| ≤ ‖ x ‖ · ‖ y ‖ . Dabei gilt |〈 x, y 〉| = ‖ x ‖ · ‖ y ‖ genau dann, wenn x, y linear abhängig sind. Zur Begründung: Die Ungleichung ist sicher richtig für y = ¯0. Außerdem folgt für alle α ∈ R mittels Symmetrie S2 und Bilinearität S3 die (Un)gleichungskette 0 ≤ 〈 x − αy, x − αy 〉 = 〈 x, x 〉 − 2α 〈 x, y 〉 + α 2 〈 y, y 〉 = ‖ x ‖ 2 − 2α 〈 x, y 〉 + α 2 ‖ y ‖ 2 . Der letztgenannte Term ist also nichtnegativ. Für y = 0 darf man in diesen Term α = 〈 x,y 〉 ‖ y ‖ 2 einsetzen und erhält die <?page no="87"?> 3.4 Längen und Winkel: Geometrie mit Vektoren 87 Ungleichung ‖ x ‖ 2 − 〈 x,y 〉 2 ‖ y ‖ 2 ≥ 0. Daraus folgt die Cauchy-Schwarz-Ungleichung. Wenn x, y linear abhängig sind, also beispielsweise y = αx mit einem geeigneten Skalar α ∈ R gilt, so ist |〈 x, y 〉| = |〈 x, αx 〉| = | α 〈 x, x 〉| = | α | · ‖ x ‖ 2 = ‖ x ‖ · ‖ αx ‖ = ‖ x ‖ · ‖ y ‖ . Gilt umgekehrt die Gleichheit |〈 x, y 〉| = ‖ x ‖·‖ y ‖ , so bedeutet dies, dass in der oben stehenden Ungleichungskette mit α = 〈 x,y 〉 ‖ y ‖ 2 schon überall Gleichheit gelten muss, also gilt 〈 x − αy, x − αy 〉 = 0. Das ist nach S1 aber nur möglich, wenn schon x − αy = 0 gilt, also sind x, y linear abhängig. Die Cauchy-Schwarz-Ungleichung lässt sich für x = ¯0, y = ¯0 in die Form − 1 ≤ 〈 x, y 〉 ‖ x ‖ · ‖ y ‖ ≤ 1 bringen. Wie in Anschauungsebene und Anschauungsraum können Sie daher diesen Ausdruck als Kosinus des Winkels interpretieren, der von x und y mit der Winkel-Basis ¯0 erzeugt wird. Mit der Cauchy-Schwarz-Ungleichung wird in der Analysis die Interpretation des so genannten Gradienten einer differenzierbaren Funktion als Richtung des steilsten Anstiegs möglich werden. Einen ersten Nutzen hat die Cauchy-Schwarz- Ungleichung beim folgenden Nachweis der Dreiecksungleichung der euklidischen Norm. Satz 3.10 (Eigenschaften der Norm) N1. Für alle x ∈ R n gilt: ‖ x ‖ ≥ 0. Ferner gilt: x = ¯0 ⇐⇒ ‖ x ‖ = 0. N2. Für alle x ∈ R n , α ∈ R gilt: ‖ αx ‖ = | α | · ‖ x ‖ . N3. Dreiecksungleichung: Für alle x, y ∈ R n gilt: ‖ x + y ‖ ≤ ‖ x ‖ + ‖ y ‖ . Zur Begründung: N1 und N2 sind unmittelbare Konsequenzen von S1 und S3. Die Dreiecksungleichung folgt mit Hilfe der Cauchy-Schwarz-Ungleichung: ‖ x + y ‖ 2 = ‖ x ‖ 2 + 2 〈 x, y 〉 + ‖ y ‖ 2 CS ≤ ‖ x ‖ 2 + 2 ‖ x ‖ · ‖ y ‖ + ‖ y ‖ 2 = ( ‖ x ‖ + ‖ y ‖ ) 2 Für n = 1 wird aus der Norm der Absolutbetrag einer reellen Zahl. Dann sind N1, N2 und N3 wohlbekannte Eigenschaften des Absolutbetrages. Die Anschauungsebene und den Anschauungsraum kann man sich vermöge eines Systems von aufeinander senkrecht stehenden Koordinatenachsen vorstellen. Die Eigenschaft der Achsen, paarweise aufeinander senkrecht zu stehen, ermöglicht das effiziente Ablesen von Koordinaten, weil den Achsen die orthonormalen Einheitsvektoren zugrunde liegen. Sind zwei Vektoren x = (x 1 , x 2 ) T , y = (y 1 , y 2 ) T des R 2 zueinander orthogonal und vom Nullvektor verschieden, so liegt die Situation aus Abbildung 3.5 vgl. S. 82 vor.Die beiden Vektoren bilden eine um einen Winkel α aus dem Standard-Koordinatensystem „ gedrehte“ Basis des R 2 . Das Ablesen von Koordinaten in dieser Basis ist hier, aber vor allem bei Basen orthonomaler Vektoren im R n fast genau so einfach, als würde es sich bei der Basis um die Einheitsvektoren handeln. Satz 3.11 (Orthogonalität und Koordinatensysteme) 1. Sind a (1) , . . . , a (m) vom Nullvektor verschiedene Vektoren des R n und paarweise orthogonal, so sind sie linear unabhängig. Insbesondere gilt m ≤ n, d.h. das System besteht aus höchstens n Vektoren. 2. Sind a (1) , . . . , a (n) ∈ R n paarweise orthonormal, so gilt für jeden Vektor x ∈ R n die Koordinatendarstellung x = 〈 a (1) , x 〉 a (1) + · · · + 〈 a (n) , x 〉 a (1) . Zur Begründung: Es sei α 1 a (1) +. . .+α m a (m) = ¯0 eine Linearkombination des Nullvektors <?page no="88"?> 88 3 Vektoren in der Ökonomie aus a (1) , . . . , a (m) ; zu zeigen ist α 1 = . . . = α m = 0. Für alle i ∈ { 1, . . . , m } gilt: 0 = 〈 α 1 a (1) + . . . + α m a (m) , a (i) 〉 = α 1 〈 a (1) , a (i) 〉 + . . . + α m 〈 a (m) , a (i) 〉 = α i 〈 a (i) , a (i) 〉 Wegen a (i) = ¯0 folgt 〈 a (i) , a (i) 〉 = 0, also α i = 0. Da i ∈ { 1, . . . , m } beliebig war, folgt α 1 = . . . = α m = 0. Das ergibt den ersten Teil von 1. Mehr als n linear unabhängige Vektoren im R n kann es nicht geben, daher auch nicht mehr als n paarweise orthonormale. Zu 2. sei der Vektor y : = x − ( 〈 a (1) , x 〉 a (1) + · · · + 〈 a (n) , x 〉 a (n) ). Dann gilt für jedes i = 1, . . . , n: 〈 y, a (i) 〉 = 〈 x − ( 〈 a (1) , x 〉 a (1) + · · · + 〈 a (n) , x 〉 a (n) ), a (i) 〉 = 〈 x, a (i) 〉 − ( 〈 a (1) , x 〉〈 a (1) , a (i) 〉 − · · · − 〈 a (n) , x 〉〈 a (n) , a (i) 〉 = 〈 x, a i 〉 − 〈 a i , x 〉〈 a i , a i 〉 und der letzte Ausdruck ist Null, denn 〈 a (i) , a (i) 〉 = 1 aufgrund der Orthonormalität der a (i) . Also ist y ⊥ a (i) für alle i. y muss daher wegen b der Nullvektor sein, womit 2. folgt. Beispiel 3.30 Betrachtet werden noch einmal die drei paarweise orthonormalen Vektoren a (1) = ( 3 5 , 4 5 , 0) T , a (2) = ( 4 5 , − 3 5 , 0) T , a (3) = (0, 0, 1) T aus Beispiel 3.29 vgl. S. 86 . Für jeden Vektor x = (x 1 , x 2 , x 3 ) T ∈ R 3 gilt: Die Koordinaten von x als LK von a (1) , a (2) , a (3) lesen sich dann ab als 〈 x, a (1) 〉 = 3 5 x 1 + 4 5 x 2 , 〈 x, a (2) 〉 = 4 5 x 1 − 3 5 x 2 , 〈 x, a (3) 〉 = x 3 ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ = ( 3 5 x 1 + 4 5 x 2 ) ⎛ ⎝ 3/ 5 4/ 5 0 ⎞ ⎠ + ( 4 5 x 1 − 3 5 ) ⎛ ⎝ 4/ 5 − 3/ 5 0 ⎞ ⎠ + x 3 ⎛ ⎝ 0 0 1 ⎞ ⎠ Im Falle einer orthonormalen Basis ist also die Darstellung in diesem Koordinatensystem unmittelbar möglich. Die Koordinatendarstellung in Orthonormalsystemen ist ein wesentlicher Grund für die Beliebtheit orthonormaler Basen. Übungen zu Abschnitt 3.4 ? 14. Es seien m 1 , m 2 = 0. Zeigen Sie mit Hilfe des Skalarproduktes in der Anschauungsebene: Geraden y = y 0 + m 1 (x − x 0 ) und y = y 0 + m 2 (x − x 0 ) durch einen Punkt P (x 0 | y 0 ) stehen genau dann senkrecht aufeinander, wenn m 1 m 2 = − 1. 15. Es seien x, y ∈ R n Vektoren, deren Komponenten jeweils die Zahlen 1, . . . , n in willkürlicher Reihenfolge sind. Welche Werte nimmt das Skalarprodukt 〈 x, y 〉 mindestens und höchstens an a) im Fall n = 5, n = 6? b) im Fall, dass n ∈ N beliebig ist? 16. Berechnen Sie den Winkel φ zwischen den Vektoren x und y a) x = (4, 3) T , y = (7, 24) T b) x = ( − 1, 1, − 1, 1) T , y = (1, 3, 5, 7) T 17. Für welche(s) t ∈ R sind die Vektoren x = (6, 3t, − t, 1) T und y = (t, t, − 2t, 1) T orthogonal? 18. Zeige: Sind a (1) , . . . , a ( n ) ∈ R n von ¯0 verschieden und paarweise orthogonal, gilt x = 〈 x,a (1) 〉 〈 a (1) ,a (1) 〉 a (1) + · · · + 〈 x,a ( n ) 〉 〈 a ( n ) ,a ( n ) 〉 a ( n ) für jeden Vektor x ∈ R n . <?page no="89"?> 3.5 Abstandsmessung, Projektionen und KQ-Methode 89 Abbildung 3.7: Offene Kugel mit Radius 1 um (0, 0) T (Einheitskreis) 3.5 Abstandsmessung, Projektionen und KQ-Methode Wir wollen in diesem letzten Abschnitt das Konzept der Abstandsmessung zwischen Vektoren und seine Anwendungen in der Ökonomie genauer beleuchten. Auf der Zahlengerade R wird mit dem Absolutbetrag | x − y | der Abstand zwischen rellen Zahlen x, y gemessen. In der Anschauungsebene kann man über die euklidische Norm ‖ x − y ‖ = √ (x 1 − y 1 ) 2 + (x 2 − y 2 ) 2 die „Vogelflug-Distanz“ zwischen Vektoren x, y ∈ R 2 berechnen. Entsprechend lässt sich der Abstand im R n über die euklidische Norm erklären. Definition 3.12 (Euklidischer Abstand) ! [1] d(x, y) : = ‖ x − y ‖ heißt euklidischer Abstand zwischen x, y ∈ R n . [2] Für x ∈ R n , r ≥ 0 heißt B(x, r) : = { y ∈ R n : d(x, y) = ‖ x − y ‖ < r } offener Ball (offene Kugel) um x ∈ R n mit Radius r ≥ 0. Speziell heißt B(¯0, 1) Einheitsball (Einheitskugel). Die (offenen) Bälle B(x, r) sind im R 2 genau die Kreise und im R 3 genau die Kugeln zu einem gegebenen Mittelpunkt mit gegebenen Radius. Man hat den Begriffder Kugel daher auch für n-Vektoren adaptiert. Bälle/ Kugeln erklären gleichsam „Anziehungsbereiche“ von Vektoren. Alle Punkte innerhalb einer gegebenen offenen Kugel mit Radius r haben vom Zentrum der Kugel einen Abstand kleiner als r. Beispiel 3.31 Im R 3 haben x = (3, 1, 5) T , y = (0, 5, 5) T den euklidischen Abstand d(x, y) = √ (3 − 0) 2 + (1 − 5) 2 + (5 − 5) 2 = √ 9 + 16 = √ 25 = 5 Die zu x = (0, 0) T , r = 1 gehörige offene Kugel B(x, r) im R 2 heißt auch Einheitskreis; sie ist in Abbildung 3.7 skizziert. Achtung: die Kreislinie { y ∈ R 2 : d(x, y) = r } gehört definitionsgemäß nicht zu B(x, r), sie stellt vielmehr den Rand von B(x, r) dar. Im nächsten Beispiel sehen wir eine Anwendung der euklidischen Abstandsmessung im Rahmen der so genannten Diskriminanzanalyse: <?page no="90"?> 90 3 Vektoren in der Ökonomie Kreditkunde Jahre Einkommen Tourenziel W/ O N/ S S. Arrus 19 16 E. Uklid 7 14 N. Ewton 18 22 T. Hales 14 7 L. Eibniz 21 14 Kreditkunde Jahre Einkommen Tourenziel W/ O N/ S H. Ilbert 37 7 C. Auchy 12 9 G. Auß 14 19 H. Esse 5 11 E. Uler 29 20 Tabelle 3.4: Daten zu den Beispielen 3.32 und 3.33 Abbildung 3.8: Darstellung der zehn Kundenprofile aus Beispiel 3.32 Beispiel 3.32 Bei der SG-Direktbank liegt ein Antrag von E. Uler auf Gewährung eines Kredites vor. Dem Antrag entnimmt die Bank unter anderem, in wie vielen Jahren der Kunde ins Rentenalter eintritt, sowie sein frei verfügbares Nettoeinkommen (in Tausend e ). Bei E. Uler ergibt dies sein Kundenprofil (29 | 20). Anhand der Darlehensunterlagen sollen die Bedingungen für das Darlehen festgelegt werden. Der Antrag wird mit den letzten neun abgeschlossenen Verträgen verglichen; aus demjenigen Vertrag, dessen Daten dem aktuellen Antrag am nächsten liegen, werden die Konditionen für den neuen Vertrag entnommen. Die Daten der Altverträge und die von E.Uler liegen in Tabelle 3.4 vor, sie sind zugleich in Abbildung 3.8 visuell dargestellt. Die Affinität könnte man beispielsweise durch Berechnung des minimalen - euklidischen - Abstandes ermitteln. Die neun relevanten Abstandswerte sind in Tabelle 3.5 angegeben. Demnach sind die Konditionen des Vertrages mit L.Eibniz zu übernehmen, die kleinste Distanz beträgt √ (29 − 21) 2 + (20 − 14) 2 = 10 Einheiten. Alle anderen Kundenprofile liegen außerhalb des Kreises (der Kugel), dessen Mittelpunkt das Profil von E.Uler ist und auf dessen Rand das Profil von L.Eibniz liegt. Das Beispiel beschreibt typische Aufgaben und Herangehensweisen der Diskriminanzanalyse: <?page no="91"?> 3.5 Abstandsmessung, Projektionen und KQ-Methode 91 Kunde/ Tourenziel Daten euklidische Distanz City-Block-Distanz S. Arrus (19 | 16) √ 116 14 E. Uklid (7 | 14) √ 520 28 N. Ewton (18 | 22) √ 137 13 T. Hales (14 | 7) √ 394 28 L. Eibniz (21 | 14) √ 100 14 H. Ilbert (37 | 7) √ 233 21 C. Auchy (12 | 9) √ 410 28 G. Auß (14 | 19) √ 226 16 H. Esse (5 | 11) √ 657 23 Tabelle 3.5: Distanzen zu E.Uler mit den Daten (29 | 20) im Kredit-Beispiel 3.32 und im Routen-Beispiel 3.33 Abbildung 3.9: Stadtplan mit Zielorten und Startpunkt aus Beispiel 3.33 Personen/ Objekte sollen anhand ihrer Profile in vorgegebene Klassen eingeordnet werden; In jedem Fall ist die Affinität zu den Klassen anhand eines geeigneten Abstandsmaßes zu bestimmen. Beim Idealtypen-Ansatz wird die Zuordnung zu den Klassen anhand der Affinität von Repräsentanten der Klassen (als Idealtypen bezeichnet) vorgenommen. Im Kreditbeispiel sind die Idealtypen gerade durch die Altverträge und deren Konditionen gegeben. Die Affinität wird mittels der euklidischen Distanz - volkstümlich auch „Vogelflugdistanz“ genannt - berechnet. Reale Kundenprofile enthalten in aller Regel wesentlich mehr Informationen, d.h. stammen aus höherdimensionalen Vektorräumen. Hierfür könnte man dann beispielsweise die euklidische Distanz im R n verwenden. Aber selbst bei einem einfachen Datensatz wie dem vorliegenden muss die Wahl des Abstandsmaßes oft aus sachlogischen Gründen doch noch genauer überlegt werden. Um dies zu verdeutlichen, verwenden wir die gleichen Zahlen in einem völlig anderen Kontext, nämlich der Routenplanung: <?page no="92"?> 92 3 Vektoren in der Ökonomie Beispiel 3.33 Dem Fahrradkurier E. Uler liegen GPS-Daten seiner Position und von neun anzufahrenden Zielen als Koordinaten gemäß Tabelle 3.4 vor. E. Uler möchte das am nächsten liegende Ziel anfahren, wobei er dem Verlauf der rechtwinklig angeordneten Straßen vgl. Abbildung 3.9 folgen muss. Den Weglängen liegt daher nicht die euklidische Distanz, sondern die City-Block-Metrik zugrunde. Diese errechnet sich durch Addition der Teilwege in Ost-West- und Nord-Süd-Richtung. Danach ist der nächstliegende Kunde N.Ewton, seine Distanz zum Startpunkt beträgt | 29 − 18 | + | 20 − 22 | = 13 Wegeinheiten. Alle City-Block-Distanzen von E. Ulers Startpunkt zu den Zielen sind in der letzten Spalte von Tabelle 3.5 dargestellt. Auf dem in Abbildung 3.9 zuätzlich dargestellten Rand des Quadrates mit Mittelpunkt (29 | 20), dem Startpunkt von E.Uler, liegen alle Punkte, zu denen der Weg längs der Koordinatenachsen stets die Länge 13 hat. Alle anderen Punkte liegen außerhalb dieses Quadrates, haben also eine größere City-Block-Distanz zu E.Uler. Der Kunde L.Eibniz ist hinsichtlich Vogelflugdistanz nächster Kunde, nicht aber hinsichtlich City-Block-Distanz. Im Beispiel der Routenplanung erfolgt die Auswahl des nächsten Zieles also ganz anders als bei der Kreditvergabe, obwohl die gleichen Zahlenwerte zugrunde liegen. Ursächlich hierfür ist allein das aus sachlogischen Gründen zu verwendende Distanzmaß. Bei der Auswahl könnten aber auch noch andere Aspekte zu berücksichtigen sein: Im Kreditbeispiel ist das frei verfügbare Nettoeinkommen ggf. höher zu bewerten als die Zeit bis zum Renteneintritt, Differenzen in beiden Merkmalen also unterschiedlich zu gewichten. In Routenbeispiel könnten Nord-Süd-Straßen vorrangig befahrbar sein. Dann müsste die Distanz in West-Ost-Richtung stärker berücksichtigt werden. Fazit dieser Überlegungen und in vielen anderen Situationen zu berücksichtigen: Für die Klassifikation ist entscheidend, dass man mit einem dem Sachzusammenhang angemessenen Distanzmaß arbeitet. Als prominente, im Kontext der Diskriminanzanalyse oft verwendete Beispiele solcher Abstandsmaße zwischen Vektoren x, y ∈ R n seien genannt: l p -Abstände für p > 0: d p (x, y) : = p √ | x 1 − y 1 | p + · · · + | x n − y n | p In Statistik-Programmen wie z.B. SPSS heißt dies Abstandsmaß Minkowski-Distanz. Es fußt auf der l p -Norm ‖ x ‖ p : = p √ | x 1 | p + · · · + | x n | p . Der Fall p = 1 (Summe absoluter Differenzen) wurde in Beispiel 3.33 vgl. S. 92 eingeführt; die zugehörige Metrik heißt (City-)Block-Distanz oder Manhattan- Distanz. Der Fall p = 2 ist die anfangs besprochende euklidische Distanz. l ∞ -Abstand: d ∞ (x, y) : = max {| x i − y i | : 1 ≤ i ≤ n } (Tschebyscheff-Distanz). Hierzu gehört die Norm ‖ x ‖ ∞ : = max {| x 1 | , . . . , | x n |} . Um eine Vorstellung von der Art zu bekommen, wie l p -Abstände zwischen Vektoren gemessen werden, werden folgend die Einheitskugeln B p (¯0, 1) im R 2 dargestellt, die sich ergeben, wenn man anstelle der gewöhnlichen euklidischen Distanz eine l p -Metrik verwendet: Für p < ∞ liegt ein Punkt (x, y) T ∈ R 2 in der Einheitskugel B p (¯0, 1), wenn für ihn ‖ (x, y) T − (0, 0) T ‖ p < 1 gilt. Gleichbedeutend ist p √ | x | p + | y | p < 1 ⇔ <?page no="93"?> 3.5 Abstandsmessung, Projektionen und KQ-Methode 93 p Name der Metrik Formel für die Einheitskugeln 1 2 √ | x | + √ | y | < 1 1 City-Block | x | + | y | < 1 2 Euklid x 2 + y 2 < 1 3 | x | 3 + | y | 3 < 1 ∞ Tschebyscheffmax {| x | , | y |} < 1 Abbildung 3.10: l p -Einheitskugeln im R 2 für p = 1 2 (grau), p = 1 (weiß), p = 2 (blau) , p = 3 (grau außen), p = ∞ (gestrichelt) | x | p + | y | p < 1. Löst man die Gleichungen | x | p + | y | p = 1 nach y auf, so erhält man unterschiedliche Formeln für die Begrenzungslinien der Einheitskugeln in den vier Quadranten des R 2 vgl. Abbildung 3.10 . Die l p -Metriken haben einige wichtige Eigenschaften: Satz 3.12 D1. Für alle x, y ∈ R n gilt: d p (x, y) ≥ 0. Ferner ist d p (x, y) = 0 ⇐⇒ x = y D2. Für alle x, y ∈ R n gilt: d p (x, y) = d p (y, x) D3. Für alle x, y, z ∈ R n gilt: d p (x, z) ≤ d p (x, y) + d p (y, z) D4. Für alle x, y, z ∈ R n gilt: d p (x, z) ≥ | d p (x, y) − d p (y, z) | Begründung für den Fall p = 2 der euklidischen Distanz: D1, D2 und D3 folgen aus den Eigenschaften N1, N2 und N3 vgl. S. 87 . Für D4 nutzt man D2 und D3 aus: Einerseits ist d(x, y) ≤ d(x, z)+d(z, y) ⇒ d(x, z) ≥ d(x, y) − d(y, z). Andererseits ist d(y, z) ≤ d(y, x) + d(x, z) ⇒ − d(x, z) ≤ d(x, y) − d(y, z). Insgesamt ergibt sich − d(x, z) ≤ d(x, y) − d(y, z) ≤ d(x, z). Das ist aber gleichbedeutend mit D4. Für allgemeines p benötigt man insbesondere eine Dreiecksungleichung der l p -Norm und hierfür eine Verallgemeinerung der Cauchy-Schwarz-Ungleichung, die so genannte Hölder-Ungleichung. Neben der euklidischen Distanz gibt es also zahlreiche andere Abstandsmaße - auch auf anderen Vektorräumen -, welche die Eigenschaften D1 bis D3 besitzen. Sie werden Metriken genannt. Abstandsmessung wird auch herangezogen, wenn ein Vektor x sich nicht als Linearkombination gegebener Vektoren darstellen lässt und man dann die „nächstgelegene“ Linearkombination sucht. Definition 3.13 ! Gegeben sei ein Untervektorraum L = Span(a (1) , . . . , a (m) ) des R n sowie ein Vektor x ∈ R n . Ein Vektor z ∗ = α 1 a (1) + · · · + α m a (m) ∈ L , für den ‖ x − z ∗ ‖ (bzw. ‖ x − z ∗ ‖ 2 ) minimal ist, heißt Projektion von x auf L . Ob man ‖ x − z ‖ = √ (x 1 − z 1 ) 2 + · · · + (x n − z n ) 2 oder ‖ x − z ‖ 2 = (x 1 − z 1 ) 2 + · · · + (x n − z n ) 2 minimiert, spielt aus Sicht des Ergebnisvektors z ∗ keine Rolle, in beiden Fällen ergibt sich derselbe Vektor. In der quadrierten Fassung ist aber der Rechenaufwand geringer, denn man kann die Quadratwurzel, die sich in der euklidischen Distanz versteckt, außer Acht lassen. Die Minimierung dieses (quadrierten) euklidischen Abstands wird als „Methode der kleinsten Quadrate“ bezeichnet. <?page no="94"?> 94 3 Vektoren in der Ökonomie Abbildung 3.11: Projektion auf eine Gerade in Beispiel 3.34 Beispiel 3.34 Wir betrachten ein einfaches Beispiel in der Anschauungsebene. Gesucht ist die Projektion des Vektors x = (1, − 2) T auf den von a = (3, 4) T erzeugten Untervektorraum, d.h. auf die Gerade durch den Ursprung und den Punkt (3 | 4). Diese Projektion ist also ein geeignetes skalar Vielfaches z = αa = (3α, 4α) von a mit der Eigenschaft dass folgender Ausdruck minimal wird: ‖ x − z ‖ 2 = ∥ ∥ ∥ ∥ ( 1 − 2 ) − ( 3α 4α ) ∥ ∥ ∥ ∥ 2 = ∥ ∥ ∥ ∥ ( 1 − 3α − 2 − 4α ) ∥ ∥ ∥ ∥ 2 = (1 − 3α) 2 + ( − 2 − 4α) 2 Vereinfacht erhält man den Term 25α 2 + 10α + 5 = 25(α + 1 5 ) 2 + 4 (Scheitelpunktform), der in α zu minimieren ist. Man erhält α = − 1 5 und z ∗ = ( − 3 5 , − 4 5 ) T als Projektion. Die Lösung ist in Abbildung 3.11 dargestellt. Der Lösungsvektor z ∗ bildet mit x und a einen rechten Winkel, d.h. x − z ∗ und a sind orthogonal. Geometrisch gewinnt man z ∗ durch das Lot von x auf die von a erzeugte Gerade. Wird L von m Vektoren aufgespannt, so sind bei der Minimierung von ‖ z − x ‖ Linearkombinationen z = α 1 a (1) + · · · + α m a ( m ) zu betrachten, es muss in m Koeffizienten α 1 , . . . α m minimiert werden. Wie bei Geraden gilt für den Projektionsvektor z ∗ , dass der Differenzvektor z ∗ − x jeweils orthogonal zu den einzelnen, den Untervektorraum L erzeugenden Vektoren a (1) , a (2) , . . . , sein muss, d.h. 〈 z ∗ − x, a ( i ) 〉 = 0. Löst man die Skalarprodukte auf, so gilt also jeweils 〈 z ∗ , a ( i ) 〉 = 〈 x, a ( i ) 〉 . Setzt man in jede Gleichung die Linearkombination für z ∗ ein, so folgt 〈 α 1 a (1) + α 2 a (2) + · · · , a ( i ) 〉 = 〈 x, a ( i ) 〉 , i = 1, 2, . . . Jetzt kann man das linke Skalarprodukt als Summe schreiben und erhält α 1 〈 a (1) , a ( i ) 〉 + α 2 〈 a (2) , a ( i ) 〉 + · · · = 〈 x, a ( i ) 〉 , i = 1, 2, . . . Es handelt sich hierbei um ein LGS in α 1 , α 2 , . . . , dessen Koeffizienten durch Skalarprodukte zwischen den beteiligten Vektoren gegeben sind: <?page no="95"?> 3.5 Abstandsmessung, Projektionen und KQ-Methode 95 Definition 3.14 ! Es seien x, a (1) , . . . , a (m) Vektoren des R n und L die lineare Hülle von a (1) , . . . , a (m) . Unter den Normalgleichungen versteht man das LGS mit der Gleichungsmatrix ⎛ ⎜ ⎝ 〈 a (1) , a (1) 〉 . . . 〈 a (1) , a (m) 〉 〈 a (1) , x 〉 ... ... ... 〈 a (m) , a (1) 〉 . . . 〈 a (m) , a (m) 〉 〈 a (m) , x 〉 ⎞ ⎟ ⎠ Jede Lösung (α 1 , . . . , α m ) dieses LGS liefert eine mögliche Darstellung des Projektionsvektors z ∗ = α 1 a (1) + · · · α m a ( m ) . Wenn a (1) , . . . , a ( m ) linear unabhängig sind, so haben die Normalgleichungen eine eindeutige Lösung. Beispiel 3.35 Es sei x = (1, 4, 3) T und a (1) = (2, − 1, 0) T , a (2) = (1, 0, 1) T . Wir suchen die Projektion von x auf den von a (1) , a (2) erzeugten Untervektorraum L , also denjenigen Vektor z = α 1 a (1) + α 2 a (2) , der von x den kleinsten euklidischen Abstand ‖ x − z ‖ hat. Die Gleichungsmatrix der Normalgleichungen wird in Zeilenstufenform überführt: ( 〈 a (1) , a (1) 〉 〈 a (1) , a (2) 〉 〈 a (1) , x 〉 〈 a (2) , a (1) 〉 〈 a (2) , a (2) 〉 〈 a (2) , x 〉 ) = ( 5 2 − 2 2 2 4 ) → ( 1 0 − 2 0 1 4 ) Die gesuchte Projektion z ∗ ist also z ∗ = ( − 2) ⎛ ⎝ 2 − 1 0 ⎞ ⎠ + 4 ⎛ ⎝ 1 0 1 ⎞ ⎠ = ⎛ ⎝ 0 2 4 ⎞ ⎠ Besonders einfach wird die Berechnung der Projektion, wenn die erzeugenden Vektoren a (1) , . . . , a ( m ) paarweise orthonormal sind. Dann sind nämlich alle auftretenden Skalarprodukte auf der linken Seite der Normalgleichungen gleich Null bzw. Eins und die Normalgleichungen liegen schon in Zeilenstufenform vor. Satz 3.13 Sind a (1) , . . . , a (m) paarweise orthonormale Vektoren des R n und x ∈ R n , so hat die Projektion von x auf L = Span(a (1) , . . . , a (m) ) die Form z ∗ = 〈 a (1) , x 〉 · a (1) + · · · + 〈 a (m) , x 〉 · a (m) Beispiel 3.36 Es seien folgende Vektoren gegeben: x = ⎛ ⎝ 2 − 1 3 ⎞ ⎠ , a (1) = ⎛ ⎝ 0, 36 0, 48 0, 8 ⎞ ⎠ , a (2) = ⎛ ⎝ − 0, 48 − 0, 64 0, 6 ⎞ ⎠ , Die beiden Vektoren a (1) , a (2) sind orthonormal, denn 0, 36 2 + 0, 48 2 + 0, 8 2 = 1 = ( − 0, 48) 2 + ( − 0, 64) 2 + 0, 6 2 0, 36 · ( − 0, 48) + 0, 48 · ( − 0, 64) + 0, 8 · 0, 6 = 0 Die Projektion von x auf den von a (1) , a (2) erzeugten Untervektorraum wird also durch die Skalarprodukte von x mit a (1) und mit a (2) festgelegt: 〈 a (1) , x 〉 = 2, 64, 〈 a (2) , x 〉 = 1, 48 also lautet die Projektion z ∗ = 2, 64 ⎛ ⎝ 0, 36 0, 48 0, 8 ⎞ ⎠ + 1, 48 ⎛ ⎝ − 0, 48 − 0, 64 0, 6 ⎞ ⎠ = ⎛ ⎝ 0, 24 0, 32 3 ⎞ ⎠ <?page no="96"?> 96 3 Vektoren in der Ökonomie Die Berechnung der Projektion ist eine in der Statistik oft verwenete Grundtechnik, sie wird dort als Methode der kleinsten Quadrate (KQ-Methode) bezeichnet und findet Eingang in zahlreiche ökonomische Anwendungen. Beispiel 3.37 (Fortsetzung von Beispiel 3.9 vgl. S. 68 ) Bei dem Versuch, den Gewinn an fünf Tankstellen auf die zwei Umsatzsparten „Kraftstoff“ und „Sonstige“ zurückzuführen, sollte eine Linearkombination g = ⎛ ⎜ ⎜ ⎜ ⎝ 3 4 2 3 3, 5 ⎞ ⎟ ⎟ ⎟ ⎠ = α 0 ⎛ ⎜ ⎜ ⎜ ⎝ 1 1 1 1 1 ⎞ ⎟ ⎟ ⎟ ⎠ + α 1 ⎛ ⎜ ⎜ ⎜ ⎝ 6 2, 5 8, 5 6, 5 9, 5 ⎞ ⎟ ⎟ ⎟ ⎠ + α 2 ⎛ ⎜ ⎜ ⎜ ⎝ 7 6 5 7 7, 5 ⎞ ⎟ ⎟ ⎟ ⎠ des links stehenden Gewinnvektors g mit Hilfe der rechts stehenden zwei Umsatzvektoren u (1) , u (2) , sowie eines - von den Spartenumsätzen unabhängigen - Sockelgewinnvektors u (0) (der erste Summand der Linearkombination) gefunden werden. In dieser Situation ist g sicher keine Linearkombination von u (0) , u (1) , u (2) ; im R 5 reichen dazu drei Vektoren in aller Regel nicht aus, die Koeffizienten α 0 , α 1 , α 2 sind schon durch drei der fünf Komponenten von g festgelegt, die zwei übrigen Komponenten kombinieren sich nur ausnahmsweise mit denselben Koeffizienten. Es wird daher ersatzweise nach einer Linearkombination gesucht, die zum Gewinnvektor g den kleinsten (quadratischen) euklidischen Abstand hat, d.h. es wird die Projektion von g auf den von u (0) , u (1) , u (2) erzeugten Untervektorraum gesucht. Über die Skalarprodukte der beteiligten Vektoren werden die Normalgleichungen aufgestellt und in ZSF überführt: ⎛ ⎝ 5 33 32, 5 15, 5 33 247 216, 25 97, 75 32, 5 216, 25 215, 25 102, 25 ⎞ ⎠ ⎛ ⎝ 1 0 0 1, 35026 0 1 0 − 0, 183097 0 0 1 0, 455105 ⎞ ⎠ (diese Lösung kann auch mit handelsüblichen Schultaschenrechnern gewonnen werden). Für die Erklärung des Gewinns durch die Spartenumsätze u 1 , u 2 würde der Tankstellenbesitzer also den Näherungsterm 1, 35 − 0, 18u 1 + 0, 46u 2 (mit gerundeten Koeffizienten) verwenden. Der Kraftstoffumsatz wirkt sich defizitär auf den Gewinn aus. Investitionen im Bereich des sonstigen Angebots könnten den Gewinn erhöhen. Bei der Interpretation dieses fiktiven Beispiels ist allerdings Vorsicht angebracht, denn die zugrunde liegende Datenbasis ist extrem klein (nur fünf Datensätze). Die berechneten Koeffizienten haben daher nur geringe Aussagekraft (wird fortgesetzt, vgl. S. 105 ). Im folgenden Beispiel soll zwischen zwei rellen ökonomischen Variablen ein Input- Output-Zusammenhang y = f(x) geklärt werden. Der Zusammenhang muss strukturell bekannt sein, d.h. die Entscheidung, ob die Funktion f linear (f(x) = ax + b), quadratisch (f(x) = ax 2 + bx + c) oder von einer anderen spezifischen Struktur ist, muss bereits weitgehend getroffen sein. Dann verbleibt die Aufgabe, die richtigen Koeffizienten für die Funktion zu finden. Hierzu liegen Datensätze (x 1 , y 1 ) T , . . . , (x n , y n ) T vor - in der Ökonomie meist aus Beobachtungen, in den Naturwissenschaften häufiger aus geplanten Experimenten. Beispiel 3.38 Aus einer Erhebung von Gebrauchtwagendaten in einer Online-Verkaufsplattform stehen uns aus dem Jahr 2007 zehn Datenpaare „Alter in Jahren„ und “Preis in Tausend <?page no="97"?> 3.5 Abstandsmessung, Projektionen und KQ-Methode 97 x y 2 88 2 95 18 70 34 24 38 30 28 15 21 25 25 25 39 34 33 33 Tabelle 3.6: Alter in Jahren x und Preis in Tausend Euro y von 10 gebrauchten Porsche 911. Rechts grafische Darstellung der Daten und der optimalen Regressionsgerade. Euro“ des Fahrzeugtyps Porsche 911 zur Verfügung. Diese sind in Tabelle 3.6 angegeben. Zur Preisschätzung suchen wir eine lineare Funktion y = ax + b, mit der sich der Gebrauchtwagenpreis y durch das Alter x des Wagens prognostizieren lässt. Der Faktor a stellt den jährlichen Wertverlust (ggf. Wertsteigerung) dar. Ein linearer Zusammenhang y = ax + b wie in diesem Beispiel ist oft zu spezifizieren. Es müssen dann die noch nicht festgelegten Koeffizienten, d.h. Geradensteigung a und Achsenabschnitt b so festgelegt werden, dass der tatsächliche Input-Output- Zusammenhang möglichst gut beschrieben wird. Die Methode der kleinsten Quadrate legt nun durch die Datenpunkte (x i , y i ) T eine „Ausgleichsgerade“ y = ax + b derart, dass die quadrierten Abstände der Datenpunkte zu der Gerade möglichst gering werden. Hierdurch werden alle Datenpunkte gleichermaßen berücksichtigt, ohne dass dabei Abweichungen nach unten und oben sich gegenseitig annullieren. Zusammengefasst besteht die KQ-Methode darin, den Ausdruck (y 1 − (ax 1 + b)) 2 + · · · + (y n − (ax n + b)) 2 = ‖ y − (ax + b1) ‖ 2 in den Parametern a, b zu minimieren, wobei x = (x 1 , . . . , x n ) T , y = (y 1 , . . . , y n ) T und 1 = (1, . . . , 1) T ∈ R n . Es liegt also wieder ein Projektionsproblem mit den erzeugenden Vektoren x und 1 vor. Die Normalgleichungen hierzu lauten in Matrixschreibweise ( 〈 x, x 〉 〈 x, 1 〉 〈 x, y 〉 〈 1, x 〉 〈 1, 1 〉 〈 1, y 〉 ) = ( x 2 1 + · · · + x 2 n x 1 + · · · + x n x 1 y 1 + · · · + x n y n x 1 + · · · + x n n y 1 + · · · + y n ) Beispiel 3.39 (Fortsetzung von Beispiel 3.38) Im Gebrauchtwagenbeispiel erhalten wir als Normalgleichungs-Matrix ( 〈 x, x 〉 〈 x, 1 〉 〈 x, y 〉 〈 1, x 〉 〈 1, 1 〉 〈 1, y 〉 ) = ( 7392 240 7567 240 10 439 ) → ( 1 0 − 1, 8192 0 1 87, 5618 ) Der gesuchte Prognosezusammenhang lautet also y = 87, 5618 − 1, 8192x. Pro Jahr verliert ein Porsche 911 also etwas mehr als 1819 Euro Wert. Auch hier ist bei der Interpretation Vorsicht geboten, da die Datenbasis wieder etwas „spärlich“ ist. Zudem sollte <?page no="98"?> 98 3 Vektoren in der Ökonomie man weitere Faktoren wie Laufleistung etc. mit berücksichtigen, wodurch man weitere Spaltenvektoren und Koeffizienten in das Erklärungsmodell mit aufnimmt. Außerdem wird gerade beim betrachteten Fahrzeugtyp ein „Oldtimer-Effekt“zu berücksichtigen sein, vgl. die vertiefende Übungsaufgabe 23 vgl. S. 99 . Die gewählte Vorgehensweise der Geradenanpassung wird auch als einfache lineare Regression bezeichnet. Mittels der Differentialrechnung mehrerer Variablen vgl. S. 234 oder durch Zeilenumformungen an der obigen Gleichungsmatrix kann man zeigen: Satz 3.14 (Formeln der einfachen linearen Regression) ‖ y − (ax + b1) ‖ 2 wird minimal , wenn gilt: a = ( 〈 x, y 〉 − n¯ x¯ y)/ ( ‖ x ‖ 2 − n¯ x 2 ), b = ¯ y − a¯ x (mit den Bezeichnungen ¯ x : = (x 1 + · · · + x n )/ n und ¯ y : = (y 1 + · · · + y n )/ n) Da in den Formeln nur Saldi von Daten, Datenquadraten und Datenprodukten vorkommen, ist die einfache lineare Regression im Funktionsumfang handelsüblicher nichtprogrammierbarer wissenschaftlicher Taschenrechner enthalten. Die Methode der kleinsten Quadrate ist eines der wichtigsten Hilfsmittel der Statistik, welche ihrerseits in allen empirischen Wissenschaften und so auch in den Wirtschaftswissenschaften benötigt wird. Sie werden daher in Ihrem Studium noch sehr häufig Fragestellungen vergleichbar den gerade geschilderten begegnen, wobei in realen Datensätzen oft auf „fertige“ Software-Lösungen zurückgegriffen wird, um die zugehörigen Normalgleichungen aufzustellen und zu lösen. Im nächsten Kapitel werden wir diesen Zusammenhang zwischen Regressionsaufgaben und klassischen Projektionsaufgaben unter Verwendung des Matrix-Konzepts noch genauer beschreiben. Übungen zu Abschnitt 3.5 ? 19. Welcher Vektor in L hat von x den kleinsten euklidischen Abstand? a) L = Span((1, 5, 2) T )), x = (3, − 3, − 3) T b) L = Span(( − 2, 2, 2, 1) T , (0, 3, 1, − 3) T ), x = ( − 6, 2, 0, 5) T c) L = Span(( − 2, − 1, 0) T , (3, 1, − 3) T ), x = ( − 13 − 3t, 16 − t, − 3 + 3t) T 20. Begründen Sie: Sind a, x ∈ R n mit a = ¯0, so ist z ∗ = 〈 a,x 〉 ‖ a ‖ 2 · a die Projektion von x auf die Gerade Span(a). 21. Aus früheren Marktkäufen möchte Hubert den Preis schätzen, um bei künftigen Einkäufen erfolgreich zu feilschen: kg Bananen 3 2 4 1 2 kg Orangen 2 1 1 1 Euro gezahlt 2,6 1,8 2,7 1,7 1,8 a) Stellen Sie den Sachverhalt als Projektionsaufgabe dar. b) Berechnen Sie die mutmaßlichen kg- Preise für Bananen und Orangen mit der KQ-Methode. c) Auf welchen Preis sollte sich Hubert einstellen, wenn er je 1 kg Bananen und Orangen kaufen will? 22. Leiten Sie die Formeln der einfachen linearen Regression aus den Normalgleichungen her (Satz 3.14) <?page no="99"?> Zusammenfassung Zusammenfassung Mit dem Konzept des (Spaltenbzw. Zeilen-)Vektors können Sie ökonomische Variablen gebündelt bearbeiten. Schon die Grundrechenarten „Addition“ und (skalare) Multiplikation eröffnen eine Fülle von mathematischen Konzepten zur Modellierung ökonomischer Sachverhalte - fast immer sind damit lineare Gleichungssysteme und deren Lösungen verbunden. Mit Skalarprodukt, Norm und Abstand lassen sich viele Fragestellungen der Elementargeometrie auch in nicht mehr anschaulich vorstellbaren Vektorräumen rechnerisch beschreiben und lösen. Abstandsminimierung durch Projektion auf lineare Untervektorräume ist eine wichtige Anwendung in der Statistik. Übungen zur Vertiefung von Kapitel 3 ? 23. Für die in Tabelle 3.6 vgl. S. 97 angegebenen Gebrauchtwagendaten soll nach der Methode der kleinsten Quadrate ein Zusammenhang der Form y = ax 2 + bx + c gefunden werden. a) Formulieren Sie eine geeignete Projektionsaufgabe und stellen Sie die Normalgleichungen auf. Lösen Sie diese anschließend (z.B. mit Hilfe eines wissenschaftlichen Schultaschenrechners). b) Stellen Sie die Daten zusammen mit dem gefundenen quadratischen Zusammenhang in einem Schaubild dar. Wie lässt sich der Verlauf der Parabel im Sachzusammenhang interpretieren? 24. Gesucht ist die Darstellung eines Vektors x ∈ R n als Linearkombination von Vektoren a (1) , . . . , a ( m ) ∈ R n . Kann man diese Aufgabe auch mittels Projektionen lösen? <?page no="101"?> 4 Matrizen in der Ökonomie Übersicht Wie Vektoren sind auch Matrizen unverzichtbare mathematische Objekte zur Modellierung in ökonomischen Fragestellungen. Sie helfen dabei, Produktionsstufen, Verschnittpläne, Wanderungsbewegungen, Risiko-Sachverhalte und viele weitere Anwendungssituationen auf strukturierte mathematische Modelle abzubilden. Daneben lassen sich auch viele statistische Datensätze mit Gewinn als Daten-Matrizen auffassen. Neben der unmittelbaren Verflechtung zwischen ökonomischen Profilen in Form des Matrix- Vektor-Produktes vgl. Abschnitt 4.1 werden wir mehrstufige Verflechtungen als Hintereinanderausführung von Matrizen beschriebenen linearen Abbildungen kennen lernen vgl. Abschnitt 4.2, S. 105 . Ein größerer Teil dieses Kapitels behandelt den Kalkül für quadratische Matrizen wie Inversion vgl. Abschnitt 4.3, S. 110 , Determinanten vgl. Abschnitt 4.4, S. 116 und Eigenwerte vgl. Abschnitt 4.5, S. 124 . Mit den Leontief- und den Markoff-Modellen vgl. Abschnitt 4.6, S. 130 schließen zwei Anwendungsmodelle der mathematischen Ökonomie dieses Kapitel ab. 4.1 Matrix-Vektor-Verflechtungen Vektoren, die ökonomische Profile beschreiben, werden oft im Laufe ökonomischer Prozesse transformiert, d.h. ihnen werden andere Vektoren zugeordnet. Diese Zuordnung lässt sich in vielen Fällen, wie etwa dem folgenden Beispiel der Materialverflechtung, mathematisch durch Matrizen beschreiben. Beispiel 4.1 (Fortsetzung von Beispiel 1.1 vgl. S. 16 ) Bei der Herstellung der vier Regaltypen bezeichne x = (x 1 , x 2 , x 3 , x 4 ) T bzw. y = (y 1 , y 2 , y 3 ) T die Vektoren der herzustellenden Regalquantitäten bzw. der dafür benötigten Bauelementquantitäten. Die rechnerische Zuordnung zwischen x und y wird mit einer Funktion f : R 4 → R 3 beschrieben, welche aus drei linearen Termen besteht: y = ⎛ ⎝ y 1 y 2 y 3 ⎞ ⎠ = f ⎛ ⎝ ⎛ ⎜ ⎝ x 1 ... x 4 ⎞ ⎟ ⎠ ⎞ ⎠ = ⎛ ⎝ 2x 1 + 3x 2 + 4x 3 + 5x 4 x 1 + x 2 + 2x 3 + 4x 4 5x 1 + 10x 2 + 15x 3 + 20x 4 ⎞ ⎠ Zur Darstellung dieser drei Terme und damit zur Festlegung von f reicht die Angabe der Materialverflechtungsmatrix ⎛ ⎝ 2 3 4 5 1 1 2 4 5 10 15 20 ⎞ ⎠ völlig aus. Der benötigte Rohstoffvektor ergibt sich durch eine rechnerische Verknüpfung der Materialverflechtungsmatrix mit dem Spaltenvektor der Endprodukte, welche man als Matrix-Vektor-Produkt bezeichnet. <?page no="102"?> 102 4 Matrizen in der Ökonomie Auch bei der Modellierung und Analyse von Marktanteilen können Matrizen mit Vorteil eingesetzt werden: Beispiel 4.2 (Übergangsmatrizen in Marktforschungsmodellen) Ein spezielles Produkt wird von zwei Anbietern A 1 , A 2 auf dem Markt zur Verfügung gestellt. Durch eine detaillierte Marktbeobachtung über mehrere Monate ist man zu folgenden Schlüssen bezüglich der Markentreue der Kunden gekommen: Von A 2 zu A 1 wechselt innerhalb eines Monats jeder dritte Kunde. Von A 1 zu A 2 wechselt innerhalb eines Monats jeder fünfte Kunde. Bezeichnen x 1 , x 2 die Kundenanteile, die Anbieter A 1 , A 2 an sich binden, so erwartet man nach einem Monat neue Kundenanteile y 1 = 4 5 · x 1 + 1 3 · x 2 und y 2 = 1 5 · x 1 + 2 3 · x 2 . Sind beispielsweise zu Beginn x 1 = 1 3 der Kunden Käufer bei A 1 und x 2 = 2 3 der Kunden Käufer bei A 2 , so ergeben sich nach einem bzw. zwei Monaten die Marktanteile y 1 = 4 5 · 1 3 + 1 3 · 2 3 = 22 45 , y 2 = 1 5 · 1 3 + 2 3 · 2 3 = 23 45 bzw. z 1 = 4 5 · 22 45 + 1 3 · 23 45 = 379 675 , z 2 = 1 5 · 22 45 + 2 3 · 23 45 = 296 675 Die größere Markentreue bei Anbieter 1 hat dazu geführt, dass das Kundenverhältnis 1 : 2 zu Beginn sich nach zwei Monaten in ein Kundenverhältnis 379 : 296 geändert hat. Perspektivisch führt die Proportionalität der Wechselströme zum aktuellen Marktanteilvektor bei längerer Fortschreibung zu einer Stabilisierung der Marktanteile im Verhältnis 5 : 3, und zwar unabhängig von der Anfangsverteilung. Ob Anbieter auf dem Markt bleiben, ist daher nicht eine Frage der mathematischen Fortschreibung der Kundenanteile, sondern der ökonomischen Rentabilität des stabilen Verhältnisses. Die Kundenwanderung wird mit Hilfe einer Funktion f : R 2 → R 2 modelliert, die sich mit Hilfe der Übergangsmatrix A = ( 4 5 1 3 1 5 2 3 ) schreiben lässt: f(x 1 , x 2 ) : = ( 4 5 x 1 + 1 3 x 2 1 5 x 1 + 2 3 x 2 ) Die Marktanteile des Folgemonats ergeben sich durch eine Verflechtung der Übergangsmatrix mit den Marktanteilen des aktuellen Monats, die ebenfalls als Produkt einer Matrix mit einem Vektor beschrieben werden kann. Definition 4.1 (Matrix-Vektor-Produkt) ! [1] Ein Feld A = ⎛ ⎝ a 11 · · · a 1n ... . . . ... a m1 · · · a mn ⎞ ⎠ , bestehend aus m Zeilen und n Spalten mit Einträgen a ij ∈ R heißt m × n-Matrix. R m × n ist die Menge aller reellen m × n-Matrizen. [2] Sei A eine solche reelle m × n-Matrix und x = (x 1 , . . . , x n ) T ∈ R n ein Vektor. Das Produkt von A und x ist ein Vektor im R m und erklärt als Ax : = ⎛ ⎝ a 11 x 1 + a 12 x 2 + . . . + a 1n x n ... a m1 x 1 + a m2 x 2 + . . . + a mn x n ⎞ ⎠ <?page no="103"?> 4.1 Matrix-Vektor-Verflechtungen 103 Beispiel 4.3 ⎛ ⎝ 0 3 3 9 2 2 6 0 6 1 8 5 ⎞ ⎠ · ⎛ ⎜ ⎝ 7 3 8 5 ⎞ ⎟ ⎠ = ⎛ ⎝ 0 · 7 + 3 · 3 + 3 · 8 + 9 · 5 2 · 7 + 2 · 3 + 6 · 8 + 0 · 5 6 · 7 + 1 · 3 + 8 · 8 + 5 · 5 ⎞ ⎠ = ⎛ ⎝ 78 68 134 ⎞ ⎠ ( 4 5 1 3 1 5 2 3 ) · ( 1 3 2 3 ) = ( 4 5 · 1 3 + 1 3 · 2 3 1 5 · 1 3 + 2 3 · 2 3 ) = ( 22 45 23 45 ) ( 4 5 1 3 1 5 2 3 ) · ( 5 8 3 8 ) = ( 4 5 · 5 8 + 1 3 · 3 8 1 5 · 5 8 + 2 3 · 3 8 ) = ( 5 8 3 8 ) Das letzte Beispiel zeigt das stabile Gleichwicht in Beispiel 4.2. Die Multiplikation Ax einer Matrix mit einem Vektor darf nur durchgeführt werden, wenn A genauso viele Spalten besitzt, wie x Einträge hat. Beispiel 4.4 Das Produkt ⎛ ⎝ 1 2 2 4 8 6 ⎞ ⎠ · ⎛ ⎝ 6 2 10 ⎞ ⎠ kann nicht gebildet werden. Beachten Sie: Das Produkt einer Matrix A und eines Spaltenvektors x wird in der Form Ax und nicht in der Form xA geschrieben - zu letzterem vgl. S. 108 . Produkte von Matrizen und Vektoren treten in der Ökonomie u.a. in der Material- und Sektorenverflechtung, Kostenrechnung, Marktforschung, beim Portfoliomanagement (Volatilität, Korrelation von Aktienkursen), in der Marginalanalyse (Krümmungsverhalten von Funktionen mehrerer Variablen) und in der Risikotheorie (Verlustfunktionen) auf. Die kompakte Darstellung multipler Verflechtungen in Verbindung mit dem Kalkül im Umgang mit solchen Produkten ist der Hauptvorteil der neuen Notation. Zur Linearkombination besteht ein enger Zusammenhang: Ist A eine m × n-Matrix und bezeichnen a (1) , . . . , a ( n ) die Vektoren, welche die erste, zweite,. . . , n-te Spalte von A bilden, so gilt für jeden Vektor x = (x 1 , . . . , x n ) T Ax = x 1 a (1) + · · · + x n a ( n ) Dies lässt sich auch von rechts nach links lesen, d.h. eine LK x 1 a (1) + · · · + x n a ( n ) von Spaltenvektoren kann man als Produkt Ax schreiben, wobei A aus den Spalten a (1) , . . . , a ( n ) und x aus den Koeffizienten x 1 , . . . , x n besteht. Beispiel 4.5 ⎛ ⎝ 0 3 3 9 2 2 6 0 6 1 8 5 ⎞ ⎠ · ⎛ ⎜ ⎝ 7 3 8 5 ⎞ ⎟ ⎠ = 7 ⎛ ⎝ 0 2 6 ⎞ ⎠ + 3 ⎛ ⎝ 3 2 1 ⎞ ⎠ + 8 ⎛ ⎝ 3 6 8 ⎞ ⎠ + 5 ⎛ ⎝ 9 0 5 ⎞ ⎠ ( − 5) ( 2 1 ) + 2 ( 0 4 ) + 3 ( 3 − 3 ) − ( 5 0 ) = ( 2 0 3 5 1 4 − 3 0 ) ⎛ ⎜ ⎝ − 5 2 3 − 1 ⎞ ⎟ ⎠ Die Rechenvorschrift des Matrix-Vektor-Produktes legt eine Abbildung f : R n → R m mit dem Funktionsterm f (x) : = Ax fest. Solche und weitere Funktionsterme in mehreren Variablen schreiben wir entweder in der Form f((x 1 , . . . , x n ) T ) (wenn die Bündelung der Variablen zu einem Spaltenvektor betont werden soll) oder etwas einfacher als <?page no="104"?> 104 4 Matrizen in der Ökonomie f(x 1 , . . . , x n ). Die vorliegende Funktion „verträgt sich“ mit Vektoroperationen; Vektorsummen und skalare Multiplikationen werden „durchgereicht“. Satz 4.1 (Matrizen als lineare Abbildungen) Sei A eine m × n-Matrix und f : R n → R m , f(x) : = Ax. Dann gilt: L1. f (x + y) = f (x) + f (y) für alle x, y ∈ R n , d.h. A(x + y) = Ax + Ay. L2. f (αx) = αf (x) für alle x ∈ R n , α ∈ R , d.h. A(αx) = α(Ax). Man sagt: Die Abbildung f : R n → R m , f(x) = Ax ist linear. Die Eigenschaft einer Abbildung f : V → W , linear zu sein, hat zunächst einmal nichts mit Matrizen zu tun. Handelt es sich aber bei den Vektorräumen V, W um die (in der Ökonomie meist verwendeten) Spaltenräume V = R n und W = R m , so gehört zu einer linearen Abbildung zwischen V und W automatisch eine Matrix A ∈ R n × m , denn für x = (x 1 , . . . , x n ) T folgt aus der Linearität f(x) = f(x 1 e (1) + · · · + x n e ( n ) ) = x 1 f(e (1) ) + · · · + x n f(e ( n ) ) wobei man x als Linearkombination der Einheitsvektoren schreibt. Satz 4.2 Eine lineare Abbildung f : R n → R m hat stets die Form f(x) = Ax. Die Matrix A hat dabei als Spalten die Bilder f ( e (1) ) , . . . , f ( e (n) ) der Einheitsvektoren des R n . Beispiel 4.6 Wir betrachten die Funktion f : R 3 → R 2 , f(x 1 , x 2 , x 3 ) = ( x 1 − 2x 2 x 3 ) . Die Abbildung ist linear, denn es gilt für alle x = (x 1 , x 2 , x 3 ) T ∈ R 3 , y = (y 1 , y 2 , y 3 ) T ∈ R 3 und α ∈ R f( ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ + ⎛ ⎝ y 1 y 2 y 3 ⎞ ⎠ ) = ( (x 1 + y 1 ) − 2(x 2 + y 2 ) x 3 + y 3 ) = ( x 1 − 2x 2 x 3 ) + ( y 1 − 2y 2 y 3 ) = f( ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ )+f( ⎛ ⎝ y 1 y 2 y 3 ⎞ ⎠ ) f(α ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ ) = ( αx 1 − 2αx 2 αx 3 ) = ( α(x 1 − 2x 2 ) αx 3 ) = α ( x 1 − 2x 2 x 3 ) = αf( ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ ) Die Spalten der zugehörigen Matrix A sind Bilder der Einheitsvektoren: f( ⎛ ⎝ 1 0 0 ⎞ ⎠ ) = ( 1 0 ) , f( ⎛ ⎝ 0 1 0 ⎞ ⎠ ) = ( − 2 0 ) , f( ⎛ ⎝ 0 0 1 ⎞ ⎠ ) = ( 0 1 ) Die Matrix A, welche f beschreibt, lautet also A = ( 1 − 2 0 0 0 1 ) . Fazit: Lineare Abbildungen f : R n → R m und Matrizen A ∈ R m × n entsprechen einander in eindeutiger Weise. Das Matrix-Vektor-Produkt kann verwendet werden, um lineare Gleichungssysteme in einer anderen kompakten Form darzustellen. Neben der Gleichungsmatrix (A | b) eines LGS mit n Unbekannten x 1 , . . . , x n und m Gleichungen kann man die Matrix-Vektor-Produkt-Darstellung Ax = b wählen, wobei x = (x 1 , . . . , x n ) T . Vorteil gegenüber der Gleichungsmatrix ist die Bündelung der Variablen als Vektor. Außerdem <?page no="105"?> 4.2 Matrix-Matrix-Verflechtungen 105 kann man den weiter unten behandelten Matrix-Kalkül einsetzen, um „quadratische“ lineare Gleichungssysteme schematisch unter Verwendung inverser Matrizen zu lösen. Schließlich lässt sich auch die allgemeine Aufgabe, eine Projektion zu finden, mit dem Matrix-Vektor-Produkt schreiben. Satz 4.3 Gegeben sei ein UVR L = Span(a (1) , . . . , a (m) ) des R n sowie ein Vektor x ∈ R n . Weiter sei D die n × m-Matrix, die sich aus den m erzeugenden Spaltenvektoren zusammensetzt. Dann ist die Projektion von x auf L derjenige Vektor z ∗ = Dα ∗ mit α ∗ ∈ R m , welcher den Ausdruck ‖ x − Dα ‖ in α ∈ R m minimiert. Die Lösung lässt sich mit Hilfe von D und x schreiben, wie wir gleich noch sehen werden. Beispiel 4.7 (Fortsetzung von Beispiel 3.37 vgl. S. 96 ) Um den Gewinn an fünf Tankstellen auf die zwei Umsatzsparten „Kraftstoff“ und „Sonstige“ zurückzuführen, muss der Gewinnvektor g = (3, 4, 2, 3, 7 2 ) T auf den von den Umsatzvektoren erzeugten UVR projiziert werden, d.h. eine Linearkombination z ∗ = α 0 ⎛ ⎜ ⎜ ⎜ ⎝ 1 1 1 1 1 ⎞ ⎟ ⎟ ⎟ ⎠ + α 1 ⎛ ⎜ ⎜ ⎜ ⎝ 6 2, 5 8, 5 6, 5 9, 5 ⎞ ⎟ ⎟ ⎟ ⎠ + α 2 ⎛ ⎜ ⎜ ⎜ ⎝ 7 6 5 7 7, 5 ⎞ ⎟ ⎟ ⎟ ⎠ gefunden werden, die von g kleinstmöglichen Abstand hat. Über den Zusammenhang zwischen LK und Matrix-Vektorprodukt stimmt diese Aufgabe damit überein, den Ausdruck ‖ g − Dα ‖ durch geeignete Wahl von α = (α 0 , α 1 , α 2 ) T ∈ R 3 zu minimieren. Dabei setzt sich D aus den Umsatz- und Sockelgewinnvektoren zusammen: D = ⎛ ⎜ ⎜ ⎜ ⎝ 1 6 7 1 2, 5 6 1 8, 5 5 1 6, 5 7 1 9, 5 7, 5 ⎞ ⎟ ⎟ ⎟ ⎠ ( wird fortgesetzt vgl. S. 109 ) Übungen zu Abschnitt 4.1 ? 1. Berechnen Sie: a) ( 2 1 4 3 − 3 5 1 2 ) ⎛ ⎜ ⎝ 7 − 1 2 4 ⎞ ⎟ ⎠ b) ( − t s − t s − t s ) ⎛ ⎝ s t s ⎞ ⎠ c) ( 1 1 1 . . . 1 1 2 3 . . . n ) ( n n − 1 . . . 2 1 ) T 2. Für welches A ist Ax a)= (x 3 , x 2 , x 1 ) T b)= (x 1 , tx 2 , x 3 ) T c)=(x 1 , x 2 , x 3 +tx 1 ) T ? 3. Geben Sie für den Funktionsterm möglichst eine Matrix A mit f(x) = Ax an. a) f((x 1 , x 2 ) T ) = (x 1 − x 2 , x 1 + x 2 ) T b) f((x 1 , x 2 ) T ) = (x 1 + x 2 , x 2 − 1) T c) f((x 1 , x 2 , x 3 ) T ) = (x 1 , x 2 2 / x 3 ) T 4.2 Matrix-Matrix-Verflechtungen Matrizen können in der Ökonomie Prozesse wie Produktionsabläufe und Kundenwanderungen modellieren. Oft muss jedoch die zugehörige Verflechtung mehrstufig abgebildet werden, wobei auf jeder Stufe eine Modellmatrix zum Einsatz kommt. Dies ist <?page no="106"?> 106 4 Matrizen in der Ökonomie beispielsweise in der mehrstufigen Produktion oder bei der Untersuchung eines Marktes über mehrere Zeiteinheiten erforderlich. Die sachlogische Hintereinanderschaltung kann dann oft mittels des so genannten Matrix-Produktes beschrieben werden. Beispiel 4.8 (Fortsetzung von Beispiel 1.1 vgl. S. 16 ) Die Ikebau-GmbH stellt interessierten Möbelhäusern zwei Muster-Zimmer, ausgestattet mit Bill-Regalen, zur Verfügung: zum einen Zimmer Z 1 mit einem Regal Bill1 und drei Regalen Bill4, zum anderen Zimmer Z 2 mit je zwei Regalen Bill2 und Bill3. Zu der Verflechtungsmatrix zwischen Rohstoffen Träger, Querstange, Boden und Regaltypen, d.h. zu A = ⎛ ⎝ 2 3 4 5 1 1 2 4 5 10 15 20 ⎞ ⎠ gesellt sich die Verflechtungsmatrix B = ⎛ ⎜ ⎝ 1 0 0 2 0 2 3 0 ⎞ ⎟ ⎠ , für den Zusammenhang zwischen Endprodukten „Zimmer“ und Zwischenprodukten „Regale“. Der Möbelhersteller benötigt den rechnerischen Zusammenhang zwischen den Zimmertypen und den drei Bauteilen Träger, Querstange und Boden. Dieser wird durch eine Matrix beschrieben, die sich spaltenweise gewinnen lässt: Für Zimmer Z 1 wird der Zwischenproduktvektor x (1) = (1, 0, 0, 3) T benötigt mit Rohstoffaufwand A · x (1) = ⎛ ⎝ 2 3 4 5 1 1 2 4 5 10 15 20 ⎞ ⎠ · ⎛ ⎜ ⎝ 1 0 0 3 ⎞ ⎟ ⎠ = ⎛ ⎝ 17 13 65 ⎞ ⎠ Für Zimmer Z 2 wird der Zwischenproduktvektor x (2) = (0, 2, 2, 0) T benötigt mit Rohstoffaufwand A · x (2) = ⎛ ⎝ 2 3 4 5 1 1 2 4 5 10 15 20 ⎞ ⎠ · ⎛ ⎜ ⎝ 0 2 2 0 ⎞ ⎟ ⎠ = ⎛ ⎝ 14 6 50 ⎞ ⎠ Verflechtungsmatrix zwischen Zimmern und Bauteilen ist also C = ⎛ ⎝ 17 14 13 6 65 50 ⎞ ⎠ . Die Spalten von C ergeben sich dadurch, dass man die Spalten von B als Spaltenvektoren auffasst, jeweils das Produkt von A mit diesen Spaltenvektoren bildet und die entstehenden Spalten wieder zu einer Matrix zusammensetzt. Genau diese rechnerische Verknüpfung der beiden Matrizen A, B wird Matrix-Produkt genannt. Auch in Marktforschungsmodellen können solche Matrixprodukte auftreten. Beispiel 4.9 (Fortsetzung von Beispiel 4.2 vgl. S. 102 ) Die Kundenwanderung eines Monats für ein spezielles Produkt mit zwei Anbietern A 1 , A 2 ist gegeben durch die Übergangsmatrix A = ( 4 5 1 3 1 5 2 3 ) . Nun soll das Übergangsverhalten für zwei Monate modelliert werden. Aus einem Marktanteilvektor x = (x 1 , x 2 ) T wird nach einem Monat der Anteilvektor y = (y 1 , y 2 ) T mit ( y 1 y 2 ) = Ax = ( 4 5 1 3 1 5 2 3 ) · ( x 1 x 2 ) = ( 4 5 x 1 + 1 3 x 2 1 5 x 1 + 2 3 x 2 ) = x 1 ( 4 5 1 5 ) + x 2 ( 1 3 2 3 ) Nach zwei Monaten ergibt sich der Marktanteilvektor z = (z 1 , z 2 ) T mit z=A ( x 1 ( 4 5 1 5 ) +x 2 ( 1 3 2 3 )) =x 1 A ( 4 5 1 5 ) +x 2 A ( 1 3 2 3 ) =x 1 ( 53 75 22 75 ) +x 2 ( 22 45 23 45 ) = ( 53 75 22 45 22 75 23 45 )( x 1 x 2 ) <?page no="107"?> 4.2 Matrix-Matrix-Verflechtungen 107 ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ a 1 , 1 . . . . . . . . . a 1 ,k ... ... a i, 1 . . . a i, . . . a i,k ... ... a m, 1 . . . . . . . . . a m,k ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ c 1 , 1 . . . . . . c 1 ,n ... ... c i,j ... ... c m, 1 . . . . . . c m,n ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ b 1 , 1 . . . b 1 ,j . . . b 1 ,n ... ... ... ... b ,j ... ... ... ... b k, 1 . . . b k,j . . . b k,n ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ i-te Zeile j-te Spalte Abbildung 4.1: Falk-Schema zur Matrix-Multiplikation Der Anteilvektor nach zwei Monaten ist also Bx mit Übergangsmatrix B = ( 53 75 22 45 22 75 23 45 ) . Die Matrix B erhält man, indem jeweils das Produkt von A mit den Spalten(-vektoren) aus A gebildet wird und man die Ergebnisse zu einer Matrix zusammensetzt. Der 2- Monats-Übergang wird also durch eine Übergangsmatrix B beschrieben, die als Produkt der Matrix A mit sich selbst aufgefasst werden kann. Gemeinsam haben die beiden Beispiele die rechnerische Vorgehensweise zur Bestimmung der kumulativen Verflechtung. Definition 4.2 ! Das Matrix-Produkt A · B bzw. AB zweier Matrizen A ∈ R m × k , B ∈ R k × n ist diejenige Matrix C ∈ R m × n , welche sich ergibt, wenn die Matrix-Vektorprodukte von A mit jeder Spalte von B gebildet und zu einer Matrix zusammengefasst werden. Die Matrix C hat dann die Einträge c i,j = a i,1 b 1,j + a i,2 b 2,j + . . . + a i,k b k,j Zur Einübung des Matrix-Produktes zweier konkreter Matrizen sollte anfangs auf das so genannte Falk-Schema in Abbildung 4.1 zurückgegriffen werden; hierbei steht die Matrix A links von der zu berechnenden Matrix C, die Matrix B oberhalb davon; dann fällt die Zuordnung der Formel für die Zell-Einträge von C zu den benötigten Zeilen bzw. Spalten von A bzw. B leichter. Beispiel 4.10 Die folgenden Beispiele sollten jeweils anhand des Bildungsgesetzes für Matrixprodukte überprüft werden: ⎛ ⎝ 3 2 0 1 1 0 2 0 4 4 − 1 − 3 ⎞ ⎠ · ⎛ ⎜ ⎝ 3 2 3 5 1 0 2 0 ⎞ ⎟ ⎠ = ⎛ ⎝ 17 16 5 2 17 28 ⎞ ⎠ und ( 2 0 1 0 3 2 ) · ⎛ ⎝ 3 2 3 0 1 5 ⎞ ⎠ = ( 7 9 11 10 ) <?page no="108"?> 108 4 Matrizen in der Ökonomie ( 3 2 3 5 ) · ⎛ ⎝ 3 0 1 3 4 1 ⎞ ⎠ und ⎛ ⎜ ⎝ 3 2 3 5 1 0 2 0 ⎞ ⎟ ⎠ · ⎛ ⎝ 3 2 0 1 1 0 2 0 4 4 − 1 − 3 ⎞ ⎠ dürfen nicht gebildet werden. Auch wenn A · B und B · A gebildet werden können, muss nicht A · B = B · A gelten: ( 1 2 0 0 ) · ( 0 0 0 1 ) = ( 0 2 0 0 ) , aber ( 0 0 0 1 ) · ( 1 2 0 0 ) = ( 0 0 0 0 ) A · B und B · A haben, selbst wenn sie gebildet werden können, im allgemeinen nicht einmal gleich viele Zeilen bzw. Spalten: ( 2 0 1 0 3 2 ) · ⎛ ⎝ 1 0 1 − 1 0 1 ⎞ ⎠ = ( 2 1 3 − 1 ) , aber ⎛ ⎝ 1 0 1 − 1 0 1 ⎞ ⎠ · ( 2 0 1 0 3 2 ) = ⎛ ⎝ 2 0 1 2 − 3 − 1 0 3 2 ⎞ ⎠ Das Matrixprodukt A · B kann nur dann gebildet werden, wenn A genau so viele Spalten wie B Zeilen hat. Das kann bei ökonomischen Anwendungen der Matrizenrechnung häufig schon im Sachzusammenhang erkannt werden. Mathematisch entspricht das Matrix-Produkt A · B der Bestimmung einer Matrix für die Verkettung bzw. Hintereinanderausführung zweier linearer Abbildungen, repräsentiert durch die Matrizen A und B. Man sollte daher eher von der Matrix-Verkettung sprechen. Allerdings hat das Matrix- Produkt ähnliche rechnerische Eigenschaften wie das Produkt reeller Zahlen, weshalb der Begriff „Produkt“ durchaus seine Berechtigung hat. Treten im Matrix-Produkt Matrizen mit einer Zeile oder einer Spalte auf, so sind die Ergebnisse konsistent mit früheren Begriffsbildungen: Produkt A · b einer Matrix A mit einem Spaltenvektor b (Matrix mit einer Spalte), Produkt b · A eines Zeilenvektors b (Matrix mit einer Zeile) mit einer Matrix A, Produkt a · b von Zeilenvektor und Spaltenvektor (vgl. Skalarprodukt) (a 1 , . . . , a n ) ⎛ ⎜ ⎝ b 1 ... b n ⎞ ⎟ ⎠ = a 1 b 1 + · · · + a n b n = 〈 ⎛ ⎜ ⎝ a 1 ... a n ⎞ ⎟ ⎠ , ⎛ ⎜ ⎝ b 1 ... b n ⎞ ⎟ ⎠ 〉 In Verallgemeinerung der entsprechenden Operationen für Vektoren lassen sich auch für Matrizen die Operationen Addition, Skalarmultiplikation und Transposition einführen: Für A = [a i,j ], B = [b i,j ] ∈ R m × n ist A + B : = [a i,j + b i,j ] 1 ≤i≤m 1 ≤j≤n . Für α ∈ R und A = [a i,j ] ∈ R m × n ist αA : = [αa i,j ] 1 ≤i≤m 1 ≤j≤n . Für A = [a i,j ] ∈ R m × n ist A T : = [b i,j ] 1 ≤i≤n 1 ≤j≤m ∈ R n × m mit b i,j = a j,i . Beispiel 4.11 ( 2 3 − 1 6 − 5 1 ) + ( − 2 8 1 0 1 − 1 ) = ( 0 11 0 6 − 4 0 ) und 4 · ( 2 3 − 1 6 − 5 1 ) = ( 8 12 − 4 24 − 20 4 ) ( 2 3 − 1 6 − 5 1 ) T = ⎛ ⎝ 2 6 3 − 5 − 1 1 ⎞ ⎠ <?page no="109"?> 4.2 Matrix-Matrix-Verflechtungen 109 Beim Rechnen mit Matrizen zeigt sich, dass Matrixprodukt und Summe fast genau so verträglich zueinander sind wie die vergleichbaren Operationen auf reellen Zahlen. In der Tat gelten folgende Rechenregeln, bei denen einzelne Matrizen auch einzeilig bzw. einspaltig sein können, so dass sich Rechenregeln für das Verflechten von Matrizen mit Vektoren ergeben. Satz 4.4 [1] (Distributivgesetze) Für A, B ∈ R m × k , C, D ∈ R k × n gilt (A + B) · C = (A · C) + (B · C), A · (C + D) = (A · C) + (A · D) [2] Für alle A ∈ R m × k , B ∈ R k × n , α ∈ R gilt: α(A · B) = A(α · B) = (αA) · B [3] (Assoziativgesetz) Für alle A ∈ R m × k , B ∈ R k × n , C ∈ R n × p gilt (A · B) · C = A · (B · C) [4] Für alle A, B ∈ R m × k und α ∈ R gilt: (A + B) T = A T + B T und (αA) T = α(A T ) [5] Für alle A ∈ R m × k , B ∈ R k × n gilt (! ) (A · B) T = B T · A T Vorsicht! Im Allgemeinen gilt AB = BA und (AB) T = (A T B T ) ! Sollte AB = BA doch ausnahmsweise für zwei Matrizen gelten, so sagt man, dass diese beiden Matrizen kommutieren. Mit Hilfe von Matrixprodukt und Transposition lassen sich auch die Normalgleichungen in einer Projektionsaufgabe umschreiben: Beispiel 4.12 (Projektionsaufgabe, Fortsetzung von Beispiel 4.7 vgl. S. 105 ) Der Gewinn g = (3, 4, 2, 3, 7 2 ) T an fünf Tankstellen soll auf die zwei Umsatzsparten „Kraftstoff“ und „Sonstige“ zurückgeführt werden. Dazu muss der Ausdruck ‖ g − Dα ‖ in α 0 , α 1 , α 2 minimiert werden. D setzt sich spaltenweise zusammen aus den Vektoren u (0) = ⎛ ⎜ ⎜ ⎜ ⎝ 1 1 1 1 1 ⎞ ⎟ ⎟ ⎟ ⎠ , u (1) = ⎛ ⎜ ⎜ ⎜ ⎝ 6 2, 5 8, 5 6, 5 9, 5 ⎞ ⎟ ⎟ ⎟ ⎠ , u (2) = ⎛ ⎜ ⎜ ⎜ ⎝ 7 6 5 7 7, 5 ⎞ ⎟ ⎟ ⎟ ⎠ Die Lösung haben wir über die Normalgleichungen, das LGS mit der Gleichungsmatrix ⎛ ⎝ 〈 u (0) , u (0) 〉 〈 u (0) , u (1) 〉 〈 u (0) , u (2) 〉 〈 u (0) , g 〉 〈 u (1) , u (0) 〉 〈 u (1) , u (1) 〉 〈 u (1) , u (2) 〉 〈 u (1) , g 〉 〈 u (2) , u (0) 〉 〈 u (2) , u (1) 〉 〈 u (2) , u (2) 〉 〈 u (2) , g 〉 ⎞ ⎠ = ⎛ ⎝ 5 33 32, 5 15, 5 33 247 216, 25 97, 75 32, 5 216, 25 215, 25 102, 25 ⎞ ⎠ bestimmt. Die Koeffizientenmatrix des LGS ergibt sich, indem man alle wechselseitigen Skalarprodukte der erzeugenden Vektoren u ( i ) miteinander bildet. Dies ist aber nichts anderes als das Matrix-Produkt von D T mit D, d.h. der Ausdruck D T D = ⎛ ⎝ 1 1 1 1 1 6 2, 5 8, 5 6, 5 9, 5 7 6 5 7 7, 5 ⎞ ⎠ ⎛ ⎜ ⎜ ⎜ ⎝ 1 6 7 1 2, 5 6 1 8, 5 5 1 6, 5 7 1 9, 5 7, 5 ⎞ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎝ 5 33 32, 5 33 247 216, 25 32, 5 216, 25 215, 25 ⎞ ⎠ <?page no="110"?> 110 4 Matrizen in der Ökonomie Die Skalarprodukte auf der rechten Seite der Normalgleichungen wiederum sind genau das Matrix-Vektor-Produkt von D T mit dem Gewinnvektor g, d.h. der Ausdruck D T g = ⎛ ⎝ 1 1 1 1 1 6 2, 5 8, 5 6, 5 9, 5 7 6 5 7 7, 5 ⎞ ⎠ ⎛ ⎜ ⎜ ⎜ ⎝ 3 4 2 3 7 2 ⎞ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎝ 15, 5 97, 75 102, 25 ⎞ ⎠ (wird fortgesetzt vgl. S. 115 ). Ganz allgemein gilt: Satz 4.5 Gegeben seien ein Untervektorraum L = Span(a (1) , . . . , a (m) ) ⊆ R n und ein Vektor x ∈ R n . Fasst man die erzeugenden Vektoren von L zu einer Matrix D zusammen, so lauten die Normalgleichungen der Projektion von x auf L (D T D)α = D T x Übungen zu Abschnitt 4.2 ? 4. Es seien a = (1, 2) T , b = (2, 1, 3) T , x = (x, y, z) T sowie A = ⎛ ⎝ 1 − 4 − 2 5 3 − 6 ⎞ ⎠ , B = ⎛ ⎝ 1 2 3 1 2 3 ⎞ ⎠ T , C = ⎛ ⎝ 1 0 0 0 2 0 0 0 3 ⎞ ⎠ , Berechnen Sie möglichst die Ausdrücke a) A T A, AA T , A 2 , AB, BA, AC, A T C, CA, BCA b) Aa, b T Aa, a T Bb, a T A T Aa, x T Cx 5. Gegeben seien die Matrizen A = ⎛ ⎝ 1 3 2 4 2 6 3 3 4 2 1 0 ⎞ ⎠ , S = ⎛ ⎝ 2 0 0 0 1 0 0 0 1 ⎞ ⎠ , Q = ⎛ ⎝ 1 0 0 0 1 2 0 0 1 ⎞ ⎠ , P = ⎛ ⎝ 1 0 0 0 0 1 0 1 0 ⎞ ⎠ a) Bilden Sie: S · A, Q · A, P · A. Interpretieren Sie die Ergebnisse. b) Was ergibt sich bei S · (Q · (P · A))? c) Welche Umformungen werden durch Matrixprodukte wie in a) dargestellt? 6. Die Logidig GmbH stellt zwei Varianten von CVD-Abspielgeräten her. In den Bedarfstabellen unten ist dargestellt, wie viele Bauteile T i zur Baugruppe G j (links) und wieviele Baugruppen G j dann zu Gerät P k (rechts) zusammengesetzt werden. G 1 G 2 G 3 T 1 4 2 1 T 2 1 3 0 P 1 P 2 G 1 3 1 G 2 0 3 G 3 2 4 a) Errechnen Sie die Bedarfsmatrix zwischen Bauteilen und Endprodukten. b) Berechnen Sie die Einkaufskosten der Produkte, wenn ein Bauteil T 1 2 Euro und ein Bauteil T 2 3 Euro kostet. c) Wie viele Bauteile T 1 und T 2 werden benötigt, um 10 Abspielgeräte P 1 und 5 Geräte P 2 zu produzieren? 4.3 Quadratische Matrizen und Inversion von Matrizen In vielen Anwendungen der Matrizenrechnung haben die zugrundeliegenden Matrizen gleiche Zeilen- und Spaltenzahl, weil die Input- und Output-Vektoren der zugehörigen Verflechtungsmodelle gleich viele Komponenten haben. Das war z.B. der Fall in dem <?page no="111"?> 4.3 Quadratische Matrizen und Inversion von Matrizen 111 behandelten Kundenwanderungsmodell aus der Marktforschung. Daneben sind auch Produktionsmodelle zuweilen von einer derartigen Struktur. Später werden hierzu die so genannten Sektor-Verflechtungsmodelle (Leontief-Modelle, vgl. Unterabschnitt 4.6.1, S. 131 ) vorgestellt. Schließlich finden solche Matrizen mit identischer Zeilen- und Spaltenzahl Verwendung bei der Untersuchung ökonomischer Funktionen mehrerer Variablen im Rahmen der Analysis. Dort fasst man beispielsweise die Ableitungen zweiter Ordnung in den verschiedenen Variablen zu derartigen Matrizen zusammen. Im Folgenden sollen Eigenschaften und Operationen für derartige quadratische Matrizen behandelt werden. Formal bezeichnet man eine Matrix als quadratisch, wenn ihre Zeilenzahl m mit ihrer Spaltenzahl n übereinstimmt, d.h. m = n. Unter den quadratischen Matrizen gibt es einige wichtige Spezialfälle. Definition 4.3 ! [1] Eine quadratische Matrix A ∈ R n × n heißt symmetrisch, falls gilt A = A T . [2] Eine quadratische Matrix A ∈ R n × n heißt Diagonalmatrix, falls a ij = 0 für alle i = j, i, j ∈ { 1, . . . , n } (d.h. höchstens die Einträge a 11 , . . . , a nn der sogenannten Hauptdiagonale sind von Null veschieden). [3] Die Diagonalmatrix mit 1-Einträgen auf der Hauptdiagonale heißt Einheitsmatrix I n : = ⎛ ⎜ ⎜ ⎜ ⎜ ⎝ 1 0 . . . . . . 0 0 1 0 ... . . . ... 0 0 . . . 1 0 0 0 . . . 0 1 ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ ∈ R n × n I n setzt sich spaltenweise aus den Einheitsvektoren e (1) , . . . , e ( n ) zusammen. Beispiel 4.13 Die folgenden Matrizen sind quadratisch mit zwei Zeilen und zwei Spalten: ( 1 2 − 1 1 ) , ( 0 5 5 4 ) , ( 3 0 0 − 2 ) , ( 1 0 0 1 ) Die folgenden Matrizen sind quadratisch mit drei Zeilen und Spalten: ⎛ ⎝ 1 2 0 − 1 1 1 − 1 2 1 ⎞ ⎠ , ⎛ ⎝ 1 2 0 2 3 − 4 0 − 4 5 ⎞ ⎠ , ⎛ ⎝ 3 0 0 0 − 2 0 0 0 5 ⎞ ⎠ , ⎛ ⎝ 1 0 0 0 1 0 0 0 1 ⎞ ⎠ Es sind jeweils die zweite bis vierte Matrix symmetrisch, die dritte und vierte diagonal, und die vierte schließlich ist die Einheitsmatrix I 2 bzw. I 3 . Eine Besonderheit bei quadratischen Matrizen besteht darin, dass das Produkt C = AB zweier quadratischer n × n-Matrizen A, B wiederum eine quadratische n × n-Matrix ist. Wie bei der Addition, so bleibt man also auch bei der Multiplikation quadratischer n × n-Matrizen in der gleichen Gruppe von Matrizen. In Beispiel 4.2 vgl. S. 102 wurde bereits berechnet, dass durch das Produkt A · A = ( 4 5 1 3 1 5 2 3 ) · ( 4 5 1 3 1 5 2 3 ) = ( 53 75 22 45 22 75 23 45 ) <?page no="112"?> 112 4 Matrizen in der Ökonomie die Zwei-Schritt-Übergangsmatrix bestimmt wird. Gerade für diese so genannten Markoff-Modelle sind Matrix-Potenzen von Interesse: Definition 4.4 (Matrixpotenz) ! Ist allgemein A ∈ R n × n , so vereinbart man daher die folgenden Potenzschreibweisen: A 0 : = I n sowie A k : = A · A · · · · · A ︸ ︷︷ ︸ k Faktoren (lies: „A hoch k“). Beim Umgang mit reellen Zahlen und den zugehörigen Grundrechenarten Addition und Multiplikation sind die Zahlen Null und Eins besonders ausgezeichnet als neutrale Elemente, die darüber hinaus die Zahlbereichserweiterung von den natürlichen zu den ganzen Zahlen und von den ganzen Zahlen zu den rationalen Zahlen motivieren, indem die Frage nach inversen Größen aufgeworfen wird. Gleiches kann man für quadratische Matrizen versuchen. Während die Null-Matrix - d.h. eine Matrix mit lauter Null-Einträgen - die Rolle des neutralen Elementes der Addition übernimmt, so leistet dies für die Matrix-Multiplikation die Einheitsmatrix; für jede (quadratische) Matrix A ∈ R n × n gilt A · I n = A, I n · A = A. An die Stelle der „Kehrwertbildung“ reeller Zahlen = 0 tritt im Matrix-Kalkül die Inversion. Definition 4.5 ! Wenn es zu einer Matrix A ∈ R n × n eine Matrix B ∈ R n × n gibt, so dass gilt A · B = I n = B · A, dann heißt A invertierbar und B heißt inverse Matrix zu A. Man verwendet das Symbol A − 1 , um die inverse Matrix zu A zu beschreiben („A hoch minus 1“). Wenn B inverse Matrix zu A ist, so ist auch A inverse Matrix zu B. Von den beiden geforderten Eigenschaften AB = I n und BA = I n muss zudem nur eine zutreffen, dann ist die jeweils andere automatisch erfüllt. Ist B = A − 1 gesucht, so entspricht dies der Lösung eines linearen Gleichungssystems in den n 2 Unbekannten b 11 , . . . , b nn . Dessen n 2 Gleichungen lauten für i, j ∈ { 1, . . . , n } a i 1 b 1 j + · · · + a in b nj = { 1 i = j 0 i = j Beispiel 4.14 Die inverse Matrix zur Matrix A = ( 1 0 0 2 ) ergibt sich aus dem LGS 1 · b 11 + 0 · b 21 = 1 1 · b 12 + 0 · b 22 = 0 0 · b 11 + 2 · b 21 = 0 0 · b 12 + 2 · b 22 = 1 Es folgt A − 1 = B = ( b 11 b 12 b 21 b 22 ) = ( 1 0 0 1 2 ) . Die inverse Matrix zur Matrix A = ( 2 3 1 1 ) ergibt sich aus dem LGS 2 · b 11 + 3 · b 21 = 1 2 · b 12 + 3 · b 22 = 0 1 · b 11 + 1 · b 21 = 0 1 · b 12 + 1 · b 22 = 1 Es folgt A − 1 = B = ( b 11 b 12 b 21 b 22 ) = ( − 1 3 1 − 2 ) . <?page no="113"?> 4.3 Quadratische Matrizen und Inversion von Matrizen 113 Die Matrix A = ( 2 4 1 2 ) hat keine inverse Matrix B. Wegen AB = I 2 wäre sonst 2b 11 + 4b 21 = 1 und b 11 + 2b 21 = 0, was nicht gleichzeitig möglich ist. Sie haben an den ersten beiden Beispielen gesehen, dass die Lösung des zugehörigen linearen Gleichungssystems einfacher ist, als es auf den ersten Blick aussieht. Es liegen dort zwar jeweils vier Gleichungen in vier Unbekannten vor, aber die Gleichungssysteme „zerfallen“ in zwei Gleichungssysteme zu je zwei Unbekannten. Zudem ist in beiden linearen Gleichungssystem die Koeffizientenmatrix jeweils dieselbe. Im ersten Beispiel liegt eine Diagonalmatrix A vor. Hier wird die Inverse schematisch durch Kehrwertbildung auf der Hauptdiagonalen berechnet. Dies ist aber auch nur für Diagonalmatrizen so einfach möglich. Am zweiten Beispiel erkennen Sie, dass die Inversenbildung nichts mit komponentenweiser Kehrwertbildung zu tun hat. Die inverse Matrix hat hier sogar wie die Ausgangsmatrix A ausschließlich ganzzahlige Einträge (das muss aber nicht immer so sein). Am dritten Beispiel erkennen Sie, dass nicht jede quadratische Matrix invertierbar ist (selbst wenn alle ihre Einträge von Null verschieden sind), mithin kann man nicht immer die inverse Matrix bilden, insbesondere erfolgt die Inversion nicht durch komponentenweise Kehrwertbildung. Im folgenden betrachten wir Beispiele zur Inversion von 3 × 3-Matrizen. Hier prüfen wir nur die Inversen-Eigenschaft, indem wir die Gleichung AB = I n prüfen. Die Berechnung mittels linearer Gleichungssysteme wie im vorangegangenen Beispiel der 2 × 2-Matrizen ersparen wir uns hier, denn man müsste ein lineares Gleichungssystem in 9 Gleichungen und 9 Unbekannten aufstellen. Wie man auf die inverse Matrix kommt, sehen wir später noch. Beispiel 4.15 Es ist ⎛ ⎝ 3 0 0 0 2 0 0 0 4 ⎞ ⎠ ⎛ ⎝ 1 3 0 0 0 1 2 0 0 0 1 4 ⎞ ⎠ = ⎛ ⎝ 1 0 0 0 1 0 0 0 1 ⎞ ⎠ , also ⎛ ⎝ 3 0 0 0 2 0 0 0 4 ⎞ ⎠ − 1 = ⎛ ⎝ 1 3 0 0 0 1 2 0 0 0 1 4 ⎞ ⎠ . Es ist ⎛ ⎝ 1 1 2 2 1 3 1 − 1 − 1 ⎞ ⎠ ⎛ ⎝ 2 − 1 1 5 − 3 1 − 3 2 − 1 ⎞ ⎠ = ⎛ ⎝ 1 0 0 0 1 0 0 0 1 ⎞ ⎠ , also ⎛ ⎝ 1 1 2 2 1 3 1 − 1 − 1 ⎞ ⎠ − 1 = ⎛ ⎝ 2 − 1 1 5 − 3 1 − 3 2 − 1 ⎞ ⎠ . Es ist ⎛ ⎝ 1 1 0 1 0 3 0 1 0 ⎞ ⎠ ⎛ ⎝ 1 0 − 1 0 0 1 − 1 3 1 3 1 3 ⎞ ⎠ = ⎛ ⎝ 1 0 0 0 1 0 0 0 1 ⎞ ⎠ , also ⎛ ⎝ 1 1 0 1 0 3 0 1 0 ⎞ ⎠ − 1 = ⎛ ⎝ 1 0 − 1 0 0 1 − 1 3 1 3 1 3 ⎞ ⎠ . Inverse Matrizen können zur Lösung von linearen Gleichungssystemen verwendet werden, die gleich viele Variablen und Gleichungen haben. Sie ermöglichen nämlich eine rein schematische Lösung der Gleichung Ax = b, ganz genau wie bei einer Gleichung ax = b in einer Variablen. Dazu muss lediglich die Matrix A invertierbar sein. Beide Seiten der Gleichung Ax = b können nämlich mit A − 1 multipliziert werden, das Gleichungssystem Ax = b ist äquivalent zu A − 1 (Ax) = A − 1 b. Weil aber (Assoziativgesetz! ) gilt A − 1 (Ax) = (A − 1 A)x = I n x = x, ist das lineare Gleichungssystem Ax = b gleichwertig zu x = A − 1 b. Es gilt also: Satz 4.6 Es sei A ∈ R n × n eine quadratische, invertierbare Matrix und b ∈ R n . Dann hat das lineare Gleichungssystem Ax = b genau eine Lösung, und zwar x = A − 1 b. <?page no="114"?> 114 4 Matrizen in der Ökonomie Beispiel 4.16 (Fortsetzung von Beispiel 1.2 vgl. S. 18 ) In der Herstellung von 1440 Papierrollen des Typs A, 2160 Rollen des Typs B und 1080 Rollen des Typs C gemäß Beispiel 1.2 sollen nur die Schnittmuster 1, 2 und 3 eingesetzt werden; dazu gehört das LGS ⎛ ⎝ 1 1 0 1 0 3 0 1 0 ⎞ ⎠ ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ = ⎛ ⎝ 1440 2160 1080 ⎞ ⎠ . In Beispiel 4.15 haben wir die inverse Matrix zur vorliegenden Koeffizientenmatrix angegeben. Damit ergibt sich ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ = ⎛ ⎝ 1 1 0 1 0 3 0 1 0 ⎞ ⎠ − 1 ⎛ ⎝ 1440 2160 1080 ⎞ ⎠ = ⎛ ⎝ 1 0 − 1 0 0 1 − 1 3 1 3 1 3 ⎞ ⎠ ⎛ ⎝ 1440 2160 1080 ⎞ ⎠ = ⎛ ⎝ 360 1080 600 ⎞ ⎠ Es muss also 360-mal das erste, 1080-mal das zweite und 600-mal das dritte Schnittmuster ausgeführt werden. Ob eine n × n-Matrix A invertierbar ist und wenn ja, wie die inverse Matrix B lautet, ergibt sich wie gesagt als Lösung eines linearen Gleichungssystems. Wir haben auch schon an Beispielen von 2 × 2-Matrizen gesehen, wie dieses lineare Gleichungssystem „zerfällt“. Genau auf dieser Idee basiert das gängige Lösungsverfahren zur Bestimmung der inversen Matrix B = A − 1 . Die Spalten b ( j ) ∈ R n der gesuchten Matrix B haben nämlich die Eigenschaft A · b ( j ) = e ( j ) (j-ter Einheitsvektor) für j = 1, . . . , n. Jede dieser Gleichungen stellt ein LGS in den unbekannten Komponenten von b ( j ) dar. Diese Gleichungssysteme unterscheiden sich nur in der rechten Seite, sie lassen sich daher allesamt mit denselben Zeilenumformungen lösen. Man schreibt also einfach alle rechten Seiten dieser Gleichungssysteme nebeneinander rechts in die Gleichungsmatrix und leitet hierfür dann die Zeilenstufenform her: Satz 4.7 (Verfahren zur Matrixinversion von A ∈ R n×n ) Man bilde aus A und der Einheitsmatrix I n die Matrix (A | I n ) = ⎛ ⎝ a 11 . . . a 1n 1 0 ... . . . ... . . . a n1 . . . a nn 0 1 ⎞ ⎠ Diese Matrix wird durch elementare Zeilenumformungen auf Zeilenstufenform gebracht. Wenn die ZSF von der Form (I n | B) ist (d.h. links steht die Einheitsmatrix), so ist A invertierbar und B = A − 1 . Andernfalls ist A nicht invertierbar. Beispiel 4.17 (Fortsetzung von Beispiel 4.15) Wir berechnen die Inverse der Matrix A = ⎛ ⎝ 1 1 2 2 1 3 1 − 1 − 1 ⎞ ⎠ . Dazu stellen wir die Matrix (A | I 3 ) auf und überführen diese in Zeilenstufenform: ⎛ ⎝ 1 1 2 1 0 0 2 1 3 0 1 0 1 − 1 − 1 0 0 1 ⎞ ⎠ → ⎛ ⎝ 1 1 2 1 0 0 0 − 1 − 1 − 2 1 0 0 − 2 − 3 − 1 0 1 ⎞ ⎠ → ⎛ ⎝ 1 1 2 1 0 0 0 1 1 2 − 1 0 0 − 2 − 3 − 1 0 1 ⎞ ⎠ → ⎛ ⎝ 1 1 2 1 0 0 0 1 1 2 − 1 0 0 0 − 1 3 − 2 1 ⎞ ⎠ → ⎛ ⎝ 1 1 2 1 0 0 0 1 1 2 − 1 0 0 0 1 − 3 2 − 1 ⎞ ⎠ → ⎛ ⎝ 1 1 0 7 − 4 2 0 1 0 5 − 3 1 0 0 1 − 3 2 − 1 ⎞ ⎠ → ⎛ ⎝ 1 0 0 2 − 1 1 0 1 0 5 − 3 1 0 0 1 − 3 2 − 1 ⎞ ⎠ Also ist ⎛ ⎝ 1 1 2 2 1 3 1 − 1 − 1 ⎞ ⎠ − 1 = ⎛ ⎝ 2 − 1 1 5 − 3 1 − 3 2 − 1 ⎞ ⎠ . <?page no="115"?> 4.3 Quadratische Matrizen und Inversion von Matrizen 115 Beispiel 4.18 Hingegen ist A = ⎛ ⎝ 0 4 1 2 1 1 2 5 2 ⎞ ⎠ nicht invertierbar, da Rang(A) = 2 < 3; die Einheitsmatrix kann durch Zeilenumformungen nicht hieraus erzeugt werden. Beispiel 4.19 (Fortsetzung von Beispiel 4.7 vgl. S. 109 ) Wir hatten die Normalgleichungen in der Projektionsaufgabe „Darstellung des Gewinns anhand von zwei Umsatzsparten“ bereits als LGS (D T D)α = D T g dargestellt. Dabei ist g = (3, 4, 2, 3, 7 2 ) T der Gewinnvektor und D setzt sich spaltenweise aus den Vektoren u (0) = ⎛ ⎜ ⎜ ⎜ ⎝ 1 1 1 1 1 ⎞ ⎟ ⎟ ⎟ ⎠ , u (1) = ⎛ ⎜ ⎜ ⎜ ⎝ 6 2, 5 8, 5 6, 5 9, 5 ⎞ ⎟ ⎟ ⎟ ⎠ , u (2) = ⎛ ⎜ ⎜ ⎜ ⎝ 7 6 5 7 7, 5 ⎞ ⎟ ⎟ ⎟ ⎠ zusammen und es gilt D T D = ⎛ ⎝ 5 33 32, 5 33 247 216, 25 32, 5 216, 25 215, 25 ⎞ ⎠ und D T g = ⎛ ⎝ 15, 5 97, 75 102, 25 ⎞ ⎠ . Es ergibt sich (Schultaschenrechner) (D T D) − 1 ≈ ⎛ ⎝ 11, 2587 − 0, 132102 − 1, 56721 − 0, 132102 0, 0351687 − 0, 0153863 − 1, 56721 − 0, 0153863 0, 256732 ⎞ ⎠ . Die Lösung der Normalgleichungen ist dann α = (D T D) − 1 (D T g) ≈ ⎛ ⎝ 1, 3503 − 0, 1831 0, 4551 ⎞ ⎠ . Wir haben das Gewinnbeispiel über den Ansatz der Normalgleichungen einer Projektionsaufgabe jetzt unter Zuhilfenahme der Matrixinversion gelöst. Später werden wir ohne Verwendung des Projektionsbegriffs noch einen optimierungstheoretischen Zugang beschreiben und dann mit Methoden der Differentialrechnung lösen vgl. S. 238 . Übungen zu Abschnitt 4.3 ? 7. Invertieren Sie möglichst die Matrizen und machen Sie die Probe: ⎛ ⎝ 7 8 9 4 5 6 − 1 2 3 ⎞ ⎠ , ⎛ ⎝ 1 2 3 2 3 4 3 5 7 ⎞ ⎠ , ⎛ ⎝ − 2 3 1 1 1 2 5 2 − 1 ⎞ ⎠ , ⎛ ⎜ ⎝ 1 1 1 0 1 1 0 1 1 0 1 1 0 1 1 1 ⎞ ⎟ ⎠ 8. Die H. Elau GmbH stellt drei Typen von Luftschlangen her und setzt die Farbstoffe Rot, Gelb und Blau in unterschiedlichen Quantitäten ein: Für je eine Palette Luftschlangen werden bei Typ 1 je 1kg Rot und 2kg Gelb, bei Typ 2 je 2kg Rot, 6kg Gelb und 3kg Blau sowie bei Typ 3 je 3kg Gelb und 5kg Blau eingesetzt. Es ist ferner angedacht, die Farbintensität der Luftschlangen zu verbessern, indem die eingesetzten Farbmengen bei den Luftschlangen vom Typ 1 verdoppelt, beim Typ 2 verdreifacht und beim Typ 3 verfünffacht werden. a) Es seien A = ⎛ ⎝ 1 2 0 2 6 3 0 3 5 ⎞ ⎠ , B = ⎛ ⎝ 2 0 0 0 3 0 0 0 5 ⎞ ⎠ . Berechnen Sie die Matrizen 10A, A + B, A 2 , AB, A − 1 und interpretieren Sie sie möglichst im Sachzusammenhang. b) Es sei C = B − 1 A − 1 . Vereinfachen Sie den Ausdruck (AB)C, ohne B − 1 und A − 1 explizit zu berechnen. In welcher Beziehung steht C zu AB? 9. Für welche a, b ist ⎛ ⎝ 2 − 1 − 1 a 1 4 b 1 8 1 8 − 1 8 ⎞ ⎠ = ⎛ ⎝ 1 2 4 0 1 6 1 3 2 ⎞ ⎠ − 1 ? <?page no="116"?> 116 4 Matrizen in der Ökonomie b a a + b c d c + d ( a c ) ( b d ) ( a + b c + d ) Abbildung 4.2: Illustration der Determinante als Flächenänderungsfaktor 4.4 Determinanten Die Determinante det(A) ist eine Kennzahl einer quadratischen Matrix A mit vielfältigen Anwendungen. Auf ihr beruhen z.B. Volumen- und Inhaltsformeln der Geometrie: Beispiel 4.20 In der Anschauungsebene betrachten wir das Quadrat mit Eckpunkten x (1) = (0, 0) T , x (2) = (1, 0) T , x (3) = (0, 1) T und x (4) = (1, 1) T und dem Flächeninhalt 1. Mit einer Matrix A = ( a b c d ) und der Transformation y = Ax entsteht ein Parallelogramm mit Ecken (0, 0) T , (a, c) T , (b, d) T und (a + b, c + d) T , vgl. Abbildung 4.2 . Wir nehmen an, dass a > b > 0 und d > c > 0. Das Parallelogramm hat den Inhalt (a + b)(c + d) − ac − bd − 2bc = ad − bc; Für allgemeine a, b, c, d ist der Parallelogramminhalt | ad − bc | . Den Wert ad − bc bezeichnet man als die Determinante det(A) der Matrix A. Ein Rechteck mit Seitenlängen 1 und 2 wird durch die Transformation in ein Parallelogramm mit Flächeninhalt | det(A) | 1 2 überführt: die Determinante gibt also betragsmäßig den Inhalts-Änderungsfaktor bei linearer Transformation des Ausgangsrechtecks an. In der linearen Algebra sind die Lösung linearer Gleichungssysteme, die Invertierbarkeit quadratischer Matrizen und die Eigenwertberechnung Hauptanwendungsfelder der Determinante. In der Analysis gibt die Determinante Aufschluss über die Krümmung sowie die Art der Extremwerte von Funktionen mehrerer Variablen. Die Determinante als Flächenänderungsfaktor findet sich in der Integralrechnung bei der Substitutionsregel wieder (Satz 6.23 vgl. S. 228 ). Matrizen mit bis zu drei Zeilen und Spalten haben explizite Determinantenformeln: Definition 4.6 (Determinanten von n × n -Matrizen für n ≤ 3) ! 1. n = 1, d.h. A = ( a 11 ) . Dann ist det(A) : = a 11 2. n = 2, d.h. A = ( a 11 a 12 a 21 a 22 ) . Dann ist det(A) : = a 11 a 22 − a 21 a 12 3. n = 3, d.h. A = ( a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 ) . Dann ist (Sarrus-Regel) det A = a 11 a 22 a 33 + a 12 a 23 a 31 + a 13 a 21 a 32 − a 31 a 22 a 13 − a 32 a 23 a 11 − a 33 a 21 a 12 <?page no="117"?> 4.4 Determinanten 117 ⎛ ⎝ a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 ⎞ ⎠ a 11 a 12 a 21 a 22 a 31 a 32 Abbildung 4.3: Grafische Illustration der Sarrus-Regel Positionen Produkt Fehlstände Summand der Determinante a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 a 11 a 22 a 33 0 a 11 a 22 a 33 a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 a 12 a 23 a 31 2 a 12 a 23 a 31 a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 a 13 a 21 a 32 2 a 13 a 21 a 32 a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 a 13 a 22 a 31 1 − a 13 a 22 a 31 a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 a 12 a 21 a 33 1 − a 12 a 21 a 33 a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 a 11 a 23 a 32 1 − a 11 a 23 a 32 Tabelle 4.1: Die Sarrusregel als Spezialfall der Leibniz-Regel Beispiel 4.21 ( 1 2 2 5 ) hat die Determinante 1 · 5 − 2 · 2 = 1 und ⎛ ⎝ 3 1 0 2 1 2 1 5 3 ⎞ ⎠ hat die Determinante 3 · 1 · 3 + 1 · 2 · 1 + 0 · 2 · 5 − 1 · 1 · 0 − 5 · 2 · 3 − 3 · 2 · 1 = 9 + 2 + 0 − 0 − 30 − 6 = − 25. Die Sarrus-Regel orientiert sich an dem - nur im Falle n = 3 anwendbaren - „Jägerzaun“-Schema aus Abbildung 4.3. Die Werte jeweils längs der Diagonalen werden multipliziert. Die Ergebnisse werden addiert (Diagonalen von links oben nach rechts unten) bzw. subtrahiert (Diagonalen von links unten nach rechts oben). Allgemein besteht die Determinante einer n × n-Matrix nach der so genannten Leibniz -Formel aus n! = 1 · 2 · · · · n Summanden, die jeweils Produkte von n Faktoren sind, welche so ausgewählt werden, dass aus jeder Zeile und Spalte genau ein Eintrag kommt, und die anschließend ggf. noch mit einem Faktor ( − 1) multipliziert werden. Das Bildungsschema lässt sich anhand von 3x3-Matrizen verdeutlichen. Die 6 Summanden der Sarrusregel entsprechen den in Tabelle 4.1 hervorgehobenen Auswahlen in Spalte 1. Die markierten Einträge werden multipliziert (Spalte 2). Nun wird geprüft, wieviel Zeilenvertauschungen minimal nötig sind, damit die markierten Einträge auf der Diagonale stehen. Diese Anzahl heißt Fehlstand der Auswahl in Spalte 1 und wird in Spalte 3 angezeigt. Beispielsweise hat die dritte Auswahl den Fehlstand 2, weil man einmal die ersten beiden Zeilen und dann die zweite und dritte Zeile vertauschen muss, um die markierten Einträge auf die Diagonale zu bringen: a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 I ↔ II −→ a 21 a 22 a 23 a 11 a 12 a 13 a 31 a 32 a 33 II ↔ III −→ a 21 a 22 a 23 a 31 a 32 a 33 a 11 a 12 a 13 <?page no="118"?> 118 4 Matrizen in der Ökonomie Der Summand der Determinante (Spalte 4) ergibt sich bei geradem Fehlständen als Wert aus Spalte 2, bei ungeradem Fehlständen wird dieser mit ( − 1) multipliziert. Die Determinante ist Summe aller Einträge in Spalte 4. Für größere Matrizen (n > 3) ist diese Formel sehr aufwändig, anhand von ihr lassen sich aber die nachfolgende beschriebenen und häufig praktizierten Wege der Determinantenberechnung verstehen: Das eine Verfahren verwendet im Wesentlichen Zeilenumformungen bis zur Staffelform bzw. Zeilenstufenform, das andere entwickelt die Matrix nach einer Zeile und Spalte und führt die Determinante so auf Determinanten kleinerer Matrizen zurück. 4.4.1 Berechnung der Determinante mittels Zeilenumformungen Bei Zeilenumformungen verändert sich die Determinante höchsten um einen Faktor: Satz 4.8 (Determinante und elementare Zeilenumformungen) Die Determinante det(A) hat die folgenden (charakteristischen) Eigenschaften: [1] Wenn B ∈ R n × n aus A ∈ R n × n durch eine Zeilenvertauschung entsteht, so gilt det(B) = − det(A). [2] Wenn B ∈ R n × n aus A ∈ R n × n durch Multiplikation einer Zeile mit einer Konstanten α entsteht, so gilt det(B) = α · det(A). [3] Wenn B ∈ R n × n aus A ∈ R n × n durch Addition eines Vielfachen einer Zeile zu einer anderen Zeile entsteht, so gilt det(B) = det(A). [4] det(I n ) = 1. Die Multiplikationsregel [2] gilt auch, wenn eine Zeile mit Null multipliziert wird. Alle Regeln leiten sich aus der Leibniz-Regel her: [1] Bei Zeilenvertauschungen kehrt sich der Fehlstand jeder Auswahl um, statt einer geraden ist eine ungerade Anzahl von Vertauschungen bis zur Diagonalform nötig. [2] Bei Multiplikationen lässt sich der Faktor aus der Summe faktorisieren. [3] Nach der Addition des α-fachen der j-ten zur -ten Zeile von A ist jeder Summand der Leibniz-Regel ein Produkt a 1 j 1 a 2 j 2 · · · (a j + αa jj ) · · · a nj n = a 1 j 1 a 2 j 2 · · · a j · · · a nj n + αa 1 j 1 a 2 j 2 · · · a jj · · · a nj n Durch Umordnung der 2n! Summanden bekommt man einen Ausdruck det(A) + α det(A ′ ), wobei A ′ zwei identische Zeilen j und hat. Dann ist det(A ′ ) = 0, denn für A ′ sind je 2 Summanden nach Leibniz-Regel bis auf das Vorzeichen identisch. [4] Bei der Einheitsmatrix gibt es nur einen Leibniz-Summanden ungleich Null, gebildet aus der Hauptdiagonale mit 1-Einträgen. Berechnung von det(A) mit Zeilenumformungen [1] Man überführt die Matrix A in Zeilenstufenform Z. [2] Man berechne die Determinante von Z. [3] Es gilt det(A) = ( − 1) k · det( Z ) c . Dabei ist bezogen auf die Zeilenumformungen in [1] [a] k die Anzahl der Vertauschungsschritte, [b] c das Produkt der Faktoren aus den Multiplikationsschritten. <?page no="119"?> 4.4 Determinanten 119 Also ist bei einer geraden Anzahl von Zeilenvertauschungen det(A) = det(Z)/ c und bei einer ungeraden Anzahl von Zeilenvertauschungen det(A) = − det(Z)/ c. Wir illustrieren die Vorgehensweise an Matrizen mit zwei, drei, vier und fünf Zeilen/ Spalten. Die Matrizen werden jeweils in Zeilenstufenform überführt und die Determinante der Ausgangsmatrix dann rückwärts rekonstruiert. Die zu berücksichtigenden Faktoren verbuchen wir bei den Umformungen. Dazu wird jede Umformung in zwei Richtungen hervorgehoben und im Falle von Multiplikationsbzw. Vertauschungsschritten auf dem „Hinweg“ zur Zeilenstufenform mit dem Faktor bzw. mit ( − 1) markiert. Die Umformung in die entgegengesetzte Richtung wird mit dem Kehrwert des Faktors bzw. wieder mit ( − 1) markiert. Additionsschritte bzw. Folgen solcher Schritte bleiben unmarkiert, weil die Determinante sich nicht ändert. Beispiel 4.22 Wir beginnen mit den beiden Determinanten aus Beispiel 4.21 A = ( 1 2 2 5 ) → ← ( 1 2 0 1 ) → ← ( 1 0 0 1 ) = I 2 = Z Es wurden nur Additionsschritte verwendet, welche die Determinante nicht verändern. Also gilt det(A) = det(Z) = 1. A = ⎛ ⎝ 3 1 0 2 1 2 1 5 3 ⎞ ⎠ − 1 → ← − 1 ⎛ ⎝ 1 5 3 2 1 2 3 1 0 ⎞ ⎠ → ← ⎛ ⎝ 1 5 3 0 − 9 − 4 0 − 14 − 9 ⎞ ⎠ − 1 / 9 → ← − 9 ⎛ ⎝ 1 5 3 0 1 4/ 9 0 − 14 − 9 ⎞ ⎠ → ← ⎛ ⎝ 1 5 3 0 1 4/ 9 0 0 − 25/ 9 ⎞ ⎠ − 9 / 25 → ← − 25 / 9 ⎛ ⎝ 1 5 3 0 1 4/ 9 0 0 1 ⎞ ⎠ → ← ⎛ ⎝ 1 0 0 0 1 0 0 0 1 ⎞ ⎠ = I 3 = Z Ausgehend von der Zeilenstufenform Z ergibt sich die Determinante von A als det(A) = ( − 25 9 ) · ( − 9) · ( − 1) = − 25 A = ⎛ ⎜ ⎝ 1 2 2 2 1 1 2 1 1 1 1 0 1 3 0 0 ⎞ ⎟ ⎠ → ← ⎛ ⎜ ⎝ 1 2 2 2 0 − 1 0 − 1 0 − 1 − 1 − 2 0 1 − 2 − 2 ⎞ ⎟ ⎠ − 1 → ← − 1 ⎛ ⎜ ⎝ 1 2 2 2 0 1 0 1 0 − 1 − 1 − 2 0 1 − 2 − 2 ⎞ ⎟ ⎠ → ← ⎛ ⎜ ⎝ 1 2 2 2 0 1 0 1 0 0 − 1 − 1 0 0 − 2 − 3 ⎞ ⎟ ⎠ − 1 → ← − 1 ⎛ ⎜ ⎝ 1 2 2 2 0 1 0 1 0 0 1 1 0 0 − 2 − 3 ⎞ ⎟ ⎠ → ← ⎛ ⎜ ⎝ 1 2 2 2 0 1 0 1 0 0 1 1 0 0 0 − 1 ⎞ ⎟ ⎠ − 1 → ← − 1 ⎛ ⎜ ⎝ 1 2 2 2 0 1 0 1 0 0 1 1 0 0 0 1 ⎞ ⎟ ⎠ → ← ⎛ ⎜ ⎝ 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 ⎞ ⎟ ⎠ = I 4 = Z Es gilt also det(A) = ( − 1) 3 = − 1. A = ⎛ ⎜ ⎜ ⎜ ⎝ 1 2 1 2 1 2 3 4 3 3 1 2 2 2 1 1 2 3 3 1 1 2 0 2 0 ⎞ ⎟ ⎟ ⎟ ⎠ → ← ⎛ ⎜ ⎜ ⎜ ⎝ 1 2 1 2 1 0 − 1 2 − 1 1 0 0 1 0 0 0 0 2 1 0 0 0 − 1 0 − 1 ⎞ ⎟ ⎟ ⎟ ⎠ → ← ⎛ ⎜ ⎜ ⎜ ⎝ 1 2 1 2 1 0 − 1 2 − 1 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 − 1 ⎞ ⎟ ⎟ ⎟ ⎠ Mit zwei weiteren Zeilenmultiplikationen mit ( − 1) und anschließenden Additionsschritten gelangt man zur Einheitsmatrix I 5 . Die Determinante von A ist also det(A) = ( − 1) 2 = 1. In den Beispielen ergibt sich eine Determinante ungleich Null, am Ende ist die Zeilenstufenform stets die Einheitsmatrix. Es kommt aber auch vor, dass die Zeilenstufenform nicht den vollen Rang hat, also mindestens eine Null-Zeile. Gemäß der Leibniz-Regel <?page no="120"?> 120 4 Matrizen in der Ökonomie hat jeder Summand in der Determinante dann den Wert Null, weil er stets einen Eintrag aus dieser Nullzeile enthält. Also ist auch die Determinante Null. Die Ausgangsmatrix muss dann ebenfalls die Determinante Null haben. Dabei muss man nicht bis zur Zeilenstufenform gehen, es genügt, eine Matrix mit einer Nullzeile herzuleiten. Beispiel 4.23 A = ⎛ ⎝ 0 4 1 2 1 1 2 5 2 ⎞ ⎠ − 1 → ← − 1 ⎛ ⎝ 2 1 1 0 4 1 2 5 2 ⎞ ⎠ → ← ⎛ ⎝ 2 1 1 0 4 1 0 0 0 ⎞ ⎠ Die Ausgangsmatrix A hat Determinante det(A) = 0 · ( − 1) = 0. Mit der folgenden Regel lässt sich die Berechnung der Determinante über Zeilenumformungen oft deutlich kürzen: Satz 4.9 Liegt eine Matrix A in der so genannten oberen bzw. unteren Dreiecksform ⎛ ⎜ ⎜ ⎝ α 1 ∗ ∗ ∗ 0 α 2 ∗ ∗ ... 0 . . . ∗ 0 . . . 0 α n ⎞ ⎟ ⎟ ⎠ bzw. ⎛ ⎜ ⎜ ⎝ α 1 0 . . . 0 ∗ α 2 . . . 0 ... ∗ . . . 0 ∗ ∗ ∗ α n ⎞ ⎟ ⎟ ⎠ vor, bei der die ∗ -Einträge oberhalb bzw. unterhalb der Hauptdiagonale beliebige reelle Zahlen bezeichnen, so gilt: det(A) = α 1 · α 2 · · · · · α n Denn nach Leibniz-Regel hat die Determinante höchstens einen von Null verschiedenen Summanden, nämlich das Produkt der Einträge auf der Hauptdiagonale. In allen anderen Summanden tritt wenigstens ein Faktor aus dem Null-Bereich unterhalb oder oberhalb der Diagonale auf. Der vorstehende Satz führt nun zu folgender Heuristik zur Berechnung von Determinanten mittels Zeilenumformungen Die Determinante einer Matrix A lässt sich wie folgt berechnen: [1] Durch Additions- und falls notwendig - Vertauschungs- und Multiplikationsschritte wird die Matrix in obere (oder untere) Dreiecksform D überführt. [2] Die Determinante der Dreiecksform wird abgelesen. [3] Die Determinante der Ausgangsmatrix A wird durch „Verbuchung“ der Vertauschungssschritte und Multiplikationsschritte hieraus bestimmt. Beispiel 4.24 (Fortsetzung von Beispiel 4.22) Wir berechnen noch einmal die ersten drei Determinanten in Beispiel 4.22, wobei wir jeweils mit möglichst wenig Zeilenvertauschungen und -multiplikationen eine obere Dreiecksform herleiten. Deren Determinante lesen wir dann ab: A = ( 1 2 2 5 ) → ← ( 1 2 0 1 ) = D. Es ist det(A) = det(D) = 1. A = ⎛ ⎝ 3 1 0 2 1 2 1 5 3 ⎞ ⎠ − 1 → ← − 1 ⎛ ⎝ 1 5 3 2 1 2 3 1 0 ⎞ ⎠ → ← ⎛ ⎝ 1 5 3 0 − 9 − 4 0 − 14 − 9 ⎞ ⎠ − 1 / 9 → ← − 9 ⎛ ⎝ 1 5 3 0 1 4/ 9 0 − 14 − 9 ⎞ ⎠ − 1 → ← − 1 ⎛ ⎝ 1 5 3 0 1 4/ 9 0 0 − 25/ 9 ⎞ ⎠ = D d.h. det(A) = ( − 1)( − 9) det(D) = ( − 1)( − 9)( − 25 9 ) = − 25. <?page no="121"?> 4.4 Determinanten 121 A = ⎛ ⎜ ⎝ 1 2 2 2 1 1 2 1 1 1 1 0 1 3 0 0 ⎞ ⎟ ⎠ → ← ⎛ ⎜ ⎝ 1 2 2 2 0 − 1 0 − 1 0 − 1 − 1 − 2 0 1 − 2 − 2 ⎞ ⎟ ⎠ → ← ⎛ ⎜ ⎝ 1 2 2 2 0 − 1 0 − 1 0 0 − 1 − 1 0 0 − 2 − 3 ⎞ ⎟ ⎠ → ← ⎛ ⎜ ⎝ 1 2 2 2 0 − 1 0 − 1 0 0 − 1 − 1 0 0 0 − 1 ⎞ ⎟ ⎠ , d.h. det(A) = − 1. Es gibt meist mehrere Wege zur Berechnung der Determinante, aber jeder dieser Rechenwege muss stets denselben Wert für die Determinante ergeben. 4.4.2 Laplace -Entwicklungsformel für Determinanten Beim Entwicklungsansatz wird die Determinante einer n × n-Matrix A auf Determinanten von Teilmatrizen mit n − 1 Zeilen und Spalten zurückgeführt. Dafür legt man zunächst eine beliebige Zeile i (oder Spalte j) fest. Dann bestimmt man zunächst für diese i-te Zeile (bzw. j-te Spalte) sämtliche Streichungsmatrizen, die sich durch Streichen der i-ten Zeile und sukzessive der ersten, zweiten, . . . , n-ten Spalte (bzw. der ersten, zweiten, . . . , n-ten Zeile) ergeben. Schematisch bildet sich die Streichungsmatrix der i-ten Zeile und -ten Spalte wie folgt. A = ⎛ ⎜ ⎜ ⎝ B ... C · · · a i · · · D ... E ⎞ ⎟ ⎟ ⎠ ⇒ A i : = ( B C D E ) So hat A = ⎛ ⎜ ⎝ 1 4 3 2 6 2 3 0 2 5 5 1 9 7 4 3 ⎞ ⎟ ⎠ beispielsweise die Streichungsmatrix A 23 = ⎛ ⎝ 1 4 2 2 5 1 9 7 3 ⎞ ⎠ . Satz 4.10 (Entwicklungsformel von Laplace ) Für alle i, j ∈ { 1, . . . , n } ergibt sich die Determinante einer n × n-Matrix A durch die Entwicklung nach der [1] i-ten Zeile: det(A) = ( − 1) i+1 a i1 det(A i1 ) + · · · + ( − 1) i+n a i1 det(A in ) [2] j-ten Spalte: det(A) = ( − 1) 1+j a 1j det(A 1j ) + · · · + ( − 1) n+j a nj det(A nj ) Entwickelt man nun auch die in der Formel vorkommenden (n − 1) × (n − 1)-Determinanten nach diesem Schema und führt dies sukzessive fort, bis man zu 1 × 1-Determinanten gelangt ist, so erhält man (nach Auflösen aller auftretenden Klammern) n! Summanden. Enwickelt man nach einer Zeile oder Spalte mit möglichst vielen Null-Einträgen, so kann sich hierdurch der Darstellungsaufwand stark reduzieren: Beispiel 4.25 det ⎛ ⎜ ⎝ 1 2 2 2 1 1 2 1 1 1 1 0 1 3 0 0 ⎞ ⎟ ⎠ = det ⎛ ⎝ 1 2 1 1 1 0 3 0 0 ⎞ ⎠ − 2 det ⎛ ⎝ 1 2 1 1 1 0 1 0 0 ⎞ ⎠ + 2 det ⎛ ⎝ 1 1 1 1 1 0 1 3 0 ⎞ ⎠ − 2 det ⎛ ⎝ 1 1 2 1 1 1 1 3 0 ⎞ ⎠ = 1 · ( − 3) − 2 · ( − 1) + 2 · 2 − 2 · 2 = − 1 Hierbei wird nach der ersten Zeile entwickelt. Es müssen vier Determinanten nach Sarrus berechnet werden. Je mehr Null-Einträge in einer Zeile bzw. Spalte stehen, um <?page no="122"?> 122 4 Matrizen in der Ökonomie so besser eignet sie sich für die Entwicklung. So liefert die Entwicklung nach der vierten Spalte hier dasselbe Ergebnis, aber mit etwa dem halben Rechenaufwand: det ⎛ ⎜ ⎝ 1 2 2 2 1 1 2 1 1 1 1 0 1 3 0 0 ⎞ ⎟ ⎠ = ( − 2) det ⎛ ⎝ 1 1 2 1 1 1 1 3 0 ⎞ ⎠ + det ⎛ ⎝ 1 2 2 1 1 1 1 3 0 ⎞ ⎠ = − 1 4.4.3 Strategien zur Berechnung von Determinanten Vielleicht haben Sie anhand des letzten Beispiels den Eindruck gewonnen, dass es für allgemeine n × n-Matrizen viel einfacher ist, die Determinante durch Entwicklung zu berechnen. Das ist in dieser Form nicht ganz richtig, ab n = 5 steigt der Aufwand doch enorm bei gleichzeitigem Verlust an Übersichtlichkeit. Empfohlen sei die folgende Vorgehensweise, die Anleihen bei allen Grundtechniken macht: Heuristik zur Determinantenberechnung: [1] Für Matrizen mit n ≤ 3 Zeilen/ Spalten wende man die expliziten Formeln an. [2] Für Matrizen mit n > 3 Zeilen/ Spalten prüfe man, ob Zeilen/ Spalten mit „vielen“ Null-Einträgen vorliegen. [a] Falls ja: Entwicklung nach einer dieser Zeilen/ Spalten. Erneute Anwendung der Heuristik auf die gewonnenen (n − 1) × (n − 1)-Determinanten. [b] Falls nein: Erzeugen einer Spalte mit möglichst vielen Null-Einträgen durch Zeilenumformungen gemäß der Idee des Gauß-Algorithmus. Danach Entwicklungsformel oder Fortführung des Eliminationsverfahren. Schließlich seien noch zwei Rechenregeln für Determinanten erwähnt, von denen besonders die erste mit Gewinn innerhalb der obigen Heuristik verwendet werden kann: Satz 4.11 (Determinanten von speziellen Matrizen) [1] Ist A ∈ R n × n eine Blockmatrix der Gestalt A = ( B ∗ 0 C ) mit quadratischen Matrizen B, C, so gilt det(A) = det(B) · det(C). [2] Sind A, B zwei quadratische n × n-Matrizen, so gilt: det(AB) = det(A) det(B). Beispiel 4.26 Die Ausnutzung der Blockmatrix-Gestalt sei anhand der bereits früher schon einmal untersuchten 5 × 5-Matrix erläutert. Durch die zuerst durchgeführten Additionsschritte erzeugt man eine Einheitsspalte A = ⎛ ⎜ ⎜ ⎜ ⎝ 1 2 1 2 1 2 3 4 3 3 1 2 2 2 1 1 2 3 3 1 1 2 0 2 0 ⎞ ⎟ ⎟ ⎟ ⎠ → B = ⎛ ⎜ ⎜ ⎜ ⎝ 1 2 1 2 1 0 − 1 2 − 1 1 0 0 1 0 0 0 0 2 1 0 0 0 − 1 0 − 1 ⎞ ⎟ ⎟ ⎟ ⎠ Dabei entsteht eine Block-Gestalt, aus der sich die Determinante über die Grundformeln für n = 2 bzw. 3 (bzw. über die Formeln für Dreiecksmatrizen) bestimmen lässt: det(A) = det(B) = det ( 1 2 0 − 1 ) det ⎛ ⎝ 1 0 0 2 1 0 − 1 0 − 1 ⎞ ⎠ = (1 · ( − 1)) · (1 · 1 · ( − 1)) = 1 <?page no="123"?> 4.4 Determinanten 123 Bei alleiniger Verwendung der Entwicklungsformeln (selbst bei Entwickeln nach der fünften Zeile) wäre der Rechenaufwand erheblich größer. Abschließend wollen wir das Verhalten der Determinante bei Transposition ansprechen: Satz 4.12 Ist A eine n × n-Matrix, so gilt det(A) = det(A T ) Diese Regel bedeutet, dass man analog zu Zeilenumformungen mit demselben Resultat auch Spaltenumformungen auf einer Matrix durchführen kann. Diese Regel kann z.B. in Aufgabe 12 vgl. S. 124 mit Gewinn verwendet werden. 4.4.4 Anwendungen der Determinante Die Determinante kann beim Lösen quadratischer linearer Gleichungssysteme mittels der Cramer’schen Regel und bei der Matrixinversion eingesetzt werden. Die Cramer’sche Regel ermöglicht es, bei einem linearen Gleichungssystem Ax = b mit quadratischer invertierbarer Koeffizientenmatrix A einzelne Komponenten des Lösungsvektors x zu berechnen, ohne die anderen mitbestimmen zu müssen. Dies ist von Bedeutung in größeren ökonomischen Modellen - etwa in der Sektorenverflechtung, bei denen viele technische Komponenten in dem zu bestimmenden Profil x auftreten, die für Ökonomen nachrangige Bedeutung haben. Satz 4.13 Für alle A = ⎛ ⎝ a 11 . . . a 1n ... . . . ... a n1 . . . a nn ⎞ ⎠ ∈ R n × n und b = ⎛ ⎝ b 1 ... b n ⎞ ⎠ ∈ R n gilt: [1] A ist invertierbar ⇐⇒ det(A) = 0 [2] Cramer’sche Regel: Falls det(A) = 0, so hat das lineare Gleichungssystem Ax = b genau eine Lösung x = (x 1 , . . . , x n ) T = A − 1 b und es gilt für j = 1, . . . , n : x j = det ⎛ ⎝ a 1,1 . . . a 1,j − 1 b 1 a 1,j+1 . . . a 1,n ... . . . ... ... . . . . . . ... a n,1 . . . a n,j − 1 b n a n,j+1 . . . a n,n ⎞ ⎠ det(A) d.h. im Zähler steht die Determinante derjenigen Matrix, die entsteht, indem man die j-te Spalte von A durch den Vektor b ersetzt. Beispiel 4.27 Für die Matrix A = ⎛ ⎝ 1 2 − 1 0 3 2 1 1 0 ⎞ ⎠ gilt (etwa mit der Sarrus-Regel) det(A) = 5, d.h. A ist invertierbar. Für b = (3, 2, 4) T hat das LGS Ax = b mit x = (x 1 , x 2 , x 3 ) T die Lösungen x 1 = det ⎛ ⎝ 3 2 − 1 2 3 2 4 1 0 ⎞ ⎠ det A = 20 5 = 4 x 2 = ⎛ ⎝ 1 3 − 1 0 2 2 1 4 0 ⎞ ⎠ det A = 0 5 = 0 x 3 = ⎛ ⎝ 1 2 3 0 3 2 1 1 4 ⎞ ⎠ det A = 5 5 = 1 <?page no="124"?> 124 4 Matrizen in der Ökonomie Der Nutzen der Cramer-Regel sinkt mit der Anzahl der Komponenten von x, die auf diese Weise simultan berechnet werden müssen. Ist gar zur Berechnung der Determinante von A eine gleich große Anzahl von Zeilenumformungen erforderlich wie bei Durchführung des Gauß’schen Eliminationsverfahrens zur Bestimmung von A − 1 , so sollte man auf die Cramer’sche Regel verzichten. Weil die Inversion einer Matrix durch die Simultanlösung mehrerer linearer Gleichungssysteme behandelt wird, lässt sich aus der Cramer’schen Regel auch eine allgemeine Formel für die inverse Matrix auf Basis von Determinanten herleiten. Die entsprechenden Formeln sind aber eher aufwändig und sollen daher nur für 2 × 2-Matrizen geschildert werden, weil sie hier besonders häufig eingesetzt werden: Beispiel 4.28 Sei die Matrix A = ( a b c d ) ∈ R 2 × 2 invertierbar. Dann gilt: A − 1 = 1 ad − bc · ( d − b − c a ) Die Determinante der Matrix A tritt als normierender Faktor der Inversen auf, ähnlich wie bei der Cramer-Regel. Dies ist charakteristisch für die allgemeine Determinantenformel von A − 1 , die man in Standard-Lehrbüchern der Linearen Algebra findet. Übungen zu Abschnitt 4.4 ? 10. Berechnen Sie die Determinanten von ( 2 3 7 1 ) , ⎛ ⎝ 3 2 3 2 7 2 9 11 9 ⎞ ⎠ , ⎛ ⎝ 1 2 2 4 3 7 1 4 1 ⎞ ⎠ , ⎛ ⎝ t − t 1 − t t 1 1 − t t ⎞ ⎠ , ⎛ ⎜ ⎝ 8 8 10 4 7 2 0 0 1 0 3 0 7 8 9 4 ⎞ ⎟ ⎠ , ⎛ ⎜ ⎝ − a − a a a a b − b a a − b b a a a a − a ⎞ ⎟ ⎠ 11. Berechnen Sie die Determinante der folgenden Matrix möglichst geschickt: ⎛ ⎜ ⎜ ⎜ ⎜ ⎝ a 1 ( a 1 − 1) x 2 1 a 1 a 2 x 1 x 2 a 1 a 3 x 1 x 3 a 1 a 4 x 1 x 4 a 2 a 1 x 2 x 1 a 2 ( a 2 − 1) x 2 2 a 2 a 3 x 2 x 3 a 2 a 4 x 2 x 4 a 3 a 1 x 3 x 1 a 3 a 2 x 3 x 2 a 3 ( a 3 − 1) x 2 3 a 3 a 4 x 3 x 4 a 4 a 1 x 4 x 1 a 4 a 2 x 4 x 2 a 4 a 3 x 4 x 3 a 4 ( a 4 − 1) x 2 4 ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ 12. Neues aus Stenkelfeld: Friedhelm Pötter, Leiter der „Jürgen-Koppelin-Bildungsstätte“ veranstaltet ein siebentägiges Esoterik-Seminar, dessen 7 Teilnehmer der Reihenfolge ihrer Anmeldung nach von 1 bis 7 durchnummeriert sind. Die Sitzordnung folgt einer 7x7-Matrix A; jede Zeile steht für die Sitzordnung eines Tages, erfasst also jeweils die Zahlen von 1 bis 7 in einer geeigneten Reihenfolge. Um dem Seminar ein geeignetes esoterisches „Flair“ zu verleihen, möchte Pötter einen Sitzplan erarbeiten, bei dem det(A) = 7 ist. Kann Herrn Pötter geholfen werden? 13. Berechnen Sie die Lösung mit der Cramer’schen Regel, falls möglich: a) ( 1 3 2 4 )( x 1 x 2 ) = ( 5 5 ) b) ⎛ ⎝ 1 3 3 2 4 6 7 9 1 ⎞ ⎠ ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ = ⎛ ⎝ 5 5 5 ⎞ ⎠ c) ⎛ ⎝ t − t 1 − t t 1 1 − t t ⎞ ⎠ ⎛ ⎝ x 1 x 2 x 3 ⎞ ⎠ = ⎛ ⎝ t 0 t ⎞ ⎠ 4.5 Eigenwerte und Eigenvektoren Verflechtungen mit quadratischen Matrizen A überführen Vektoren x in andere Vektoren Ax mit gleicher Komponentenzahl. Dabei sind manchmal solche Vektoren x von Interesse, die sich bei der Verflechtung nicht verändern, d.h. für die Ax = x gilt, z.B. der „steady-state“ bei der Kundenwanderung, <?page no="125"?> 4.5 Eigenwerte und Eigenvektoren 125 das geschlossene Sektor-Verflechtungsmodell nach Leontief. Beide Themen werden wir im nächsten Abschnitt besprechen. Eine etwas allgemeinere Form von Stabilität liegt vor, wenn Input- und Output-Vektor kollinear (d.h. linear abhängig) sind. Die Suche nach derartigen Input-Vektoren für eine gegebene Matrix ist ein Hilfsmittel bei der Berechnung von Matrix-Produkten hoher Ordnung ebenso wie in der Marginalanalyse ökonomischer Funktionen mehrerer Variablen. Aber auch in Modellen mit Übergangsmatrizen kann Kollinearität eine Bedeutung haben. Beispiel 4.29 (Fortsetzung von Beispiel 4.2 vgl. S. 102 ) Wir betrachten nochmals das Beispiel eines Produktes, welches von zwei Herstellern auf dem Markt angeboten wird, wobei der erste Anbieter monatlich einen von fünf Kunden an den zweiten verliert, der zweite hingegen jeden dritten Kunden an den ersten Anbieter abgibt. Es sei jetzt zusätzlich angenommen, dass der Markt für dieses Produkt expandiert: Jeder fünfte Kunde jedes eines Anbieters gewinnt einen Neukunden, der das Produkt bisher noch nicht konsumiert hat, für den folgenden Monat. Sind x 1 bzw. x 2 die Anteile der Anbieter am Markt, lauten die Kundenzahlen in der folgenden Periode also ( y 1 y 2 ) = ( 4 5 x 1 + 1 3 x 2 + 1 5 x 1 1 5 x 1 + 2 3 x 2 + 1 5 x 2 ) = ( x 1 + 1 3 x 2 1 5 x 1 + 13 15 x 2 ) = ( 1 1 3 1 5 13 15 )( x 1 x 2 ) In dieser Situation können sich die absoluten Kundenanteile natürlich nicht stabilisieren. Ein einmal erreichtes Kundenverhältnis 5: 3 verändert sich aber auch hier nicht mehr. Es gilt nämlich für t ∈ R ( 1 1 3 1 5 13 15 )( 5t 3t ) = ( 6t 18 5 t ) = 6 5 · ( 5t 3t ) und beide Marktanteil-Vektoren haben Komponenten im Verhältnis 5: 3. Gleichzeitig haben sich die Kundenanteile um 20% erhöht. Informell gesprochen liegt dann ein Wachstumsprozess vor, bei dem die Kundenverhältnisse zwischen den Anbietern konstant bleiben, und innerhalb einer Periode jeweils um den gleichen Prozentsatz steigen. Definition 4.7 ! Man nennt λ ∈ R einen Eigenwert von A ∈ R n × n , wenn es einen vom Nullvektor verschiedenen Vektor x ∈ R n gibt, so dass gilt Ax = λx Ein solcher Vektor heißt dann Eigenvektor zum Eigenwert λ. Wie bei Matrix-Inversion und Determinantenrechnung ergibt es nur Sinn, von Eigenwerten bzw. Eigenvektoren einer Matrix zu sprechen, wenn diese Matrix quadratisch ist. Weiterhin sind Eigenvektoren per Definition keine Nullvektoren, denn es gilt stets A¯0 = ¯0 = λ¯0 (d.h. jede Zahl λ ∈ R wäre Eigenwert) und es wären bei sämtlichen Anwendungen der Eigenwerte mühselige wie nutzlose Fallunterscheidungen erforderlich. Das Anwendungsspektrum für Eigenwerte ist breit gefächert, lässt sich aber eher nicht auf der sachlogischen Ebene formulieren. So stellen Eigenvektoren die Achsen eines <?page no="126"?> 126 4 Matrizen in der Ökonomie Koordinatensystems dar, welche unter der linearen Abbildung A erhalten bleiben, sie erleichtern danach die numerische Berechnung von Matrixpotenzen der Form A n , sie ermöglichen einen sinnvollen numerischen Umgang mit dem Krümmungsverhalten von Funktionen mehrerer Veränderlichen. Ihr Anwendungsbereich umfasst nahezu alle ökonomisch relevanten Teilgebiete der Mathematik und Statistik: (numerische) Optimierung, Faktorenanalyse, Hauptkomponentenzerlegung, Diskriminanzanalyse nach R.A. Fisher , Versuchsplanung und viele weitere Bereiche. Eigenwerte und Eigenvektoren sind allerdings in aller Regel nicht händisch, sondern nur noch numerisch unter Einsatz von geeigneter Software zu berechnen. Dennoch lohnt es sich, mit diesem Bereich der linearen Algebra ein wenig vertraut zu werden. Beispiel 4.30 Betrachtet werde nochmals das modifizierte Marktwanderungsbeispiel mit der Übergangsmatrix A = ( 1 1 3 1 5 13 15 ) . Hier ist λ = 6 5 ein Eigenwert von A. Ein Eigenvektor ist u.a. (5, 3) T . Ein weiterer Eigenwert von A ist μ = 2 3 . Es gilt nämlich ( 1 1 3 1 5 13 15 )( − 1 1 ) = ( − 2 3 10 15 ) = ( − 2 3 2 3 ) = 2 3 · ( − 1 1 ) Ökonomisch ist dieser Eigenwert eher nutzlos, da jeder Eigenvektor hierzu ein Vielfaches des berechneten Eigenvektors ist und damit mindestens eine negative Komponente hat, also nicht als Marktanteil interpretiert werden kann. 4.5.1 Bestimmung von Eigenwerten und Eigenvektoren Wie findet man einen bzw. alle Eigenwerte einer gegebenen quadratischen Matrix A? Dazu stellen wir folgende Überlegungen an: Eine Zahl λ ∈ R ist genau dann ein Eigenwert von A zum Eigenvektor x = ¯0, wenn gilt x = ¯0 und Ax = λx. Man bringt λx auf die linke Seite der Gleichung Ax = λx und erhält Ax − λx = ¯0. Weil mit der Einheitsmatrix I n gilt x = I n x, schreibt man Ax − λI n x = ¯0. Klammert man x in Ax − λI n x = ¯0 nach rechts aus, so schreibt sich die Gleichung Ax = λx schließlich als homogenes LGS (A − λI n )x = ¯0. x = ¯0 ist also genau dann Eigenvektor zum Eigenwert λ, wenn x eine vom Nullvektor verschiedene Lösung des homogenen LGS (A − λI n )x = ¯0 ist, d.h. wenn dieses LGS mehrdeutig lösbar ist. Das ist dann und nur dann möglich, wenn det(A − λI n ) = 0. Definition 4.8 ! Die Determinante der Matrix A − λI n ist ein Polynom n-ten Grades in der Variablen λ. Es heißt charakteristisches Polynom. Wir halten das Hauptresultat der obigen Überlegungen fest: Satz 4.14 Die Nullstellen des charakteristischen Polynoms einer Matrix A ∈ R n × n sind genau die Eigenwerte von A. <?page no="127"?> 4.5 Eigenwerte und Eigenvektoren 127 Beispiel 4.31 Das charakteristische Polynom der Matrix A = ( 1 1 3 1 5 13 15 ) lautet det(A − λI 2 ) = det ( ( 1 1 3 1 5 13 15 ) − λ ( 1 0 0 1 ) ) = det ( 1 − λ 1 3 1 5 13 15 − λ ) = (1 − λ) ( 13 15 − λ ) − 1 3 · 1 5 = λ 2 − 28 15 λ + 4 5 = 1 15 (3λ − 2) (5λ − 6) Nullstellen und damit Eigenwerte von A sind die oben angegebenen Werte 6 5 und 2 3 . Um zugehörige Eigenvektoren zu bestimmen, muss man für jeden der Eigenwerte das zur Matrix A − λI n gehörige homogene lineare Gleichungssystem A − λI n bilden und lösen, etwa durch Angabe einer Basis des Kerns der Matrix A − λI n . Wir haben die Vorgehensweise zur Berechnung einer solchen Basis in Satz 3.7 vgl. S. 79f. besprochen und wenden dies jetzt hier an. Beispiel 4.32 Im vorangegangenen Beispiel lautet für den Eigenwert 6 5 die Koeffizientenmatrix etwa A − λI 2 = ( − 1 5 1 3 1 5 − 1 3 ) → ( 1 5 − 1 3 0 0 ) → ( 1 − 5 3 0 0 ) Lösung ist also jeder skalar vielfache Vektor von x (1) = ( 5 3 , 1) T , d.h. auch der vorher angegebene Vektor (5, 3) T . Im folgenden Beispiel hat die Matrix nur einen Eigenwert: Beispiel 4.33 Das charakteristische Polynom der Matrix A = ( − 1 1 1 − 8 4 0 1 0 1 ) ist det (A − λI 3 ) = det ⎛ ⎝ − 1 − λ 1 1 − 8 4 − λ 0 1 0 1 − λ ⎞ ⎠ = − λ ( 6 − 4λ + λ 2 ) Die einzige (reelle) Nullstelle dieses Polynoms ist λ = 0. Der abgespaltete quadratische Faktor 6 − 4λ + λ 2 hat keine reelle Nullstelle. Null ist also der einzige (reelle) Eigenwert von A. Einen Eigenvektor von A ermittelt man wie folgt: Die Matrix A − λI 3 = A (hier mit λ = 0) wird zunächst in die Zeilenstufenform überführt: ⎛ ⎝ − 1 − λ 1 1 − 8 4 − λ 0 1 0 1 − λ ⎞ ⎠ = ⎛ ⎝ − 1 1 1 − 8 4 0 1 0 1 ⎞ ⎠ → ⎛ ⎝ 1 0 1 0 1 2 0 0 0 ⎞ ⎠ Ein Eigenvektor von A ist gerade ein Basisvektor von Kern(A − 0I n ) = Kern(A), also beispielsweise x (1) = (1, 2, − 1) T . Zur Bestimmung von Eigenwerten ist also die Berechnung der Nullstellen („Wurzeln“) von Polynomen erforderlich. Hierzu einige Anmerkungen: <?page no="128"?> 128 4 Matrizen in der Ökonomie Nicht jedes Polynom hat Nullstellen in der Menge der reellen Zahlen, daher gibt es auch Matrizen, die keine Eigenwerte haben. Selbst wenn ein Polynom Nullstellen hat, müssen diese nicht elementar berechenbar sein. Die „Mitternachtsformeln“ für die Nullstellen quadratischer Polynome haben für n = 3, 4 noch - sehr aufwändige - Entsprechungen in den so genannten Cardano-Formeln, aber ab Grad 5 gibt es kein Verfahren, um Nullstellen explizit zu berechnen. Gleiches gilt daher für die Eigenwerte von Matrizen mit mehr als 4 Zeilen/ Spalten. In der Regel werden Eigenwerte daher numerisch und näherungsweise gewonnen; hierfür wird beispielsweise das Newton-Verfahren eingesetzt: Mit einem ausreichend nahe bei einem Eigenwert liegenden Anfangswert λ 0 werden sukzessive die Näherungen λ i +1 = λ i − p(λ i )/ p ′ (λ i ) berechnet. Das Verfahren wird mit Stagnation der λ i abgebrochen. In [ Terveer/ Terveer , 2011] wird es ausführlicher beschrieben. 4.5.2 Eigenwerte bei symmetrischen Matrizen In vielen ökonomischen Anwendungen arbeitet man mit symmetrischen Matrizen (z.B. Hesse-Matrizen, Kovarianz- und Korrelationsmatrizen,. . . ). Hier ist die Existenz von Eigenwerten nicht problematisch: Satz 4.15 Jede symmetrische Matrix A ∈ R n × n hat ausschließlich reelle Eigenwerte. Das charakteristische Polynom hat dann nämlich - prinzipiell - eine Faktorisierung det (A − λI n ) = c (λ − λ 1 ) · · · (λ − λ n ) mit reellen Zahlen λ 1 , . . . , λ n , welche dann die Eigenwerte von A sind. Diese n Zahlen sind aber nicht unbedingt voneinander verschieden - man spricht dann von Eigenwerten mit Vielfachheit größer als 1. Zudem gibt es auch für symmetrische n × n-Matrizen ab n > 2 in aller Regel nur einen numerischen Zugang zu den Eigenwerten. Außerdem gibt es bei symmetrischen Matrizen einen überraschenden geometrischen Zusammenhang zwischen Eigenwerten verschiedener Eigenvektoren: Satz 4.16 Eigenvektoren zu verschiedenen Eigenwerten einer symmetrischen Matrix sind orthogonal. Sind λ = μ nämlich zwei solche Eigenwerte einer symmetrischen Matrix A und x bzw. y Eigenvektoren zu den Eigenwerten λ bzw. μ, so bedeutet dies zunächst Ax = λx und Ay = μy. Multipliziert man Ax von links mit y T und Ay von links mit x T , so folgt aus der Symmetrie von A: y T (λx) = y T (Ax) = (y T Ax) T = x T (A T ) T (y T ) T = x T Ay = x T (Ay) = x T (μy) also ¯0 = y T (λx) − x T (μy) = λy T x − μx T y = (λ − μ) 〈 x, y 〉 . Da aber λ − μ = 0, muss 〈 x, y 〉 = 0 gelten, d.h. x, y sind orthogonal. Hieraus folgt sofort: <?page no="129"?> 4.5 Eigenwerte und Eigenvektoren 129 Satz 4.17 Es sei A eine symmetrische n × n-Matrix und x (1) , . . . , x (n) Eigenvektoren der Norm 1 zu n verschiedenen Eigenwerten λ 1 , . . . , λ n von A. Setzt man diese Vektoren zu einer Matrix M zusammen, und bezeichnet Δ die Diagonalmatrix, deren Diagonalelelemente die Eigenwerte λ 1 , . . . , λ n sind, so gilt: [1] M T M = I n [2] M T AM = Δ [3] A = MΔM T Die erste Aussage besagt nichts anderes als x (i) ⊥ x (j) für i = j und ‖ x (i) ‖ = 1. Zur zweiten Aussage: M T AM = Δ ist lediglich eine Zusammenfassung der Eigenvektor-Eigenschaften. Denn AM ist eine Matrix, welche die Spalten Ax (j) = λ j x (j) enthält. Multipliziert man M T mit AM so treten deshalb lauter Skalarprodukte x (i)T (λ j x (j) ) auf, die nur für j = i nicht gleich Null sind und dann den Wert λ i ergeben. M T AM = Δ ist also die genannte Diagonalmatrix. Die dritte Aussage folgt aus der zweiten, wenn man von links mit M und von rechts mit M T multipliziert und die erste Aussage verwendet. Definition 4.9 ! Die Darstellung A = MΔM T heißt Hauptachsentransformation von A. Sie ist ein wichtiges Hilfsmittel in vielen Anwendungen der Analysis und Statistik im Rahmen komplizierterer ökonomischer Probleme. Beispielsweise kann man mit Hilfe der Hauptachsentransformation Matrixpotenzen symmetrischer Matrizen ausrechnen. Mit einem „Teleskop-Trick“ lässt sich nämlich das Matrixprodukt A k einer symmetrischen Matrix A auf das Matrixprodukt Δ k zurückführen. Δ k ist wiederum eine Diagonalmatrix mit den k-Potenzen der Eigenwerte. Beispiel 4.34 Für die symmetrische Matrix A = ( 1 2 2 4 ) wollen wir die Matrix-Potenz A k mit k ∈ N berechnen. Dazu suchen wir zunächst die Eigenwerte und -vektoren von A und stellen damit die Hauptachsentransformation von A auf. Das charakteristische Polynom von A ist λ → λ 2 − 5λ mit den Wurzeln 0 und 5. Die den Eigenvektoren zugehörigen homogenen LGS haben Koeffizientenmatrizen ( 1 − 0 2 2 4 − 0 ) = ( 1 2 2 4 ) → ( 1 2 0 0 ) , ( 1 − 5 2 2 4 − 5 ) = ( − 4 2 2 − 1 ) → ( 1 − 1 2 0 0 ) Durch Ablesen einer Basis ergeben sich die beiden orthogonalen Eigenvektoren x (1) = (2, − 1) T , x (2) = ( − 1/ 2, − 1) T Normiert man nun diese beiden Vektoren mit ihren respektiven Längen, d.h. geht über zu den Vektoren y (1) : = 1 ∥ ∥ x (1) ∥ ∥ x (1) = 1 √ 5 ( 2 − 1 ) , y (2) : = 1 ∥ ∥ x (2) ∥ ∥ x (2) = 2 √ 5 ( − 1 2 − 1 ) so erhält man ein System orthonormaler Eigenvektoren, die zu einer Matrix M = 1 √ 5 ( 2 − 1 − 1 − 2 ) <?page no="130"?> 130 4 Matrizen in der Ökonomie zusammengefasst werden. Dann gilt M M T = M T M = ( 1 0 0 1 ) und die Hauptachsentransformation ( 1 2 2 4 ) = M ( 0 0 0 5 ) M T . Beide Gleichungen sollten Sie nachrechnen. Mit dieser Hauptachsentransformation berechnen wir jetzt die Matrixpotenz A k . Für die vorliegende Matrix A gilt wegen M T M = I 2 ( 1 2 2 4 ) k = ( M ( 0 0 0 5 ) M T ) k = (M ( 0 0 0 5 ) M T )(M ( 0 0 0 5 ) M T )(M ( 0 0 0 5 ) M T ) · · · (M ( 0 0 0 5 ) M T ) ︸ ︷︷ ︸ k Klammern = M ( 0 0 0 5 ) (M T M ) ( 0 0 0 5 ) (M T M ) ( 0 0 0 5 ) · · · (M T M ) ( 0 0 0 5 ) M T = M ( 0 0 0 5 ) k M T = M ( 0 0 0 5 k ) M T = 5 k − 1 ( 1 2 2 4 ) Die im Beispiel nach dem Einsetzen von A in der ersten Zeile entstehenden „Paar- Produkte“ M T M können dabei jeweils durch I 2 ersetzt werden, und deshalb wegfallen, weil Multiplikation mit der Einheitsmatrix keine Veränderung im Produkt bewirkt. Eine derartige Darstellung wird bezeichnenderweise „Teleskop-Produkt“ genannt, weil sich der lange Ausdruck wie ein Hand-Teleskop „zusammenschieben“ lässt. Übungen zu Abschnitt 4.5 ? 14. Bestimmen Sie die Eigenwerte der nachstehenden Matrizen ( 1 2 2 3 ) , ⎛ ⎝ 2 1 0 1 1 0 0 0 1 ⎞ ⎠ , ⎛ ⎜ ⎝ 0 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 ⎞ ⎟ ⎠ 15. Vervollständigen Sie die folgenden Angaben (d.h. ergänzen Sie jeweils durch geeignete Werte). Dabei soll x ein Eigenvektor von A zum Eigenwert λ sein. a) A = ( 2 1 4 2 ) , x = ( 1 2 ) , λ = bzw. A = ⎛ ⎝ 1 2 0 2 4 0 1 1 1 ⎞ ⎠ , x = ⎛ ⎝ 4 8 3 ⎞ ⎠ , λ = . b) A = ( − 2 0 2 4 ) , x = ( 6 ) , λ = − 2 bzw. A = ⎛ ⎝ 3 3 3 1 1 − 1 − 3 − 3 − 3 ⎞ ⎠ , x = ⎛ ⎝ 9 ⎞ ⎠ , λ = − 2 c) A = ⎛ ⎝ 3 3 3 2 1 − 1 − 6 − 6 − 6 ⎞ ⎠ , x = ⎛ ⎝ 1 2 ⎞ ⎠ , λ = d) A = ⎛ ⎝ ⎞ ⎠ , x = ⎛ ⎝ 1 2 − 2 ⎞ ⎠ , λ = 1 16. Wie viele Eigenwerte hat ( 1 − t t t ) ? 17. Zeigen Sie, dass eine symmetrische Matrix ( a b b c ) einen Eigenwert besitzt. 18. Berechnen Sie ( 1 2 2 1 ) 10 . 4.6 Anwendungen der Matrizenrechnung Zu den bekanntesten ökonomischen Modellen, welche den Matrix-Kalkül ausnutzen, gehören die Ein-Schritt-Übergangsmodelle für theoretische und empirische Wahrschein- <?page no="131"?> 4.6 Anwendungen der Matrizenrechnung 131 an Sektor Endnachfrage Produktion von Sektor 1 2 · · · n (Output,Konsum) (Input) 1 x 11 x 12 x 1 n y 1 x 1 2 x 21 x 22 x 2 n y 2 x 2 ... ... ... . . . ... ... n x n 1 x n 2 x nn y n x n Tabelle 4.2: Darstellung der Sektorverflechtung als Input-Output-Tabelle lichkeiten und die Leontief-Modelle. Dem Begründer der Input-Output-Analyse, Wassily Leontief , brachten seine Überlegungen 1973 sogar den Nobelpreis für Wirtschaftswissenschaften ein. 4.6.1 Input-Output-Analysen und Leontief-Modelle Leontief unterstellte in seinen Modellen jeweils einen Wirtschaftsbereich, der in verschiedene Sektoren zerfällt; jeder dieser Sektoren stellt ein individuelles Gut her und benötigt zu dessen Herstellung seinerseits wechselseitig Güter der anderen Sektoren. Im Sinne der Produkt-Rohstoff-Verflechtung lassen sich diese Güter dann als Rohstoff- Inputs interpretieren. Eines der bekanntesten Resultate von Leontiefs Studien war das nach ihm benannte Paradoxon: Mittels der Input-Output-Analyse wies Leontief nach, dass der Export der USA im Jahr 1947 hauptsächlich aus arbeitsintensiven Gütern bestand . Dies stand im Widerspruch zur damals vorherrschenden Ansicht, dass sich kapitalstarke Länder nur auf den Export kapitalintensiver Güter spezialisieren würden ([ Leontief , 1954]). Den Ansatzpunkt eines Leontief-Modells stellt die Ist-Analyse der Verwendung der Produktion x 1 , . . . , x n der verschiedenen Sektoren dar, d.h. die Darstellung der sektoralen Bewegung der Wirtschaftsgüter in der so genannten Input-Output-Tabelle (Tabelle 4.2): Die Restproduktion eines Sektors nach Abzug aller Anteile, die in anderen Sektoren benötigt werden, wird als Endnachfrage (Konsum) des Sektors bezeichnet. Dieses Modell wird anhand eines bewusst einfach gehaltenen Beispiels erläutert: Beispiel 4.35 Auf der Wiwinesischen Insel Costania treten die drei Mobilfunkanbieter Tekom, E- Minus und D2 1 2 auf, deren Netzverfügbarkeit dort nicht überall gleich hoch ist. Daher benötigen sie im Rahmen des „Roaming“ Netzkapazitäten von ihren jeweiligen Mitkonkurrenten. Andererseits wird - um eine Überlastung des Mobilfunknetzes zu vermeiden - ein Teil der Netzkapazität jedes Anbieters als „interne Reserve“ nicht oder nur für Zwecke der „maintenance“ verwendet. Für einen konkreten Tag ergab sich folgende Gesamtbilanz (in Gesprächsstunden) von an Anbieter geführte Gespräche gesamt Anbieter Tekom E-Minus D2 1 2 (Output,Konsum) (Input) Tekom 200 0 160 640 1000 E-Minus 0 1000 0 1000 2000 D2 1 2 400 0 320 80 800 <?page no="132"?> 132 4 Matrizen in der Ökonomie Die Grundannahme im Leontief-Modell besteht darin, dass die tatsächlich aus dem Wirtschaftsbereich in den Konsum gelangenden Quantitäten y 1 , . . . , y n aus der um den internen Bedarf reduzierten Produktion resultieren, d.h. y i = x i − (x i 1 + x i 2 + · · · + x in ) Dabei kann der interne Bedarf jedes Sektors an der Produktion eines anderen Sektors anhand der Ist-Werte - innerhalb plausibler Bereiche der Produktion - als proportional zu seiner eigenen Produktion veranschlagt werden. Infolge der Leontief-Annahme gibt es also für alle i, j ein a ij mit x ij = a ij x j (sofern x i,j und x j innerhalb sinnvoll gewählter Bereiche variieren). Die Input-Output-Tabelle lautet also an Sektor von Sektor 1 2 · · · n Output Input 1 a 11 x 1 a 12 x 2 a 1 n x n y 1 x 1 2 a 21 x 1 a 22 x 2 a 2 n x n y 2 x 2 ... ... ... . . . ... ... n a n 1 x 1 a n 2 x 2 a nn x n y n x n Definition 4.10 ! Die Matrix A = [a i,j ] 1 ≤ i,j ≤ n ∈ R n × n mit a i,j = x i,j x j wird auch technologische Matrix oder Input-Matrix genannt. Beispiel 4.36 (Fortsetzung von Beispiel 4.35) Unterstellt man im Mobilfunk-Beispiel ein Leontief-Modell, lautet die Input-Matrix: A = ⎛ ⎝ 200 1000 0 160 800 0 1000 2000 0 400 1000 0 320 800 ⎞ ⎠ = ⎛ ⎝ 1 5 0 1 5 0 1 2 0 2 5 0 2 5 ⎞ ⎠ Für das Leontief-Modell ist eine Darstellung in Matrix-Form möglich, die eine bequeme Global-Betrachtung des Modells ermöglicht: Mit der Input-Matrix A lautet der Zusammenhang zwischen Input und Output im Leontief-Modell y = ⎛ ⎜ ⎝ y 1 ... y n ⎞ ⎟ ⎠ = ⎛ ⎜ ⎝ x 1 ... x n ⎞ ⎟ ⎠ − ⎛ ⎜ ⎝ a 1 , 1 x 1 + a 1 , 2 x 2 + · · · + a 1 ,n x n ... a n, 1 x 1 + a n, 2 x 2 + · · · + a n,n x n ⎞ ⎟ ⎠ = x − Ax = (I n − A) x Satz 4.18 Zwischen Produktion x und Endnachfrage y besteht im Leontief-Modell der Zusammenhang y = (I n − A)x, wobei A die technologische Matrix des Leontief-Modells beschreibt. Leontief war gerade an der Beantwortung der Frage interessiert, mit welcher Produktion x ein gegebener Endnachfragevektor y erreicht werden kann. Falls (I n − A) invertierbar ist, so lautet die Antwort y = (I n − A)x ⇐⇒ x = (I n − A) − 1 y Definition 4.11 ! Falls im Leontief-Modell die Matrix (I n − A) invertierbar ist, so wird (I n − A) − 1 als Leontief-Inverse zur Input-Matrix A bezeichnet. Die Leontief-Inverse lässt sich auf vielfältige Art nutzen: <?page no="133"?> 4.6 Anwendungen der Matrizenrechnung 133 Bei gleichbleibendem Leontief-Ansatz können unterschiedliche Endnachfragevektoren darauf geprüft werden, ob sie im vorliegenden Sektormodell (mit positiven Produktionsquantitäten der Sektoren) realisierbar sind. Wenn man die Möglichkeit hat, die einzelnen Sektoren hinsichtlich ihrer Produktion zu steuern, ist es möglich, eine Optimierung des Konsums z.B. durch Methoden der linearen Programmierung durchzuführen; die Zielfunktion des LP-Ansatzes wird dann eine lineare Nutzenfunktion c T y des Konsumvektors sein, die Nebenbedingungen ergeben sich als System (I − A) − 1 y ≤ x max linearer Ungleichungen mit typischen Produktionskapazitäten x max ,i in den einzelnen Sektoren i. Beispiel 4.37 (Fortsetzung von Beispiel 4.35) Mit der Input-Matrix des auf dem Mobilfunk-Markt von Costania unterstellten Leontief- Modell lautet die Leontief-Inverse: ⎛ ⎝ ⎛ ⎝ 1 0 0 0 1 0 0 0 1 ⎞ ⎠ − ⎛ ⎝ 1 5 0 1 5 0 1 2 0 2 5 0 2 5 ⎞ ⎠ ⎞ ⎠ − 1 = ⎛ ⎝ 4 5 0 − 1 5 0 1 2 0 − 2 5 0 3 5 ⎞ ⎠ − 1 = ⎛ ⎝ 3 2 0 1 2 0 2 0 1 0 2 ⎞ ⎠ Das Leontief-Modell y = (I n − A)x hat etliche Spezialfälle. Es heißt z.B. geschlossen für x, wenn gilt (I n − A) x = 0, produktiv für x, wenn alle Sektoren nichtnegative Endnachfrage haben. Im Mobilfunkbeispiel etwa werden die genannten Gesprächsstunden auf Costania durch ein produktives Leontief-Modell beschrieben. 4.6.2 Übergangsmatrizen und Markoff-Ketten Verflechtungsmodelle, die sich durch zeitliche Fortschreibung von Anteilsvektoren ergeben, sind in der Mathematik besonders genau untersucht worden. Das Matrix- Produkt in iterierter Form wird hier eingesetzt, um das langfristige Verhalten solcher Modelle zu untersuchen. Beispiel 4.38 (Fortsetzung aus Abschnitt 3.1 vgl. S. 60 ) Im Mobilfunkbeispiel aus Abschnitt 3.1 wurden vier Anbieter eines Standard-Tarifes hinsichtlich ihrer Marktanteile verglichen. Die Kunden in Wiwinesien können die Verträge jeweils zum Quartalsende kündigen und zu einem anderen Anbieter wechseln. Aufgrund dessen haben Marktforscher das Wechselverhalten der Kunden über mehrere Quartale beobachtet und folgende durchschnittlichen Übergänge festgestellt: Es wechseln nach von Tekom E-Minus D2 1 2 Intracom Tekom 3 4 1 8 1 2 0 E-Minus 0 3 4 0 0 D2 1 2 1 8 0 1 2 1 4 Intracom 1 8 1 8 0 3 4 <?page no="134"?> 134 4 Matrizen in der Ökonomie Definition 4.12 ! Eine Matrix P = [p i,j ] ∈ R n × n heißt stochastische Matrix, wenn ihre Spalten stochastische Vektoren sind, d.h. [1] p ij ≥ 0 für alle i, j = 1, . . . , n, [2] p 1j + · · · + p nj = 1 für alle j = 1, . . . , n Anstelle des Begriffs „stochastische Matrix“ verwendet man auch den bereits eingangs dieses Kapitels genannten Begriff Übergangsmatrix. In der Literatur werden auch Matrizen als stochastisch bezeichnet, bei denen die Zeilensumme jeweils 1 ist, d.h. die Zeilen stochastische Vektoren sind. Stochastische Matrizen treten in vielen ökonomischen Gebieten auf, z.B. als Modell bei Marktanalysen, bei der Beschreibung von Systemen, deren Zustand sich regelmäßig verändert, z.B. Bedienungs-, Lagerhaltungssystemen, aber auch bei stochastischen Verfahren zur Optimierung, wie dem Simulated Annealing [ Aarts/ Korst , 1989] und den Genetischen Algorithmen [ Nissen , 1997]. Sie quantifizieren für ein endliches System, wie sich der Systemzustand von einem Referenz-Zeitpunkt zum nächsten verändern kann. Dabei erfolgt die Zustandsänderung zufällig und zwar abhängig vom aktuellen Zustand, nicht aber vom aktuellen Zeitpunkt. Definition 4.13 ! [1] Ein System mit einer Menge S = { 1, . . . , n } von Zuständen, dessen Zustands- Übergangs-Mechanismus durch eine stochastische Matrix P festgelegt ist, heißt (homogene) Markoff-Kette. [2] Die Matrix P heißt (Ein-Schritt-)Übergangsmatrix. [3] Lässt sich für das System ein stochastischer Vektor x (0) ∈ R n finden, der den Ausgangszustand des Systems beschreibt (d.h. x (0) i beschreibt die initiale Wahrscheinlichkeit für das Vorliegen des Zustandes i bzw. den Anteil an Objekten des betrachteten Systems, die sich anfangs in Zustand i befinden), so heißt dieser Vektor Startverteilung. Wenn ein solches Markoff-System einen eindeutig gekennzeichneten Startzustand i ∈ { 1, . . . , n } hat, so ist die Startverteilung durch den i-ten Einheitsvektor gegeben. Die - oft willkürlich - kodierte Menge S = { 1, . . . , n } der realen „Zustände“ des Systems wird Zustandsraum genannt. Mit ihr lässt sich eine andere Repräsentation einer stochastischen Matrix in Form des sogenannten Zustandsgraphen realisieren: Dieser ist ein gerichteter Graph mit der Knotenmenge S und der Menge K = { (i, j) ∈ S 2 : p ij > 0 } bewerteter Kanten. Umgekehrt legt ein Zustandsgraph mit Bewertungen p ij ≥ 0 derart, dass die Bewertungen, die von einer Kante wegführen, sich zu Eins summieren, stets eine stochastische Matrix fest. Beispiel 4.39 (Fortsetzung von Beispiel 4.38 vgl. S. 133 ) Im Mobilbeispiel etwa könnte man die Anbieter wie folgt kodieren: Tekom ˆ = 1, E-Minus ˆ = 2, D2 1 2 ˆ = 3, Intracom ˆ = 4. Mit der zugehörigen Übergangsmatrix P = ⎛ ⎜ ⎜ ⎜ ⎝ 3 4 1 8 1 2 0 0 3 4 0 0 1 8 0 1 2 1 4 1 8 1 8 0 3 4 ⎞ ⎟ ⎟ ⎟ ⎠ ergibt sich der Zustandsgraph aus Abbildung 4.4, links. <?page no="135"?> 4.6 Anwendungen der Matrizenrechnung 135 1 2 3 4 1 8 1 8 3 4 1 8 1 8 3 4 1 2 1 2 1 4 3 4 0 1 1 16 15 16 1 16 15 16 Abbildung 4.4: Zustandsgraphen der Beispiele 4.38 und 4.40 Walze 1 Walze 2 Wahrscheinlichkeit Ausz. Ausz. in SSP Apfel Apfel 1 16 10 Cent 30 Cent Erdbeere Erdbeere 1 16 20 Cent 30 Cent Banane Banane 1 16 30 Cent 30 Cent „Obst“ Joker 3 16 10 Cent 30 Cent Joker „Obst“ 3 16 10 Cent 30 Cent Joker Joker 1 16 20 Cent + 1 SSP 30 Cent+ 1 SSP Tabelle 4.3: Gewinnplan zum Beispiel 4.40 Ein bekanntes Beispiel für die Anwendung von Markoff-Ketten stellen die so genannten Glücksspielgeräte (Walzenautomaten) dar. Um den Verbraucher vor zu hohen Verlusten zu schützen und auch den Umsatz an derartigen Geräten kontrollieren zu können, gibt es gesetzliche Vorschriften, gemäß derer vor Zulassung eines Gerätes beispielsweise die mittlere Auszahlung bei „Blindspiel“, die mittlere Auszahlung bei „Optimalstrategie“ oder die mittlere Gewinnhäufigkeit angegeben werden muss. Diese Geräte lassen sich als „materialisierte Markoff-Ketten“ in geeigneter Weise darstellen: Beispiel 4.40 Wir gehen von einem Glücksspielgerät aus, welches zwei rotierende Walzen mit je vier gleich großen Sektoren besitzt, auf denen die Symbole Joker, Apfel, Erdbeere, Banane angebracht sind. Die Walzen stoppen zufällig; in einem Sichtfenster erscheint je ein Sektor jeder Walze. Der Gewinnplan für die Walzenresultate befindet sich in Tabelle 4.3. Erzielte Sonderspiele werden für die jeweils nächste Runde in einem Sonderspielzähler festgehalten; wird ein Sonderspiel erzielt, so findet dieses in der nächsten Runde statt, andernfalls findet in der nächsten Runde kein Sonderspiel statt. Falls der Zufallsmechanismus der Walzen keine sich beeinflussenden Walzenstellungen liefert, so bildet die Folge der Sonderspiel-Zählerstände eine homogene Markoff-Kette zum Zustandsraum S = { 0, 1 } mit der Übergangsmatrix P = ( 15 16 15 16 1 16 1 16 ) und es gilt P n = P für alle n ∈ N . Der Übergangsgraph ist in Abbildung 4.4 rechts angegeben. Stochastische Vektoren beschreiben oftmals, wie die Ausprägungen eines Merkmals (z.B. in Bezug auf ein Gut die Wahl der Marke) innerhalb einer Population verteilt <?page no="136"?> 136 4 Matrizen in der Ökonomie sind. In regelmäßigen Zeitabständen verändert sich dieser Anteilsvektor. Die Gesetzmäßigkeiten hierfür sind oft durch Übergangsmatrizen beschrieben und mittels des Matrix-Vektor-Produktes zu berechnen. Zumeist interessiert man sich aber für die längerfristige Entwicklung der Merkmalsausprägungen und insbesondere dafür, ob es einen stabilen Systemzustand gibt, der sich nicht verändert. Beispiel 4.41 (Fortsetzung von Beispiel 4.38 vgl. S. 133 ) Es ergibt sich aus dem Marktanteilvektor x = (x 1 , x 2 , x 3 , x 4 ) = ( 3 5 , 1 10 , 9 50 , 3 25 ) T die Prognose für den Marktanteilvektor des nächsten Quartals, indem für jeden Anbieter die Kundenanteile saldiert werden, die bei ihm verbleiben und die von anderen Anbietern kommen. Dies ergibt den nachstehenden neuen Marktanteilvektor ⎛ ⎜ ⎜ ⎜ ⎝ y 1 y 2 y 3 y 4 ⎞ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎜ ⎜ ⎜ ⎝ 3 4 · 3 5 + 1 8 · 1 10 + 1 2 · 9 50 + 0 · 3 25 0 · 3 5 + 3 4 · 1 10 + 0 · 9 50 + 0 · 3 25 1 8 · 3 5 + 0 · 1 10 + 1 2 · 9 50 + 1 4 · 3 25 1 8 · 3 5 + 1 8 · 1 10 + 0 · 9 50 + 3 4 · 3 25 ⎞ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎜ ⎜ ⎜ ⎝ 3 4 1 8 1 2 0 0 3 4 0 0 1 8 0 1 2 1 4 1 8 1 8 0 3 4 ⎞ ⎟ ⎟ ⎟ ⎠ ⎛ ⎜ ⎜ ⎜ ⎝ 3 5 1 10 9 50 3 25 ⎞ ⎟ ⎟ ⎟ ⎠ Der neue Marktanteilvektor ergibt sich also als y = P x. Bleibt die Marktübergangsmatrix für die folgenden Quartale erhalten, so ergibt sich ausgehend vom aktuellen Marktanteilvektor x = x (0) ∈ R n die nachstehende Folge von Marktanteilvektoren: x (1) = P x (0) , x (2) = P x (1) = P (P x (0) ) = P 2 x (0) bzw. allgemein x ( k ) = P x ( k − 1) = · · · = P k x (0) Die dabei auftretenden Matrix-Potenzen P k haben eine einfache Bedeutung: Es bezeichne p ( k ) ij den Eintrag in P k an der i-ten Zeile und j-ten Spalte. Für eine Markt- Übergangsmatrix P gibt p ( k ) ij denjenigen Anteil der Kunden von Anbieter j an, der nach k Quartalen bei Anbieter i ist. Beispiel 4.42 Im Beispiel 4.38 vgl. S. 133 des Mobilfunkmarktes sei etwa der Anteil der Kunden des Anbieters Tekom (Zustand 1) gesucht, der nach zwei Quartalen bei D2 1 2 (Zustand 3) ist. Aus dem Zustandsgraph in Abbildung 4.4 ergeben sich folgende Möglichkeiten, nach zwei Quartalen von „T“ zu „D“ zu gelangen: T → T → D: 3 4 der Kunden von „T“ verbleiben erst bei „T“; von diesen wechseln dann 1 8 der Kunden zu D. Insgesamt 3 4 · 1 8 = 3 32 der Kunden von „T“ nehmen diesen Weg. T → D → D: 1 8 der Kunden von „T“ wechseln sofort zu „D“; von diesen verbleiben dann 1 2 bei D. Insgesamt 1 8 · 1 2 = 1 16 der Kunden von „T“ nehmen diesen Weg. T → I → D: 1 8 der Kunden von „T“ wechseln sofort zu „I“, von diesen wechseln 1 4 zu „D“. Insgesamt 1 8 · 1 4 = 1 32 der Kunden von „T“ nehmen diesen Weg. Es wechseln insgesamt 3 4 · 1 8 + 1 8 · 1 2 + 1 8 · 1 4 = 3 16 der Kunden von Anbieter „T“ innerhalb von zwei Quartalen zu Anbieter „D“. Dieser Wert ergibt sich auch als Eintrag in der ersten Zeile und 3. Spalte des Matrix-Produktes P 2 , wie man dem Falk-Schema zum Matrix-Produkt P 2 entnehmen kann. In einem durch eine Übergangsmatrix beschriebenen System gibt es meist keinen Zustand, der unverändert bleibt. Vielmehr findet man oft eine sogenannte stabile Verteilung, d.h. eine Zustandsverteilung, die beim 1-Schritt-Übergang unverändert bleibt. Es handelt sich hierbei um einen stochastischen Vektor x mit x = P x. Dies ist gleichwertig zu dem linearen Gleichungssystem (I n − P )x = ¯0. <?page no="137"?> 4.6 Anwendungen der Matrizenrechnung 137 Beispiel 4.43 Im Beispiel 4.38 des Mobilfunkmarktes mit der Übergangsmatrix P = ⎛ ⎜ ⎝ 3 4 1 8 1 2 0 0 3 4 0 0 1 8 0 1 2 1 4 1 8 1 8 0 3 4 ⎞ ⎟ ⎠ hat das lineare Gleichungssystem zum Gleichgewicht die Koeffizientenmatrix I 4 − P = ⎛ ⎜ ⎝ 1 4 − 1 8 − 1 2 0 0 1 4 0 0 − 1 8 0 1 2 − 1 4 − 1 8 − 1 8 0 1 4 ⎞ ⎟ ⎠ → ⎛ ⎜ ⎝ 1 0 0 − 2 0 1 0 0 0 0 1 − 1 0 0 0 0 ⎞ ⎟ ⎠ Ein stochastischer Vektor x, der die stabile Verteilung darstellt, ist also von der Form z = t ( 2, 0, 1, 1 ) T (vgl. das Schema aus Satz 3.7 zur Berechnung einer Basis zum Kern einer Matrix vgl. S. 79f. ) mit t ∈ R . Gleichzeitig muss die Komponentensumme gleich 1 sein, also 1 = 2t + 0t + t + t = 4t ⇔ t = 1/ 4 Ein stabiles Gleichgewicht auf dem Mobilfunktmarkt liegt also vor, wenn „Tekom“ 50% und „D2 1 2 “ sowie „Intracom“ je 25% Marktanteil haben. Im Gleichgewicht ist der Anbieter „E-Minus“ vom Markt verschwunden. Das berechnete Gleichgewicht stellt tatsächlich die langfristige Perspektive für den genannten Markt dar. Um dies abschließend zu zeigen, sind aber weitere theoretische Grundlagen über Markoff-Ketten und ihre Zustandsgraphen erforderlich. Wir verweisen auf die einschlägige Literatur. Übungen zu Abschnitt 4.6 ? 19. Bäcker Becker kämpft mit den Konkurrenten Doppel und Back um die Gunst der Kunden. 45% der Gesamtkunden kaufen bei Bäcker Becker, 30% bei Doppel und 25% bei Back. Durch aggressive Werbestrategien wechseln jede Woche je 10% von Bäcker Becker zu beiden Konkurrenten. Aber auch Bäcker Doppel muss 20% seiner Kunden an Bäcker Becker abgeben und 15% an Becker Back. Letzterer verliert wöchentlich 15% der Kunden an Bäcker Becker und 5% an Bäcker Doppel. a) Stellen Sie die Änderungen der Kundenzahlen in einer Matrix dar. b) Wie sieht der Marktanteil nach einer Woche aus? c) Wie würde sich die Marktsituation nach zwei Wochen darstellen? d) Bei welcher Marktsituation würden sich die Marktanteile nicht ändern? 20. Im Inselstaat Wiwinesien erzeugen die drei Elektrizitätskonzerne E-Off , Jello und Viba Strom. Um die Abgabemengen y E ≥ 0, y J ≥ 0 und y V ≥ 0 erzeugen zu können, müssen sich die drei Anbieter aufgrund gelegentlicher Engpässe einzelner Anbieter bei der Abgabe an die Wiwinesischen Kunden gegenseitig unterstützen. Jeder der drei Anbieter muss auch einen Teil seiner Produktion als Rücklage <?page no="138"?> 138 4 Matrizen in der Ökonomie speichern (durch Wasserkraft, Brennstoffzellen etc.), um seine Engpässe zumindest teilweise auszugleichen. Die faktischen Produktionsmengen x E , x J , x V ≥ 0 der drei Anbieter bei Abgabe von y E ≥ 0, y J ≥ 0 und y V ≥ 0 in den Export sind von der Form x E = 2y E + y J + y V x J = 2y E + 4y J + 3y V x V = 2y E + 3y J + 4y V Die maximale Produktionskapazität beträgt bei E-Off 200 Megawatt, bei Jello 1000 Megawatt und Viba 1000 Megawatt. a) Der Wiwinesischen Energieverflechtung liegt ein Leontiefmodell der Form y = (I − A)x mit y = (y E , y J , y V ) T und x = (x E , x J , x V ) T zugrunde. Bestimmen Sie die zugehörige technologische Matrix A. b) Gibt es einen Produktionsvektor x, für den das Leontief-Modell produktiv ist? Zusammenfassung Matrizen beschreiben aus mathematischer Sicht lineare Abbildungen zwischen Vektorräumen. Sie haben Anwendung z.B. in der Materialverflechtung, bei Zustandsübergangsmechanismen oder auch der Verknüpfung von Wirtschaftsbereichen. Speziell quadratische Matrizen finden mannigfaltige Anwendung in der Ökonomie. Ihre Inversen - sofern sie gebildet werden können - beschreiben die umgekehrten Input- Output-Sachverhalte. Determinanten von quadratischen Matrizen lassen sich für lineare Gleichungssysteme, Matrizeninversion und auch in der Analysis für Funktionen mehrerer Variablen - auf Basis von Matrizen, die aus den Ableitungen zweiter Ordnung gebildet werden - einsetzen. Invarianzeigenschaften von quadratischen Matrizen werden durch Eigenwerte und Eigenvektoren beschrieben, welche man z.B. in der Statistik im Zusammenhang mit Korrelationsrechnung und Datentransformationen einsetzt. Besonders häufig werden quadratische Matrizen im Rahmen der Untersuchung von Sektorenverflechtungen (Leontief-Modelle) und Systemen mit stochastischen Zustandsübergängen (z.B. Marktaufteilungen) eingesetzt. <?page no="139"?> Analysis in der Ökonomie <?page no="141"?> 5 Folgen und Reihen Übersicht Dieses Kapitel soll mit grundlegenden Begriffen im Zusammenhang mit dem mathematischen Folgenkonzept vertraut machen, welches im Rahmen der Schulmathematik oftmals nicht oder in zu geringem Umfange behandelt wird. Mit dem Grenzwertbegriffwird die Vorstellung von der „marginalen“, d.h. der „unendlich kleinen“ Größe präzisiert. Einerseits ermöglicht dies einen exakten Zugang zum Verständnis der Begriffe Stetigkeit und Differenzierbarkeit von Funktionen. Andererseits werden auch Idealrechnungen für ökonomische Größen, die einer diskreten zeitlichen Entwicklung unterliegen, erst mit der Formulierung von Grenzwerten wirklich handhabbar. Nach der Präzisierung verschiedener Beschreibungsmöglichkeiten für Folgen vgl. Abschnitt 5.1, S. 142 werden der Grenzwert einer Folge und seine Berechnungsmöglichkeiten erläutert vgl. Abschnitt 5.2, S. 144 . Weiter behandeln wir Summenfolgen und deren Grenzwerte als Beispiele ökonomischer Saldierungsvorgänge vgl. Abschnitt 5.3, S. 154 . Als ökonomische Anwendungen implizit erklärter Folgen werden abschließend Gleichgewichtspreise vgl. Abschnitt 5.4, S. 161 und elementare finanzmathematische Folgen eingeführt vgl. Abschnitt 5.5, S. 164 . Beispiel 5.1 Der Preis eines Produktes werde mit p bezeichnet, kann aber im Zeitverlauf variieren. Erfasst wird diese Variation durch die Verwendung eines Index n, der die jeweilige Zeitperiode angibt, für welche der Preis konstant bleibt. Es wird also p(n) oder p n statt p geschrieben, wobei n ∈ N 0 die Anzahl der Zeitperioden seit Erfassung der Preisentwicklung bezeichnet. Selbst bei zeitkontinuierlicher Erfassung des Preises gibt es zumeist einen kleinsten Zeitraum, innerhalb dessen sich die Größe nicht ändert; daher ist oft eine zeitdiskrete Modellierung möglich. Die Entwicklung lässt sich durch die Angabe aller p n für n ∈ N 0 beschreiben; für den Zeitindex gibt es keine aktuelle Obergrenze, wenn noch nicht feststeht, wie lange der Preis protokolliert werden soll. Man spricht in diesem wie auch in anderen Zusammenhängen, von einer Folge. (p n ) n ∈N 0 ; n heißt Folgenindex und p n heißt n-tes Folgenglied. Entsprechend lautet die Schreibweise (p n ) n ≥ k , wenn die Folge mit p k beginnt, und (p n ) n ∈N , wenn p 1 das Startglied der Folge ist. Bei der Auswahl der Bezeichnung einer Folge wird das Folgenglied oft durch einen kontextbezogenen Buchstaben bezeichnet etwa p für den Preis, d für die Nachfrage,. . . , während der Folgenindex meist einer der Buchstaben i, j, k, n oder m ist. Ohne einen solchen weiteren Kontext - z.B. in allgemeinen Aussagen - werden Folgenglieder regelmäßig mit a, b, c,. . . , im Falle von Summenfolgen oft s, jeweils mit einem Folgenindex versehen dargestellt. In vielen ökonomischen Bereichen werden zeitliche Abhängigkeiten durch Folgen beschrieben: <?page no="142"?> 142 5 Folgen und Reihen Aktienmarkt: Kurse, Indizes Unternehmen: Umsätze, Gewinne Staatsökonomie: Geldmenge, BSP Versicherungen: Schadensmeldungen Finanzmärkte: Zahlungsreihen Für Preisentwicklungen vgl. Abschnitt 5.4, S. 161 und finanzmathematische Zahlungsreihen vgl. Abschnitt 5.5, S. 164 können derartige Gesetze detailliert angegeben werden, während sie in den übrigen genannten Situationen von geeignet zu modellierenden Zufallseffekten überlagert werden. Deren Modelle wiederum lassen sich oft mittels geeigneter Folgen, z.B. in Form von Markoff-Ketten und deren Zustands- und Übergangswahrscheinlichkeiten vgl. Unterabschnitt 4.6.2, S. 133 darstellen. 5.1 Folgen, explizit versus implizit Eine Folge (a n ) n ∈N 0 lässt sich auf verschiedene Arten beschreiben: konkret durch Angabe hinreichend vieler Folgenglieder: Für Daten wie Aktienkurse, Umsätze ist dies zunächst die einzige Darstellungsmöglichkeit. Andererseits kann man zuweilen schon aufgrund einer geringen Anzahl von Folgengliedern ein Bildungsschema erkennen - eine Standardaufgabe von Intelligenztests. explizit durch Angabe des Bildungsgesetzes als Funktionsterm. Durch Einsetzen des Index kann das Folgenglied unmittelbar berechnet werden. implizit bzw. rekursiv durch Festlegung der Folge mit allgemeinen Gleichungen, in denen jeweils mehrere sukzessive Folgenglieder auftreten. Beispiel 5.2 (Arithmetische Folge) Wächst ein Gut periodisch um den Wert d ∈ R an, so wird die Wertentwicklung als arithmetische Folge bezeichnet. Man spricht auch vom „Sparen ohne Zinsen“. implizite Form: a n : = a n − 1 + d bei gegebenem Startwert a 0 explizite Form: a n : = a 0 + d · n mit a 0 , d ∈ R Beispiel 5.3 (Geometrische Folge) Wird ein Kapital sukzessiv aufbzw. abdiskontiert, so ergibt sich eine geometrische Folge. Solche Folgen treten z.B. bei der wiederholten Verzinsung eines Kapitals auf. implizite Form: a n = p · a n − 1 mit p ∈ R und Startwert a 0 (bzw. a 1 ). explizite Form: Durch sukzessives Einsetzen bekommt man a n = a 1 · p n − 1 = a 0 · p n Beispiel 5.4 (Geometrische Summenfolge) In der Finanzmathematik müssen meist sukzessive mit Zinseszins berechnete Werte saldiert werden. Dies erfordert fast immer die Berechnung einer Summe vom Typ 1 + p + p 2 + · · · + p n , welche man als geometrische Summe bezeichnet. Hierdurch ist zwar schon eine explizite Form gegeben, allerdings steigt der Berechnungsaufwand mit n der Anzahl der Summanden. Stattdessen wird möglichst eine geschlossene Form der Summe gesucht. Satz 5.1 (Geometrische Summenformel) Für p = 1 ist s n : = 1 + p + p 2 + · · · + p n = 1 − p n+1 1 − p <?page no="143"?> 5.1 Folgen, explizit versus implizit 143 Dies ergibt sich aus den zwei Formeln s n − 1 = s n − p n und s n = 1 + ps n − 1 , die für die implizite Darstellung der geometrische Summe möglich sind. Substitutiert man s n − 1 in der zweiten Gleichung, so ergibt sich s n = 1 + p(s n − p n ). Löst man dies für p = 1 nach s n auf, so ergibt sich die geometrische Summenformel. In der Ökonomie gibt es etliche Folgen, deren implizite Form sich aus ihrem Änderungsverhalten, d.h. dem Verhalten der Differenzen a n +1 − a n aufeinanderfolgender Folgenglieder ergibt (man spricht dann auch von Differenzengleichungen). Solche Darstellungen ergeben sich oft aus der Problembeschreibung und sind dann im ökonomischen Kontext der Einstieg zur Untersuchung einer Folge. Leider ist die ad-hoc- Bestimmung einzelner Folgenglieder aus der impliziten Form zumeist aufwändig. Zur Rückführung auf die explizite Form im Rahmen der Untersuchung von Differenzengleichungen gibt es allerdings standardisierte Verfahren [ Gandolfo , 1997]. Beispiel 5.5 (Differenzengleichung erster Ordnung) Die Folge (p n ) n ≥ 0 sei implizit durch Startwert p 0 und Rekursion p n +1 = a+bp n erklärt. Dabei seien a, b ∈ R und b = 1 (der Fall b = 1 stellt eine arithmetische Folge dar vgl. Beispiel 5.2, S. 142 ). Das explizite Bildungsgesetz lässt sich durch sukzessives Einsetzen „erraten“: p n = a+b (a + bp n − 2 ) = a (1 + b)+b 2 p n − 2 . Setzt man nun die Rekursion für p n − 2 , d.h. die Gleichung p n − 2 = a + bp n − 3 hier wieder ein und fasst wieder zusammen, so ergibt sich p n = a ( 1 + b + b 2 ) + b 3 p n − 3 . Wird dieses Argument insgesamt n-mal wiederholt, so ergibt sich schließlich mit Hilfe der geometrischen Summe p n = a ( 1 + b + · · · + b n − 1 ) + b n p 0 = a 1 − b n 1 − b + b n p 0 also nach Ausklammern von b n die Formel p n = a 1 − b + ( p 0 − a 1 − b ) b n Formt man die Rekursion um zu p n +1 − p n = a + (b − 1)p n , so liegt eine lineare Differenzengleichung erster Ordnung mit vielen ökonomischen Anwendungen vor: lineare Spinnwebmodelle nach Ezekiel vgl. Abschnitt 5.4, S. 161 Wachstumsmodelle für Volkseinkommen nach Boulding Multiplikator-Akzelerator-Modelle nach Samuelson Verzinsungsmodelle der Finanzmathematik vgl. Abschnitt 5.5, S. 164 Übungen zu Abschnitt 5.1 ? 1. Bestimmen Sie für die angegebenen Folgen das explizite Bildungsgesetz. Welche Folgen sind geometrische/ arithmetische Folgen, welche sind monoton und/ oder beschränkt (zu den Begriffen monoton/ beschränkt vgl. Satz 5.3 vgl. S. 150 )? a) 5 4 ; 2 1 2 ; 3 3 4 ; 5; 25 4 ; ... b) 9 4 ; 3 2 ; 1; 2 3 ; 4 9 ; ... c) 4 5 ; − 16 25 ; 64 125 ; − 256 625 ; ... 2. Von einer geometrischen Folge kennt man zwei Glieder a 2 = 160 und a 4 = 102, 4. Geben Sie a 1 , a 5 und q an. 3. Von einer arithmetischen Folge sind nur a 3 = 25 und a 10 = 81 bekannt. Bestimmen Sie das Bildungsgesetz und geben Sie a 5 und die Summe s 4 an. 4. In der zweiten Woche Ihres Praktikums bei dem Finanzberater „Schnell-Geld“ hören Sie folgendes Gespräch zwischen zwei <?page no="144"?> 144 5 Folgen und Reihen Mitarbeitern des Unternehmens: „Was hat der Vergleich der degressiven und der linearen Abschreibung für den Firmenwagen des Chefs der Firma Stroh&Partner ergeben? “ „Bei degressiver Abschreibung wäre der Restwert nach zwei Jahren um 2100 e höher als bei linearer Abschreibung. Nach drei Jahren linearer Abschreibung würde der Restwert genau so hoch sein wie nach vier Jahren degressiver Abschreibung.“ Berechnen Sie Anfangswert und jährliche lineare Abschreibung des Wagens, wenn bei degressiver Abschreibung mit dem Faktor 4 5 abgezinst wird. 5. In Wiwinesien sei in Periode n ∈ N 0 y n das Volkseinkommen mit y 0 = 1, s n die Sparsumme und i n die Investitionen. Weiter sei s n = 1 10 y n , i n = 1 5 (y n +1 − y n ) und i n = s n . Leiten Sie für das Volkseinkommen (y n ) n ∈N 0 die explizite Form her. 6. In Wiwinesien folge der Baumwollpreis p n der Differenzengleichung p n +1 − p n = 1 − 1 2 p n Dabei sei p 0 = 1. Bestimmen Sie die explizite Form der Folge (p n ) n ≥ 0 (führen Sie die Folge rekursiv auf p 0 zurück). 5.2 Konvergenz von Folgen Grenzwerte sind die Grundlage der modernen Analysis. Schon der Übergang von den rationalen zu den reellen Zahlen durch Hinzufügung der irrationalen Zahlen ist ein Grenzwertvorgang, da irrationale Zahlen sich - wenn sie nicht implizit erklärt werden - nur als unendliche, nichtperiodische Dezimalzahlen auffassen lassen und daher Ergebnis einer unendlichen Summation sind. Ein Grenzwert beschreibt in mathematisch exakter Weise, welchen Wert die Folge „am Ende“ annimmt. Mit dem Grenzwertbegrifffür Folgen erweitert sich der mathematische Horizont auf unendlich große (jede Schranke überschreitende) und gleichzeitig auf unendlich kleine (beliebig nahe bei Null liegende) Größen. Beides ist für Ökonomen von Bedeutung: Sachverhalte, in denen man den Begriff „unendlich groß“ verwendet, sind z.B. solche, bei denen im Laufe der Zeit zunehmende Saldi langfristig analysiert werden sollen, etwa durch Verwendung unendlicher Reihen, z.B. der geometrischen Reihe. Betrachtet man das Verhalten einer ökonomischen Größe y in Abhängigkeit von einer anderen y, so werden „unendlich kleine“ (im Sprachgebrauch der Wirtschaftswissenschaften: marginale) Änderungen von x untersucht, d.h. man untersucht das Verhalten von y, wenn x beliebig nahe bei Null liegt. Der Idealfall wird dann durch einen Grenzwertübergang dargestellt, wie etwa beim Ableiten von Funktionen. Der hier verwendete Grenzwertbegrifffür Funktionen lässt sich dem Grenzwertbegrifffür Folgen durch Darstellung der Änderungen als Nullfolgen unterordnen. Die Konzepte hängen zusammen. Lässt man etwa den Folgenindex n wachsen, so wächst die Folge a n = n über alle Schranken („unendlich groß“), während die Kehrwertfolge 1/ a n = 1/ n sich Null beliebig annähert („unendlich klein“). Zur systematischen Erklärung der Begriffe „Konvergenz“ und „Grenzwert“ stellt man sich die Glieder einer Folge so vor, dass sie wie in Abbildung 5.1 in einem Koordinatensystem dargestellt sind, bei welchem auf der Abszisse die Folgenindizes und auf der Ordinate die Folgenwerte abgetragen werden. Bei einer konvergenten Folge findet eine Stabilisierung um einen festen Wert a (in Abbildung 5.1 ist dies der Wert a = 1) in dem folgenden Sinne statt: Zeichnet man <?page no="145"?> 5.2 Konvergenz von Folgen 145 20 40 60 80 100 -0.5 0 0.5 1.5 2 2.5 Abbildung 5.1: Veranschaulichung des Konvergenzbegriffes für Folgen einen beliebigen horizontalen, symmetrisch zu a liegenden Streifen einer vorgegeben Breite 2ε > 0 (in Abbildung 5.1 ist ε = 1 2 ), so liegen zwar nicht alle, aber nach endlich vielen a 1 , . . . , a n 0 − 1 alle weiteren Folgenglieder in diesem Streifen (in Abbildung 5.1 ist n 0 = 21). Rechnerisch bedeutet das für alle Folgenglieder a n mit n ≥ n 0 : a − ε < a n < a + ε d.h. | a n − a | < ε Um den Zusammenhang zwischen der Streifenbreite ε und dem minimal erforderlichen n 0 rechnerisch genau zu ermitteln, ist diese Ungleichung mittels Äquivalenzumformungen so lange umzugestalten, bis eine Ungleichung der Form n > . . . entsteht, wobei n in dem Wert auf der rechten Seite der Ungleichung nicht mehr auftritt. Zu diesem Wert, der in der Regel von ε abhängig ist, muss dann noch die nächste natürliche Zahl n 0 oberhalb gefunden werden. Je schmaler der Streifen ist, d.h. je kleiner ε > 0 ist, desto größer ist im Allgemeinen der erforderliche Wert n 0 . Definition 5.1 (Konvergenz einer Folge) ! Man sagt, eine (reelle) Zahlenfolge (a n ) n ≥ k konvergiert gegen a ∈ R , wenn es zu jedem ε > 0 ein n 0 = n 0 (ε) (abhängig von ε) gibt, so dass für alle n ≥ n 0 (ε), n ≥ k gilt a − ε < a n < a + ε d.h. | a n − a | < ε a heißt dann Grenzwert der Folge (a n ) n ≥ k . Schreibweisen hierfür sind: lim n →∞ a n = a bzw. a n → a für n → ∞ bzw. a n −→ n →∞ a Konvergiert eine Folge gegen Null, so heißt sie Nullfolge. Eine nicht konvergente Folge nennt man divergent. Darüber hinaus wird noch hinsichtlich des Grades der Divergenz unterschieden zwischen bestimmt divergenten Folgen, deren Folgenglieder systematisch jede Schranke überschreiten (bzw. unterschreiten). Formal gilt dann: für jedes K ∈ R gibt es ein n 0 , so dass a n ≥ K (bzw. a n ≤ K) für alle n ≥ n 0 . Man schreibt dann a n → ∞ (bzw. a n → −∞ ), muss sich aber davor hüten, die später angesprochenen Grenzwertsätze auch für divergente Folgen zu verwenden. unbestimmt divergenten Folgen, die sich als Zusammensetzung von mehreren konvergenten oder bestimmt divergenten Teilfolgen mit unterschiedlichen Grenzwerten erweisen. Um die Stabilisierung einerseits zu verdeutlichen, andererseits vom Grenzwertbegriffzu unterscheiden, spricht man dann von verschiedenen Häufungspunkten einer Folge. <?page no="146"?> 146 5 Folgen und Reihen Beispiel 5.6 Die Folge a n = n 2 ist bestimmt divergent, denn für alle K > 0 gilt die Ungleichung a n ≥ K für alle n ≥ √ K. Die Folge a n = 1 + ( − 1) n hingegen hat die beiden verschiedenen Häufungspunkte 0 und 2, sie ist also unbestimmt divergent. Das letzte Beispiel illustriert, dass eine konvergente Folge nicht zwei verschiedene Grenzwerte besitzen kann. Gilt nämlich lim n →∞ a n = a und lim n →∞ a n = b, so folgt: | a − b | = | a − a n + a n − b | ≤ | a − a n | + | a n − b | und da die rechte Seite beliebig klein wird, muss a = b gelten. Beachten Sie, dass wir nicht direkt folgern können a = lim a n = b, weil die Schreibweise lim a n = a zunächst nur eine Umschreibung des „Streifenverhaltens“ von a n und noch nicht als Gleichung im herkömmlichen Sinne zu bewerten ist - dies kann man erst unter Zuhilfenahme der Grenzwertsätze in Satz 5.2 vgl. S. 148 bewerkstelligen. Ob eine Folge konvergent ist, hängt nicht von ihrem Anfangsverhalten ab: Beispiel 5.7 Die drei Folgen a n = √ n + 1000 − √ n, b n = √ n + √ n − √ n, c n = √ n + n 1000 − √ n haben für n < 10 6 das Verhalten a n > b n > c n > 0, aber es ist lim n →∞ a n = 0, lim n →∞ b n = 1 2 und (c n ) n ≥ 1 ist (bestimmt) divergent; die Ungleichungen und das Grenzwertverhalten für die erste und dritte Folge ist Thema von Übungsaufgabe 8 vgl. S. 153 , für die zweite Folge wird dies gleich gezeigt. Vorsicht bei „Taschenrechnermathematik“ Die Bestimmung des Grenzwertes allein durch „Augenschein“, wozu auch das Einsetzen von Taschenrechnerwerten gehört, ist in aller Regel kein zuverlässiges Mittel zur Berechnung, nicht einmal zur Vermutung von Grenzwerten. Die Konvergenzgeschwindigkeit der Folge könnte zu langsam sein. Der Grenzwertbegrifffür Folgen hat auch Bedeutung bei der Betrachtung von Funktionsgrenzwerten. Will man beispielsweise das Verhalten einer Funktion f : D ⊆ R → R in der Nähe eines Punktes x 0 ∈ D untersuchen, so betrachtet man Werte x ∈ D , die immer näher bei x 0 liegen. Das kann mit Hilfe einer - zumeist gar nicht genauer definierten - Folge (x n ) n ∈N geschehen, die x 0 als Grenzwert hat. Man bildet dann die Funktionswertfolge (f(x n )) n ∈N und untersucht deren Grenzwertverhalten. Definition 5.2 (Grenzwert und Stetigkeit/ Differenzierbarkeit einer Funktion) ! Es sei f : D ⊆ R → R eine Funktion und x 0 ∈ D . [1] Wenn unabhängig von der gewählten Folge x n → x 0 sich stets derselbe Grenzwert g = lim n →∞ f(x n ) ergibt, nennt man g den Grenzwert der Funktion für x → x 0 und schreibt lim x → x 0 f(x) = g. [2] f heißt stetig in x 0 , wenn lim x → x 0 f(x) = f(x 0 ). [3] f heißt differenzierbar in x 0 , wenn f ′ (x 0 ) : = lim x → x 0 (f(x) − f(x 0 ))/ (x − x 0 ) existiert. Für eine genauere Darstellung der genannten Grenzwertkonzepte für Funktionen einer Variablen und und deren Einordnung in der Ökonomie sei auf [ Terveer/ Terveer , 2011], Kapitel 6-8 verwiesen. Wir beschäftigen uns im Folgenden nur mit Grenzwerten von Folgen. <?page no="147"?> 5.2 Konvergenz von Folgen 147 5.2.1 Grenzwertbestimmung bei expliziten Folgen Die mit der Definition des Grenzwertes unmittelbar verbundene Vorgehensweise zur Bestimmung von Grenzwerten besteht darin, den korrekten Grenzwert zu erraten und dann anhand der allgemeinen Definition des Grenzwertes nachzuweisen. Beispiel 5.8 lim n →∞ 1 √ n = 0, denn für ε > 0 gilt ∣ ∣ ∣ 1 √ n − 0 ∣ ∣ ∣ < ε ⇔ 1 √ n < ε ⇔ n > 1 ε 2 . Den Schwellenindex n 0 (ε) wählt man als kleinste natürliche Zahl n 0 > 1 ε 2 . Für eine Folge (a n ) n ≥ 1 mit a n ≥ 0 und lim n →∞ a n = a > 0 ∈ R gilt lim n →∞ √ a n = √ a. Es sei hierzu ε > 0 und n 0 ∈ N derart, dass für alle n ≥ n 0 gilt: | a n − a | < ε √ a. Dann gilt für alle n ≥ n 0 auch | √ a n − √ a | = | ( √ a n − √ a )( √ a n + √ a ) | √ a n + √ a = | a n − a | √ a n + √ a < | a n − a | √ a < ε √ a √ a = ε Mit ein wenig Aufwand lässt sich die Rechnung auf den Fall a = 0 übertragen. Insgesamt ergibt sich, dass die Wurzelfunktion f : [0; ∞ [ → R , f(x) = √ x eine stetige Funktion ist, d.h. es gilt lim x → a √ x = √ a für alle a ≥ 0. Mathematiker sprechen in diesem Zusammenhang von der - manchmal in Perfektion zelebrierten - „Epsilontik“, von der Sie vielleicht einen vagen Eindruck im zweiten Beispiel bekommen haben. Weil man aber nur in den seltensten Fällen einen Grenzwert unproblematisch erraten kann, ist aus Anwendersicht diese Vorgehensweise nur für „Propheten“ oder in einfachen Beispielen geeignet. Eine weitere Möglichkeit der Berechnung stellen Einschachtelungsverfahren dar. Hier versucht man zur gegebenen Folge zwei weitere Folgen zu finden, die den gleichen Grenzwert haben und oberhalb und unterhalb der gegebenen Folge liegen. Die Ausgangsfolge muss dann in den durch die Einschachtelungsfolgen gegebenen „Trichter“ laufen, d.h. hat den gleichen Grenzwert. Einschachtelungsprinzip Gilt a n ≤ b n ≤ c n und lim n →∞ a n = lim n →∞ c n = x, so gilt auch lim n →∞ b n = x. Auch hier muss man oft eine Vorstellung von der Form des gesuchten Grenzwertes x haben und ganz ohne „Tricks“ kommt man meist nicht weiter. Beispiel 5.9 (geometrische Folge) Für − 1 < p < 1 ist (p n ) n ≥ 1 eine Nullfolge. Für 0 < p < 1 ist q = 1 p > 1 und dann folgt mittels der Binomischen Formel vgl. Beispiel 5.25, S. 155 q n = (1 + (q − 1)) n = 1 + n(q − 1) + · · · + (q − 1) n > n(q − 1) > 0 für alle n ≥ 2. Durch Kehrwertbildung bekommt man also die Einschachtelung 0 < p n < 1 n ( q − 1) der geometrischen Folge durch zwei Nullfolgen. Die geometrische Folge muss also ebenfalls eine Nullfolge sein. Dies ist auch im allgemeinen Fall − 1 < p < 1 richtig, denn dann gilt | q | n > n( | q | − 1) und daher − 1 n ( | q |− 1) < p n < 1 n ( | q |− 1) . Beispiel 5.10 Für eine reelle Zahl x > 0 sei a n : = n √ x = x 1 n . Für x = 1 ergibt sich natürlich der Grenzwert 1, weil a n = 1 für alle n. Der Grenzwert 1 ergibt sich aber auch für jede <?page no="148"?> 148 5 Folgen und Reihen andere reelle Zahl x > 0. Hier wird zunächst der Fall x > 1 behandelt (den Fall x < 1 sehen Sie in Beispiel 5.12 vgl. S. 149 ). Zur Bestimmung des Grenzwertes benutzt man wie in Beispiel 5.9 eine Abschätzung auf Basis der Binomischen Formel x = ( 1 + ( x 1 n − 1 )) n ≥ 1 + n ( x 1 n − 1 ) > 0 Daher ist 0 ≤ x 1 n − 1 ≤ x − 1 n ; nach dem Einschachtelungsprinzip ist lim n →∞ x 1 n = 1. Eine dritte Möglichkeit zur Grenzwertermittlung besteht darin, den Folgenterm durch einige zielgerichtete Umformungen oder Abschätzungen in eine Form zu bringen, in der er den Grenzwertsätzen zugänglich ist. Satz 5.2 (Grenzwertsätze konvergenter Folgen) Seien (a n ) n ≥ k und (b n ) n ≥ k konvergente Folgen mit lim n →∞ a n = a, lim n →∞ b n = b. Dann gilt: [1] Die Folge (c n ) n ≥ k mit c n : = a n + b n , ist konvergent mit Grenzwert a + b, d.h. es ist lim n →∞ (a n + b n ) = lim n →∞ a n + lim n →∞ b n [2] Die Folge (c n ) n ≥ k mit c n : = a n · b n , ist konvergent mit Grenzwert a · b, es gilt also lim n →∞ (a n · b n ) = lim n →∞ a n · lim n →∞ b n = a · b [3] Falls b = 0, so gibt es ein m ≥ k mit b n = 0 für alle n ≥ m und die Folge (c n ) n ≥ m mit c n : = a n b n , ist konvergent mit Grenzwert a b , d.h es ist lim n →∞ ( a n b n ) = lim n →∞ a n lim n →∞ b n Die Bildung von Grenzwerten, wenn man konvergente Folgen durch die Grundrechenarten Addition, Multiplikation und Division aus konvergenten Folgen zusammensetzt, ist also verträglich mit diesen Grundrechenarten. Satz 5.2 ist auch für Grenzwerte von Funktionen gültig. Man muss sich aber davor hüten, ihn auch auf die Zusammensetzung bestimmt divergenter Folgen anzuwenden. Unmittelbar mit den Grenzwertsätzen verbunden ist das Grenzwertverhalten gebrochenrationaler Folgen, die sich ergeben, wenn man bei gebrochen-rationalen Funktionen p(x)/ q(x) das Argument x durch den Folgenindex n ersetzt: Beispiel 5.11 (Gebrochen-rationale Folgen) Eine gebrochen-rationale Folge hat den Folgenterm a n = p(n)/ q(n), dabei sind p(x) = α 0 +α 1 x+ · · · +α r x r und q(x) = β 0 +β 1 x+ · · · +β s x s Polynome vom Grad grad(p) = r und grad(q) = s. Gebrochen-rationale Folgen haben folgendes Grenzwertverhalten: Falls grad(p) > grad(q), so ist (a n ) n ∈N (bestimmt) divergent. Falls grad(p) = grad(q) = r, so ist (a n ) n ∈N konvergent mit Grenzwert α r β r α r β s . Falls grad(p) < grad(q), so ist (a n ) n ∈N eine Nullfolge. Zur Begründung: Wir betrachten hier nur den Fall r = s. Dann lässt sich aus dem Term p(n)/ q(n) in Zähler und Nenner der Ausdruck n r faktorisieren und anschließend kürzen, der resultierende Term konvergiert nach den Grenzwertsätzen gegen den Quotienten α r / β r der Leitkoeffizienten von p, q: p(n) q(n) = α 0 + α 1 n + · · · + α r n r β 0 + β 1 n + · · · + β r x r = n r n r α 0 / n r + α 1 / n r − 1 + · · · + α r β 0 / n r + β 1 / n r − 1 + · · · + β r n →∞ −→ α r β r In den anderen beiden Fällen wird jeweils n r bzw. n s faktorisiert abhäng davon, welches Polynom den höheren Grad hat. Danach liest man die Divergenz bzw. Konvergenz ab. <?page no="149"?> 5.2 Konvergenz von Folgen 149 Beispiel 5.12 (Fortsetzung von Beispiel 5.10 vgl. S. 147 ) Wir betrachten jetzt die Wurzelfolge a n : = n √ x = x 1 n für den Fall 0 < x < 1. Auch dann hat a n den Grenzwert 1, denn aufgrund der Quotientenregel aus Satz 5.2 und dem in Beispiel 5.10 gerechneten Fall gilt wegen 1/ x > 1 lim n →∞ n √ x = lim n →∞ 1 n √ 1/ x = 1 lim n →∞ n √ 1/ x = 1 1 = 1 Beispiel 5.13 Für die bereits oben genannte Folge b n = √ n + √ n − √ n besteht der Kniffdarin, den Folgenterm in einen geeigneten Bruch zu erweitern: √ n + √ n − √ n = ( √ n + √ n − √ n ) ( √ n + √ n + √ n ) √ n + √ n + √ n = n + √ n − n √ n + √ n + √ n = 1 √ n + √ n n + √ n n = 1 √ 1 + 1 √ n + 1 −→ n →∞ 1 √ 1 + 0 + 1 = 1 2 Beispiel 5.14 (Fortsetzung von Beispiel 5.5 vgl. S. 143 ) Es sei (p n ) n ≥ 0 die aus der impliziten Gleichung p n = a + bp n − 1 mit Startwert p 0 gewonnene Folge. Wir haben gesehen, dass die explizite Form folgende Form hat p n = a 1 − b + ( p 0 − a 1 − b ) b n Für | b | < 1 folgt aus der Konvergenz der geometrischen Folge und den Grenzwertsätzen lim n →∞ p n = a 1 − b + (p 0 − a 1 − b ) lim n →∞ b n = a 1 − b + (p 0 − a 1 − b ) · 0 = a 1 − b 5.2.2 Grenzwertbestimmung bei impliziten Folgen Zur Bestimmung von Grenzwerten sind zunächst nur explizite Folgen geeignet. Falls möglich, wird man daher eine implizit definierte Folge in eine explizite Form überführen und dann den Grenzwert bestimmen. Bei manchen impliziten Folgen kann man aber direkt anhand der Rekursion den Grenzwert bestimmen, sofern man weiß, dass die Folge konvergent ist. Dann lässt sich in der Rekursionsgleichung jedes Auftreten eines Folgengliedes durch den - zunächst unbekannten - Grenzwert ersetzen. Es ergibt sich eine Gleichung mit dem Grenzwert als Variable, nach der man die Gleichung auflöst. Beispiel 5.15 (Fortsetzung von Beispiel 5.5 vgl. S. 143 ) Im rekursiven Modell p n +1 = a + bp n sei − 1 < b < 1 angenommen. Der Grenzwert p ergibt sich auch durch direktes Einsetzen in die Rekursion: p = lim n →∞ p n = lim n →∞ (a + bp n − 1 ) = a + bp d.h. p = a + bp ⇔ p = a 1 − b <?page no="150"?> 150 5 Folgen und Reihen Bei dem Einsetzen in die implizite Form ist allerdings Vorsicht geboten. Die Rechnung im vorigen Beispiel ließe sich auch durchführen, wenn z.B. b > 1 ist. Dann aber ist die genannte Folge nicht konvergent und der berechnete Wert a/ (1 − b) hat keine Bedeutung als Grenzwert. Zwei ander Beispiele sollen die Problematik weiter illustrieren: Beispiel 5.16 Die Konvergenz der Folge muss gesichert sein. Setzt man z.B. in die Rekursion der Folge a n = 2a n − 1 + 1 den mutmaßlichen Grenzwert a ein, so würde sich die Gleichung a = 2a + 1 ergeben, d.h. a = − 1. Das wäre aber nur im Falle a 0 = − 1 der Grenzwert der Folge, weil dann a 1 = a 2 = · · · = − 1. Es sei die Folge a 0 = 0, a 1 = 1 und a n = a n− 1 + a n− 2 2 . Setzt man den mutmaßlichen Grenzwert x für die Folgenglieder ein, so ergibt sich die Tautologie x = x + x 2 ; der Grenzwert ist also auf diese Weise nicht zu gewinnen, sondern man muss auf die explizite Form zurückgreifen vgl. Übungsaufgabe 11, S. 154 . 5.2.3 Nachweismöglichkeiten für Konvergenz Bei expliziten Folgen ergibt sich häufig durch Umformungen der Folgenterme und Anwendung der Grenzwertsätze sowohl die Konvergenz als auch der Grenzwert selbst. Die Grenzwertsätze sind aber nicht unmittelbar auf implizite Folgen anwendbar, weshalb sie zum Konvergenznachweis dann in aller Regel ausscheiden. Aber auch für explizite Folgen sind dieser Vorgehensweise technische Grenzen gesetzt. Manchmal muss die Konvergenz daher auf völlig eigenständigem Wege nachgewiesen werden. Es kann vorkommen, dass der eigentliche Grenzwert dann nur numerisch, z.B. durch Einsetzen hinreichend großer Werte für n in den Folgenterm a n approximativ bestimmbar ist. Also muss man sich zuweilen sowohl bei expliziten als auch impliziten Folgen zunächst Gedanken darüber machen, ob die Folgen überhaupt konvergent sind - das Beispiel auf Seite 146 zeigt, dass das Einsetzen großer Werte ohne vorherige Konvergenzüberprüfung in die Irre führen kann. Ein häufig möglicher Weg besteht darin, die Monotonie und Beschränktheit der Folge nachzuweisen, denn die Monotonie einer Folge beinhaltet ein Trendverhalten, die Beschränktheit sorgt dafür, dass dieser Trend nicht alle Grenzen über- oder unterschreitet. Das bedeutet Konvergenz der Folge. Satz 5.3 [1] Jede konvergente Folge (a n ) n ≥ k ist beschränkt, d.h. es gibt ein M > 0 mit | a n | ≤ M für alle n ≥ k. [2] (Konvergenzkriterium für monotone Folgen) Sei (a n ) n ≥ m eine monotone Folge (d.h. entweder gilt a m ≤ a m+1 ≤ a m+2 ≤ . . . (monoton wachsend) oder a m ≥ a m+1 ≥ a m+2 ≥ . . . (monoton fallend). Dann gilt: (a n ) n ≥ m ist konvergent ⇐⇒ (a n ) n ≥ m ist beschränkt Zur Begründung: Die Beschränktheit einer konvergenten Folge ergibt sich z.B. daraus, dass fast alle Folgenglieder den Maximalabstand 1 zu dem Grenzwert a haben, mithin im Intervall ]a − 1; a + 1[ liegen. Nimmt man das Minimum m und das Maximum M der endlich vielen Folgenglieder a 1 , . . . , a n 0 − 1 , die nicht in diesem Intervall liegen, hinzu, so liegen alle Folgenglieder im Intervall [min { a − 1, m } , max { a + 1, M } ], d.h. die Folge ist beschränkt. Ist umgekehrt eine beschränkte Folge zusätzlich monoton wachsend, so besitzt sie eine kleinste <?page no="151"?> 5.2 Konvergenz von Folgen 151 n x n numerisch 0 2 2 1 3 2 1, 5 2 17 12 1, 416 666 67 n x n numerisch 3 577 408 1, 414 215 69 4 665 857 470 832 1, 414 213 56 5 886731088897 627013566048 1, 414 213 56 Tabelle 5.1: Mit dem Heron-Verfahren gewonnene Näherungswerte für √ 2 obere Schranke a, d.h. alle Folgenglieder liegen unterhalb von a und es gibt keine kleinere Zahl mit dieser Eigenschaft. Genauer gibt es für jedes ε > 0 ein n 0 mit a − ε < a n 0 < a. Wegen der Monotonie gilt das dann nicht nur für das n 0 -te Folgenglied, sondern auch alle weiteren. Das entspricht genau der Definition von Konvergenz. Beispiel 5.17 (Quadratwurzel-Iteration nach Heron) Für a > 0 wähle man x 0 > 0; für n > 0 sei dann x n +1 : = x n + a/ x n 2 . Diese schon den Babyloniern bekannte Iteration ist (z.T. noch) Grundlage der numerischen Berechnung von Quadratwurzeln - etwa in Taschenrechnern -, kann aber nicht explizit gemacht werden. Startet man etwa für a = 2 mit x 0 = 2, so ergeben sich die Werte in Tabelle 5.1. Sie legen nahe, dass (x n ) n ≥ 0 konvergent ist mit lim n →∞ x n = √ a. Wir prüfen die Konvergenz, indem wir nachrechnen, dass die Folge monoton und beschränkt ist. Sicher ist zunächst x n ≥ 0 für alle n ≥ 1. Weiter gilt dann: x 2 n ≥ a für n ≥ 1, denn x 2 n − a = ( x n− 1 + a/ x n− 1 2 ) 2 − a = ( x n− 1 − a/ x n− 1 ) 2 4 ≥ 0. Also ist x n nach unten durch √ a beschränkt. x n +1 ≤ x n für n ≥ 1, denn x n − x n +1 = x n − x n + a/ x n 2 = x 2 n − a 2 x n ≥ 0. Also ist x n monoton fallend. Der Grenzwert x muss jetzt sicher größer oder gleich √ a, also insbesondere größer als Null sein. Aus den Grenzwertsätzen folgt dann: x = lim n →∞ x n = lim n →∞ ( x n − 1 + a/ x n − 1 2 ) = x + a/ x 2 d.h. wegen x > 0 gilt 2x = x + a/ x ⇔ x 2 = a ⇔ x = √ a. Es wird also tatsächlich die Quadratwurzel approximiert. An dem Beispiel aus Tabelle 5.1 kann man erkennen, dass die Konvergenz sehr schnell erfolgt, was die Verwendung in Taschenrechnern erklärt. Beispiel 5.18 Sei a n : = 1 + ( 1 2 ) 2 + · · · + ( 1 n ) 2 . (a n ) n ≥ 1 ist monoton wachsend (entsteht durch sukzessive Addition nichtnegativer Zahlen 1 1 , 1 4 , 1 9 , . . . ) und auch beschränkt. Für n ≥ 2 gilt nämlich: a n = 1 + ( 1 2 ) 2 + ( 1 3 ) 2 + · · · + ( 1 n ) 2 ≤ 1 + 1 1 · 2 + 1 2 · 3 + · · · + 1 (n − 1) · n = 1 + ( 1 1 − 1 2 ) + ( 1 2 − 1 3 ) + · · · + ( 1 n − 1 − 1 n ) = 2 − 1 n ≤ 2 Also: | a n | ≤ 2 für alle n ≥ 2 und damit natürlich auch für alle n ≥ 1. (a n ) n ≥ 1 ist monoton wachsend und beschränkt, also konvergent. Man kann z.B. mittels Fourier- Reihen [ Forster , 2011] zeigen, dass lim n →∞ a n = π 2 6 <?page no="152"?> 152 5 Folgen und Reihen Beschränktheit alleine reicht für die Konvergenz einer Folge nicht aus, wie das Beispiel a n = ( − 1) n zeigt. Diese Folge ist beschränkt und nicht monoton; sie ist außerdem nicht konvergent; sie hat vielmehr die beiden Häufungspunkte − 1 und 1. Die bisher untersuchten Beispielfolgen waren alle konvergent. Zuweilen kommen aber auch divergente Folgen vor. Alle unbeschränkten Folgen gehören dazu und lassen sich anhand dieses Defizits oft identifizieren: Beispiel 5.19 (Fortsetzung von Beispiel 5.9 vgl. S. 147 ) Für die geometrische Folge (p n ) n ≥ 1 mit | p | > 1 gilt wieder aufgrund der Binomischen Formel die Abschätzung | p | n = (1 + ( | p | − 1)) n > n( | p | − 1). Die geometrische Folge ist für | p | > 1 also unbeschränkt, mithin divergent. Beispiel 5.20 (Harmonische Reihe) Die durch sukzessive Summation der Kehrwerte der ersten n natürlichen Zahlen erklärte Folge a n , d.h. a n : = 1 + 1 2 + · · · + 1 n ist divergent, weil sie unbeschränkt ist. Für alle n ∈ N gilt nämlich | a 2 n − a n | = ∣ ∣ ∣ ∣ 1 + · · · + 1 2n − ( 1 + · · · + 1 n ) ∣ ∣ ∣ ∣ = 1 n + 1 + · · · + 1 2n ≥ n · 1 2n = 1 2 Der Wert der Summe erhöht sich also mindestens um 1 2 , wenn die Anzahl der Summanden verdoppelt wird. Falls K ∈ N , so ist also a n ≥ 1 + K 2 für n ≥ 2 K . Die Folge ist also unbeschränkt. Das letzte Beispiel zeigt, dass man mit unendlich vielen immer näher bei Null liegenden Werten unter Umständen dennoch eine unbeschränkte Summe erzielen kann. 5.2.4 Konvergenz im R n Die Analysis für Funktionen einer Variablen gründet auf dem Konvergenzbegrifffür reellwertige Zahlenfolgen. Entsprechendes gilt auch für Funktionen mehrerer Variablen; hierbei müssen aber Folgen (a m ) m ≥ k behandelt werden, bei denen die einzelnen Folgenglieder nicht mehr reelle Zahlen, sondern n-Tupel, d.h. Vektoren a ( m ) des R n sind. In der Anschauungsebene R 2 - und grundsätzlich auch noch im Anschauungsraum R 3 - kann man sich Folgen noch wie in Abbildung 5.2 veranschaulichen. Eine solche Punktfolge (a ( m ) ) m ≥ k wird durch die beiden Koordinatenfolgen (x m ) m ≥ k und (y m ) m ≥ k festgelegt. Besitzt die Folge (a ( m ) ) m ≥ k den Grenzwert a = (x, y) T , so bedeutet dies, dass die Koordinatenfolgen (x m ) m ≥ k bzw. (y m ) m ≥ k gegen die Koordinaten x bzw. y von a konvergieren. Diese anschauliche Vorstellung, mit der man Konvergenz von Punktfolgen im R n auf Konvergenz im R zurückführen kann, wird zum Ausgangspunkt der nun folgenden Überlegungen. Definition 5.3 ! Sei (a (m) ) m ≥ k eine (Punkt-)Folge im R n (d.h. a (m) = (a (m) 1 , . . . , a (m) n ) T ∈ R n für alle m ≥ k). Weiter seien (a (m) 1 ) m ≥ k ,. . . , (a (m) n ) m ≥ k die Koordinatenfolgen. Man sagt, (a (m) ) m ≥ k konvergiert gegen a = (a 1 , . . . , a n ) T ∈ R n (in Zeichen: lim m →∞ a (m) = a), wenn gilt: lim m →∞ a (m) 1 = a 1 , . . . , lim m →∞ a (m) n = a n . Der Vektor a heißt dann Grenzwert der Folge (a (m) ) m ≥ k . Ebenso lässt sich die Konvergenz von Folgen von Matrizen über die punktweise Konvergenz korrespondierender Einträge der Matrizen erklären. <?page no="153"?> 5.2 Konvergenz von Folgen 153 Abbildung 5.2: Illustration des Konvergenzbegriffes für Punktfolgen Beispiel 5.21 a ( m ) = ( 1 2 m +1 , m m +3 ) T . Dann lim m →∞ a m = ( lim m →∞ 1 2 m +1 , lim m →∞ m m +3 ) T = (0, 1) T . a m = (m, 1/ m) T . Da die erste Koordinatenfolge divergent ist, konvergiert (a m ) m ≥ 1 nicht. Man sagt auch in diesem Fall: (a m ) m ≥ 1 ist divergent. Viele Eigenschaften konvergenter Punktfolgen gleichen denjenigen von Zahlenfolgen. So hat eine konvergente Punktfolge (a m ) m ≥ k immer genau einen Grenzwert; ihr Konvergenzverhalten hängt nicht von ihrem Anfangsverhalten ab. Auch lassen sich einige Grenzwertsätze auf Punktfolgen übertragen. Satz 5.4 Für Punktfolgen (a (m) ) m ≥ k und (b (m) ) m ≥ k mit lim m →∞ a (m) = a, lim m →∞ b (m) = b gilt: [1] lim m →∞ (a (m) + b (m) ) = a + b und lim m →∞ 〈 a (m) , b (m) 〉 = 〈 a, b 〉 . [2] Für α ∈ R ist zusätzlich lim m →∞ (αa (m) ) = α · a Jede konvergente Punktfolge ist beschränkt: sie liegt innerhalb eines geeigneten Quaders [a 1 ; b 1 ] × · · · × [a n ; b n ]. Die Kanten des Quaders ergeben sich daraus, dass auch die Koordinatenfolgen (a m, 1 ) m ≥ k , . . . , (a m,n ) m ≥ k konvergent und daher beschränkt sind, d.h. es gibt a 1 , b 1 , . . . , a n , b n ∈ R mit a 1 ≤ a m, 1 ≤ b 1 , . . . , a n ≤ a m,n ≤ b n für alle m ≥ k. Umgekehrt kann man auch bei Punktfolgen nicht von Beschränktheit auf Konvergenz schließen. Übungen zu Abschnitt 5.2 ? 7. Prüfen Sie die nachstehenden Folgen auf Konvergenz (dabei sei t > 0): a) a n = tn 3 − 2( t − 1) n 2 +( t +1) n +4 ( t − 1) n 3 − ( t − 1) n 2 + tn − 2 b) a n = ( t 2 + t − 1) n ( t 2 +1) n +1 c) a n = nt n 8. Zeigen Sie in Beispiel 5.7 vgl. S. 146 : a) a n > b n > c n für n < 10 6 , b) (a n ) n ≥ 1 ist eine Nullfolge, c) (c n ) n ≥ 1 ist (bestimmt) divergent. 9. Welchen Grenzwert hat die implizite Folge a 1 = 1, a n +1 = 1 + 1 a n , n > 1? <?page no="154"?> 154 5 Folgen und Reihen 10. In Duropa lag die Pro-Kopf- Verschuldung im Jahr 2000 bei 20000 Duro, nach 10 Jahren war sie um 5000 Duro gestiegen. Für die Zeitpunkte t n , zu denen die Verschuldung um 5000n Duro über der von 2000 liegt, gelte (t n +1 − t n ) = 4 5 (t n − t n − 1 ). a) In welchem Jahr wird die Pro-Kopf- Verschuldung 50000 Duro übersteigen? b) Bis zu welchem Jahr spätestens muss die Steigerung der Pro-Kopf- Verschuldung gebremst worden sein? 11. Betrachten Sie die implizite Folge a 0 = 0, a 1 = 1 und a n = a n− 1 + a n− 2 2 . Leiten Sie ein explizites Bildungsgesetz für diese Folge her und bestimmen Sie, falls vorhanden, den Grenzwert. Lässt sich die Rechnung auch auf andere Startglieder a 0 = a, a 1 = b übertragen? 5.3 Summenfolgen, unendliche Reihen und Potenzreihen 5.3.1 Summenfolgen In der Ökonomie werden oftmals Vorgänge behandelt, bei denen Größen fortlaufend saldiert werden müssen, wie z.B. Kapital-, Umsatz- oder Absatzentwicklungen, Produktionszahlen oder Schadensmeldungen. Wenn sich die einzelnen zu saldierenden Größen als eine Folge (a n ) n ≥ k darstellen lassen, so ist damit die Partialsummenfolge (s n ) n ≥ k verbunden, die wie folgt dargestellt wird s n = n ∑ i = k a i : = a k + a k +1 + a k +2 + . . . + a n − 1 + a n i heißt hier Laufindex; er „durchläuft“ alle natürlichen Zahlen von k bis n, wobei die entsprechenden a i aufsummiert werden. Das Summationssymbol wird in mannigfaltigen Situationen benötigt; der Umgang damit sei anhand einiger Beispiele verdeutlicht: Beispiel 5.22 Sei a i = i. Dann ist beispielsweise ∑ 10 i =1 a i = 1 + 2 + · · · + 9 + 10 = 55 ∑ 10 i =1 a n = a n + a n + · · · + a n + a n ︸ ︷︷ ︸ 10 mal = 10a n = 10n ∑ 10 k =1 a n + k = (n + 1) + (n + 2) + · · · + (n + 10) = 10n + 55 Beispiel 5.23 (Indexverschiebung) Es ist ∑ 7 k =3 k 2 = 3 2 + 4 2 + 5 2 + 6 2 + 7 2 = 135. Ebenso ist ∑ 8 k =4 (k − 1) 2 = ∑ 7 k =3 k 2 = 135. Die beiden Summen stimmen überein. Dies wird auch als Indexverschiebung bezeichnet. Allgemein gilt für eine Folge (a n ) n ≥ k n ∑ i = k a i = n + m ∑ i = k + m a i − m falls m ∈ N 0 , n ≥ k <?page no="155"?> 5.3 Summenfolgen, unendliche Reihen und Potenzreihen 155 n = 0 1 n = 1 1 1 n = 2 1 2 1 n = 3 1 3 3 1 n = 4 1 4 6 4 1 n = 5 1 5 10 10 5 1 ... Abbildung 5.3: Binomialkoeffizienten ( n k ) im Pascal’schen Dreieck Beispiel 5.24 (Geometrische Summe) Bereits im vorletzten Abschnitt war die geometrische Summe behandelt worden n ∑ k =0 x k = 1 − x n +1 1 − x falls x = 1 und n ∈ N 0 Diese Formel ist in vielen Bereichen der Ökonomie (vor allem in der später noch behandelten Finanzmathematik) von fundamentaler Bedeutung. Sie gehört zur Klasse der so genannten Mitternachtsformeln, eine Bezeichnung, die suggerieren soll, dass man derartige Formeln zu jeder Tages- und Nachtzeit memorieren sollte. Beispiel 5.25 (Binomische Formel) Für x, y ∈ R und n ∈ N ist (x + y) n = n ∑ i =0 ( n i ) x i y n − i . Dabei ist ( n i ) : = n ! i ! ( n − i )! der Binomialkoeffizient und n! = 1 · 2 · · · n wird als Fakultät von n bezeichnet. Die Binomialkoeffizienten lassen sich in Form des Pascal’schen Dreiecks gemäß Abbildung 5.3 darstellen. Je zwei nebeneinander liegende Zahlen summieren sich zur darunter liegenden Zahl, d.h. ( n k ) + ( n k +1 ) = ( n +1 k +1 ) . Eine zur binomischen Formel verwandte Formel ist x n − y n = (x − y) n − 1 ∑ i =0 x i y n − 1 − i . Häufig vorkommende Summenfolgen sind die Potenzsummen. Ein Steckbriefansatz zu deren Berechnung ist in [ Terveer/ Terveer , 2011], Kapitel 8.2, beschrieben. Zumindest die ersten drei Potenzsummen sollte man aber kennen: Satz 5.5 Für alle n ∈ N gilt: n ∑ j=1 j = n(n+1) 2 , n ∑ j=1 j 2 = n(n+1)(2n+1) 6 , n ∑ j=1 j 3 = n 2 (n+1) 2 4 . Sie erkennen, dass Potenzsummen sich zu Polynomfolgen vereinfachen, d.h. der Folgenterm ein Polynom in n ist. Von der Summenfolge kommt man auf die einzelnen Summanden zurück durch Differenzenbildung; es gilt a n = Δs n : = s n − s n − 1 . Auch dieser Prozess ist bei der Analyse von ökonomischen Daten von Bedeutung. Beispielsweise werden Umsatzentwicklungen durch fortgesetzte Differenzenbildung so lange umgeformt, bis die entstehende Folge - näherungsweise - konstante Glieder hat. Ist hierzu eine k-malige Differenzenbildung erforderlich, so hat die Ausgangsfolge polynomiales Wachstum in der Größenordnung eines Polynoms k-ten Grades. Da sich durch Polynome geeignet hohen Grades viele zeitliche ökonomische Phänomene zumindest näherungsweise erklären lassen, spielt dies in der so genannten Zeitreihenanalyse ökonomischer Daten eine wichtige Rolle. <?page no="156"?> 156 5 Folgen und Reihen 5.3.2 Unendliche Reihen Als rechnerischer Idealfall wird oft die Anzahl der Summanden einer endlichen Summe beliebig erhöht, so etwa bei Rückzahlungen aus einmaligen Investitionen. Solche Summen mit unendlich vielen Summanden erfasst man mathematisch durch Grenzwerte von Partialsummenfolgen. Definition 5.4 (Unendliche Reihen) ! Sei (a n ) n ≥ m eine Zahlenfolge, s n : = n ∑ k=m a k für n ≥ m. Falls (s n ) n ≥ m konvergiert und den Grenzwert s = lim n →∞ s n hat, so sagt man: Die Reihe ∞ ∑ k=m a k (bzw. ∑ k ≥ m a k ) konvergiert und hat den Grenzwert s. In Zeichen: ∞ ∑ k=m a k = s Andernfalls sagt man: Die Reihe divergiert. Neben der Verwendung des Summensymbols für endliche Summen lässt sich dieses also auch verwenden, wenn die Anzahl der Summanden gegen unendlich strebt. Der Wert s = ∑ ∞ n = m a n steht bei einer Folge (a n ) n ≥ m also einerseits für die Partialsummenfolge, andererseits für deren Grenzwert. Gleichzeitig wird so präzisiert, was man unter der Summe „aller“ Folgenglieder versteht. Wenn man geeignete Vorsichtsmaßnahmen ergreift und Umformungen vermeidet, die konvergente in divergente Reihen überführen, kann man mit unendlichen Reihen ähnlich rechnen wie mit endlichen Summen. Die Grenzwerte mancher Reihen lassen sich explizit berechnen. Bei anderen Reihen ist dies nicht möglich, vielmehr werden sie angenähert durch Summation einer geeignet hohen Anzahl ihrer Glieder. Wie bei Folgen ist aber stets der Konvergenznachweis nötig. Beispiel 5.26 (Geometrische Reihe) ∑ ∞ k =0 p k ist divergent für | p | > 1 und hat den Grenzwert 1 1 − p für | p | < 1. Für p = 1 ergibt nämlich die geometrische Summenformel vgl. Satz 5.1, S. 142 ∑ n k =0 p k = 1 − p n +1 1 − p . Aufgrund der Konvergenzeigenschaften der geometrischen Folge konvergiert die geometrische Reihe also für | p | < 1 und divergiert für | p | > 1. Im Falle p = 1 ergibt sich die divergente Folge ∑ n k =0 p k = n + 1, für p = − 1 hingegen die alternierende divergente Folge ∑ n k =0 p k = ( − 1) n +1 2 . Beispiel 5.27 Die allgemeinen harmonischen Reihen sind von der Form ∑ ∞ k =1 1 k a mit a > 0. Zwei Spezialfälle wurden bereits behandelt: So ist ∑ ∞ k =1 1 k divergent, denn die Partialsummen bilden eine unbeschränkte Folge vgl. Beispiel 5.20, S. 152 . Hingegen ist ∑ ∞ k =1 1 k 2 = π 2 6 vgl. Beispiel 5.18, S. 151 . Es lässt sich zeigen, dass die harmonischen Reihen für a ≤ 1 divergent, für a > 1 hingegen konvergent sind [ Forster , 2011], [ Heuser , 2009]. Da Reihen nichts anderes als spezielle Summenfolgen sind, kann ihr Konvergenzverhalten grundsätzlich auf dem gleichen Wege wie bei allgemeinen Folgen untersucht werden. Insbesondere die Grenzwertsätze sind z.T. leicht auf den Reihen-Fall übertragbar. Satz 5.6 Seien (a n ) n ≥ m , (b n ) n ≥ m Folgen mit konvergenten Reihen ∞ ∑ k=m a k , ∞ ∑ k=m b k . Dann gilt: [1] ∞ ∑ k=m (a k + b k ) = ∞ ∑ k=m a k + ∞ ∑ k=m b k [2] ∞ ∑ k=m (ca k ) = c ∞ ∑ k=m a k für c ∈ R . <?page no="157"?> 5.3 Summenfolgen, unendliche Reihen und Potenzreihen 157 Die Multiplikation konvergenter Reihen ist nicht so einfach handhabbar. Beispiel 5.28 Die Reihen ∑ ∞ k =0 (1/ 2) k und ∑ ∞ k =0 b k , wobei b k = { 1 0 falls k = 0 k > 0 , haben die Werte ∑ ∞ k =0 a k = 2 und ∑ ∞ k =0 b k = b 0 = 1, d.h. ∑ ∞ k =0 a k ∑ ∞ k =0 b k = 2. Allerdings ist für diese speziellen Folgen ∑ ∞ k =0 (a k b k ) = 1. Also ist allgemein ∑ ∞ k =0 (a k b k ) = ∑ ∞ k =0 a k · ∑ ∞ k =0 b k . Das Produkt auf der rechten Seite ist vielmehr durch das Produkt zweier endlicher Doppelsummen anzunähern. Nach Auflösen der Klammern erkennt man, dass die Summe auf der linken Seite bei weitem nicht alle auftretenden Summanden auf der rechten Seite erfasst. Korrekt werden konvergente Reihen unter Verwendung des so genannten Cauchy-Produktes ( ∑ ∞ k =0 a k ) ( ∑ ∞ k =0 b k ) = ∑ ∞ k =0 ( ∑ k n =0 a n b k − n ) multipliziert [ Forster , 2011]. Wie für allgemeine Folgen (a n ) n ≥ m , gibt es auch für Reihen Konvergenzkriterien. Satz 5.7 (Majorantenkriterium) Es sei ∞ ∑ k=m b k eine konvergente Reihe und es gelte b n ≥ 0 für alle n ≥ m. Dann gilt: Falls | a k | ≤ b k für alle k ≥ m, so konvergiert auch ∞ ∑ k=m a k . Beispiel 5.29 ∑ ∞ n =1 1 n · ( 1 2 ) n ist konvergent. Die Begründung erfolgt mit dem Majorantenkriterium, denn ∣ ∣ 1 n ( 1 2 ) n ∣ ∣ ≤ ( 1 2 ) n für alle n ≥ 1 und ∑ ∞ n =1 ( 1 2 ) n ist konvergent (geometrische Reihe). Also ist nach dem Majorantenkriterium auch die betrachtete Reihe konvergent. Beispiel 5.30 ∑ ∞ n =1 1 n α ist konvergent für jedes α ≥ 2. Die Konvergenz für α = 2 wurde bereits gezeigt. Falls α > 2, so gilt n α ≥ n 2 , d.h. 1 n α ≤ 1 n 2 für alle n ≥ 1. Also folgt aus der Konvergenz von ∑ ∞ n =1 1 n 2 mit dem Majorantenkriterium die Konvergenz von ∑ ∞ n =1 1 n α . Satz 5.8 (Quotientenkriterium) Es gelte a k = 0 für alle k ≥ m. Weiter gebe es eine Zahl m 0 ≥ m, ein q ∈ ]0; 1[ mit | a k+1 a k | ≤ q für alle k ≥ m 0 . Dann ist ∞ ∑ k=m a k konvergent. Das folgt aus dem Majorantenkriterium mit ∑ ∞ k=0 q k als Vergleichsreihe. Beispiel 5.31 ∑ ∞ n =1 n · ( 1 2 ) n ist konvergent. Es gilt nämlich a n = n · ( 1 2 ) n > 0 für alle n ∈ N . Daher ist | a n +1 a n | = n +1 n · 1 2 ≤ 3 4 < 1 für n ≥ 2; das Quotientenkriterium ist mit q = 3 4 erfüllt. 5.3.3 Potenzreihen Potenzreihen sind Reihen der Form ∑ ∞ k =0 a k x k mit vorgegebener Folge (a k ) k ≥ 0 , in denen noch eine Unbekannte x auftritt. Deshalb kann man sie als Funktion dieser Variablen x auffassen. Die Verwendung von Potenzreihen ermöglicht für viele bekannte <?page no="158"?> 158 5 Folgen und Reihen Funktion Reihe allgemeines Glied Index konvergent für exp(x) 1 + x + x 2 2 + x 3 6 + · · · x n / n! n ≥ 0 x ∈ R log(1 + x) x − x 2 2 + x 3 3 ∓ · · · ( − 1) n +1 · x n / n n ≥ 1 − 1 < x ≤ 1 sin(x) x − x 3 6 + x 5 120 ∓ · · · ( − 1) n · x 2 n +1 / (2n + 1)! n ≥ 1 x ∈ R cos(x) 1 − x 2 2 + x 4 24 ∓ · · · ( − 1) n · x 2 n / (2n)! n ≥ 0 x ∈ R arctan(x) x − x 3 3 + x 5 5 ∓ · · · ( − 1) n · x 2 n +1 / (2n + 1) n ≥ 0 − 1 ≤ x ≤ 1 arcsin(x) x + 1 2 x 3 3 + 1 · 3 2 · 4 x 5 5 + · · · 1 · 3 ··· (2 n − 1) 2 · 4 ··· (2 n ) · x 2 n +1 / (2n + 1) n ≥ 0 − 1 ≤ x ≤ 1 sinh(x) x + x 3 6 + x 5 120 + · · · x 2 n +1 / (2n + 1)! n ≥ 1 x ∈ R cosh(x) 1 + x 2 2 + x 4 24 + · · · x 2 n / (2n)! n ≥ 0 x ∈ R Tabelle 5.2: Wichtige Potenzreihen und ökonomisch relevante Funktionen erst die numerische Auswertung dieser Funktionen (etwa mittels Taschenrechner oder Bibliotheksfunktion einer Programmiersprache). Zur numerischen Ausnutzung einer Potenzreihe ist allerdings die Gesamtheit D ⊆ R aller x ∈ R , für welche diese Reihe konvergiert, zu ermitteln. Beispiel 5.32 Polynomfunktionen: Wenn in der Zahlenfolge (a k ) k ≥ 0 die Glieder a n +1 , a n +2 , . . . alle = 0 sind, so wird die Reihe zum Polynom a 0 + a 1 x + a 2 x 2 + · · · + a n x n in x. Spezialfälle sind affin lineare (n = 1) und quadratische (n = 2) Funktionen. Geometrische Reihe: ∞ ∑ k =0 x k = 1 1 − x für alle | x | < 1 (divergent für | x | ≥ 1). Exponentialfunktion: ∞ ∑ k =0 x k k ! = exp(x) = e x für alle x ∈ R . Sie konvergiert für alle x ∈ R nach dem Quotientenkriterium; es gilt nämlich für alle k ≥ 2x − 1 die Abschätzung | x | k +1 ( k +1)! / | x | k k ! = | x | k +1 ≤ 1 2 < 1. Die Funktionalgleichung e x + y = e x e y kann man mit dem Cauchy-Produkt sehen (wobei im letzten Schritt die binomische Formel ausgenutzt wird) ∞ ∑ k =0 x k k ! ∞ ∑ k =0 y k k ! = ∞ ∑ k =0 k ∑ n =0 x n n ! y k−n ( k − n )! = ∞ ∑ k =0 1 k ! k ∑ n =0 ( k n ) x n y k − n = ∞ ∑ k =0 1 k ! (x + y) k Trigonometrische Funktionen: cos(x) = ∞ ∑ k =0 ( − 1) k x 2 k (2 k )! und sin(x) = ∞ ∑ k =0 ( − 1) k x 2 k +1 (2 k +1)! für alle x ∈ R . Tabelle 5.2 gibt weitere Beispiele. Eine Potenzreihe ∑ ∞ k =0 a k x k ist für x konvergent, wenn die Summanden bei marginaler Vergrößerung eine beschränkte Folge sind. Satz 5.9 (Konvergenzkriterium für Potenzreihen) Sei ∑ ∞ k=0 a k x k eine Potenzreihe und x 0 = 0 eine Zahl, für die ( | a k x k 0 | ) k ≥ 0 beschränkt ist. Dann konvergiert ∑ ∞ k=0 a k x k schon für alle x ∈ ] − | x 0 | ; | x 0 | [. Denn die Summanden in der Form a k x k = (a k x k 0 ) · (x/ x 0 ) k können als Produkt der beschränkten Folge a k x k 0 und der konvergenten geometrischen Folge (x/ x 0 ) k geschrieben werden. <?page no="159"?> 5.3 Summenfolgen, unendliche Reihen und Potenzreihen 159 Beispiel 5.33 (Exponentialreihe ∑ ∞ k=0 x k k! ) Für jedes x 0 > 0 gibt es ein n ∈ N mit n > x 0 . Dann ist für k > n x k 0 k! = x n 0 n! · x 0 n + 1 · x 0 n + 2 · · · · · x 0 k ≤ x n 0 n! Die letzte Ungleichung folgt, weil die hinteren k − n Faktoren alle kleiner oder gleich Eins sind. Also ist die Summandenfolge für jedes x 0 > 0 beschränkt; die Exponentialreihe konvergiert für alle x ∈ ] − x 0 ; x 0 [. Damit konvergiert die Reihe für alle x ∈ R . Wie speziell Polynome, so stellen auch beliebige konvergente Potenzreihen f(x) = ∑ ∞ k =0 a k x k in der Variable x differenzierbare Funktionen dar. Ihre Ableitung bekommt man wie bei Polynomen durch gliedweises Ableiten: Satz 5.10 Ist f(x) = ∑ ∞ k=0 a k x k für x 0 > 0 eine in ] − x 0 ; x 0 [ konvergente Potenzreihe, so ist f auf ] − x 0 ; x 0 [ differenzierbar und für alle x ∈ ] − x 0 ; x 0 [ gilt f ′ (x) = ∑ ∞ k=0 ka k x k − 1 Mit dieser Regel folgen z.B. aus bekannten Potenzreihen weitere Summenformeln: Beispiel 5.34 Die geometrische Reihe f(x) = ∑ k =0 x k ist konvergent für x ∈ ] − 1; 1[. Dort gilt dann f ′ (x) = ∑ ∞ k =1 kx k − 1 . Andererseits hat f nach dem bekannten Ableitungskalkül für Funktionen einer Variablen die Ableitung f ′ (x) = 1 (1 − x ) 2 . Beide Ableitungen müssen also übereinstimmen und das ergibt die Formel ∑ ∞ k =1 kx k − 1 = 1 (1 − x ) 2 für | x | < 1. Auch einige Ableitungsregeln lassen sich mit Potenzreihen schnell herleiten. Beispiel 5.35 Für die Exponentialreihe f(x) = e x = ∑ ∞ k =0 x k / k! lautet die Ableitung f ′ (x) = ∞ ∑ k =1 kx k − 1 / k! = ∞ ∑ k =1 x k − 1 / (k − 1)! denn k! = k(k − 1)! für k ≥ 1. Es ergibt sich wieder die Exponentialreihe - es liegt lediglich eine Indexverschiebung vor. Es gilt also f ′ (x) = f(x) = e x . Für die Sinusfunktion f(x) = sin(x) = ∑ ∞ k =1 x 2 k +1 / (2k + 1)! berechnet sich die Ableitung durch gliedweises Differenzieren zu f ′ (x) = ∞ ∑ k =0 ( − 1) k (2k + 1)x 2 k / (2k + 1)! = ∞ ∑ k =0 ( − 1) k x 2 k / (2k)! = cos(x) Endsprechend gilt dann auch, dass − sin(x) Ableitung von cos(x) ist. 5.3.4 Erzeugende Funktionen Mit den Potenzreihen schließt sich der in diesem Kapitel angefangene Kreis, denn mit ihnen lassen sich implizit dargestellte Folgen oft in eine explizite Form überführen. <?page no="160"?> 160 5 Folgen und Reihen Definition 5.5 ! Die erzeugende Funktion der Folge (p n ) n ≥ 0 ist die Potenzreihe f(x) = ∑ ∞ n=0 p n x n Eine implizite Folge p n kann man oft wie folgt in eine explizite Form überführen: Expliziter Folgenterm mittels erzeugender Funktion [1] Stelle die erzeugende Funktion zur Folge p n schematisch auf. [2] Setze das implizite Bildungsgesetz in der erzeugenden Funktion für p n ein. [3] Leite hieraus eine (implizite) Bestimmungsgleichung für f(x) her. [4] Löse die Gleichung nach f(x) auf. [5] Schreibe den gewonnenen Ausdruck wieder als Potenzreihe ∑ a n x n . [6] Die Koeffizienten a n stellen explizite Folgenterme der impliziten Folge p n dar. Schritt [6] liegt folgender Sachverhalt über den Vergleich von Potenzreihen zugrunde: Satz 5.11 (Identitätssatz, Koeffizientenvergleich bei Potenzreihen) Zwei für x 0 > 0 konvergente Potenzreihen ∑ a k x k und ∑ b k x k stellen genau dann dieselbe Funktion f(x) dar, wenn a k = b k für alle k ∈ N 0 . Ob die Potenzreihe tatsächlich konvergent ist, wird erst bei dem abschließenden Entwicklungsschritt klar. Alle vorangehenden Schritte erfolgen unter diesem Vorbehalt. Beispiel 5.36 (Fortsetzung von Beispiel 5.5 vgl. S. 143 ) Die Rekursion p n = a + bp n − 1 wurde bereits durch sukzessives Einsetzen gelöst. Nach Methode der erzeugenden Funktion ergibt sich f(x) = p 0 + a x 1 − x + bxf(x), denn f(x) = ∞ ∑ n =0 p n x n = p 0 + ∞ ∑ n =1 p n x n = p 0 + ∞ ∑ n =1 (a + bp n − 1 )x n = p 0 + ax ∞ ∑ n =1 x n − 1 + bx ∞ ∑ n =1 p n − 1 x n − 1 = p 0 + ax ∞ ∑ n =0 x n + bx ∞ ∑ n =0 p n x n also f(x) = p 0 + a x 1 − x + bxf(x). Löst man die Gleichung nach f(x) auf, so folgt f(x) = p 0 1 − bx + ax (1 − x) (1 − bx) = p 0 1 − bx + a 1 − b · 1 1 − x − a 1 − b · 1 1 − bx (Partialbruchzerlegung) = ∞ ∑ n =0 p 0 b n x n + ∞ ∑ n =0 a 1 − b x n − ∞ ∑ n =0 a 1 − b b n x n = ∞ ∑ n =0 (p 0 b n + a 1 − b − ab n 1 − b )x n Die Koeffizienten p 0 b n + a 1 − b − ab n 1 − b der Potenzreihe stimmen - nach Umstellung - mit dem Ergebnis aus Beispiel 5.5 überein. <?page no="161"?> 5.4 Gleichgewichte bei Marktpreisen 161 Übungen zu Abschnitt 5.3 ? 12. Berechnen Sie die folgenden Reihen und geben Sie auch an, für welche Werte von x die Reihen konvergieren (Hinweis: Rückführung auf die geometrische Reihe): a) 1 x + 1 x 2 + ... b) x + √ x + 1 + 1 √ x + ... c) ∑ ∞ n =1 x 2 n d) 1 + 1 1+ x + 1 (1+ x ) 2 + ... 13. In der Weihnachts-Manufaktur am Nordpol werden für Holzspielzeug ( vgl. S. 283 ) Weihnachtsbäume, Modell Pythagoras, gezogen. Links sehen Sie (vergrößert) einen „Sämling“, in der Mitte einen gerade „pikierten“ Baum und rechts einen fast ausgewachsenen Pythagorasbaum. Seine Höhe entspricht der Summe der Quadratseiten, die den Stamm des Baumes bilden (die Dreiecke werden dabei „ignoriert“). Beim rechten Baum sind die ersten „Stamm-Quadrate“ 20 und 18 cm lang. a) Wie „hoch“ ist der rechte Baum? b) Wie „hoch“ könnte der rechte Pythagorasbaum noch werden, wenn man ihn beliebig lange wachsen ließe? 14. Berechnen Sie die Ableitungen der folgenden Funktionen anhand ihrer Potenzreihendarstellung in Tabelle 5.2 vgl. S. 158 : a) f(x) = cos(x) b) f(x) = ln(1 + x) c) f(x) = arctan(x) 15. Bestimmen Sie zu der Folge in Aufgabe 11 vgl. S. 154 , d.h. a 0 = 0, a 1 = 1 und a n = a n− 1 + a n− 2 2 das explizite Bildungsgesetz mittels erzeugender Funktionen. 5.4 Gleichgewichte bei Marktpreisen Märkte jeglicher Art definieren sich durch die Bereitschaft von Verkäufern bzw. Produzenten, Produkte zum Verkauf bereit zu stellen und die Bereitschaft von Käufern bzw. Konsumenten, diese Produkte zu erwerben. Jeder der Marktteilnehmer zeigt dabei eine spezifische Preisbereitschaft: Ein Produzent wird sein Produkt in aller Regel mindestens zu dem Preis anbieten wollen, durch den er seine variablen Herstellungskosten ausgleichen kann. Für den Konsumenten spielen abhängig vom Produkt verschiedene Faktoren wie Kaufkraft oder Nutzen des Produktes eine Rolle. Seine Zahlungsbereitschaft kann dabei durch verschiedene statistische Methoden erfasst werden. Wie sich unter diesen Gegebenheiten der Preis eines Produktes entwickeln kann, ist ein Gegenstand der Untersuchung von Gleichgewichtspreisen. Man nimmt an, dass zu Beginn des Untersuchungszeitraums jeder Anbieter für sich einen von ihm minimal geforderten Preis für das Produkt festlegt, während jeder Konsument sich seinen maximal zu zahlenden Preis überlegt. Der Untersuchungszeitraum ist nun in sukzessive Handelsperioden aufgeteilt: Der Einfachheit halber kann während einer Periode jeder Anbieter eine Einheit des Produktes anbieten, während jeder Konsument eine Einheit erwerben kann. Ob Verkauf bzw. Kauf innerhalb einer Periode zustande kommt, hängt vom Marktpreis des Produktes ab, der zu Beginn einer Periode feststeht: <?page no="162"?> 162 5 Folgen und Reihen Preisbereitschaft Konsumenten Produzenten 11 12 19 20 14 38 20 23 48 62 24 29 67 67 32 41 72 73 43 50 75 76 53 70 81 82 77 80 93 93 93 93 94 96 94 95 97 97 99 100 p 72. p 72. p 38. 0 5 10 15 20 0 20 40 60 80 100 Gehandelte Stückzahl x Stückpreis p Abbildung 5.4: Angebot und Nachfrage in Beispiel 5.37 Anhand des Preises bieten nur diejenigen Produzenten das Produkt an, deren Preisbereitschaft unterhalb des Marktpreises liegt. Dies setzt voraus, dass die Produzenten auf den Marktpreis kurzfristig innerhalb einer Periode reagieren. Unter Berücksichtigung dieser Angebotsmenge kommen genau die Konsumenten mit der höchsten Zahlungsbereitschaft zum Zuge. Es wird also angenommen, dass sich Vertragsabschlüsse durch einen Vorgang vergleichbar einer Auktion ergeben. Der geringste tatsächlich gezahlte Preis wird zum Marktpreis der nächsten Periode. Beispiel 5.37 Für ein Produkt bestehen innerhalb einer Handelsperiode die in Abbildung 5.4 links darstellten Preisbereitschaften. Der Zusammenhang zwischen Stückpreis und insgesamt nachgefragter bzw. angebotener Menge ist in Abbildung 5.4 rechts grafisch dargestellt. Die Preisbereitschaft der Anbieter liest man darin als wachsende, die der Kunden als fallende Folge von Säulen. Nehmen Sie an, dass zu Beginn der ersten Handelsperiode ein Marktpreis von p 0 = 38 Geldeinheiten feststeht; dann ist eine prinzipielle Nachfrage von d 0 = 17 Stück vorhanden, denn gemäß der Tabelle würden 17 Kunden diesen oder einen höheren Preis zahlen. Gleichzeitig wären aber nur 7 Produzenten bereit, das Produkt zu diesem Preis zu verkaufen, d.h. es werden a 1 = 7 Stücke des Produktes angeboten. Das Angebot ist also knapp, deshalb wird angenommen, dass nur die 7 Kunden mit der höchsten Zahlungsbereitschaft oberhalb von 38 Geldeinheiten das Produkt erwerben werden. Das sind die Kunden mit einer Zahlungsbereitschaft von mindestens p 1 = 82 Geldeinheiten. p 1 = 82 ist gleichzeitig der Marktpreis der zweiten Periode, in welcher nun a 2 = 14 Stück angeboten werden. Damit kommen die Kunden mit den 14 höchsten Preisbereitschaften zum Zuge, so dass der mindestens am Markt gezahlte Preis nun p 2 = 67 Geldeinheiten beträgt. In der dritten Periode werden daher a 3 = 11 Stücke des Produktes angeboten, der mindestens gezahlte Preis für den Absatz dieser Menge beträgt p 3 = 73. Zu diesem Preis bieten die Produzenten in der vierten Periode a 4 = 12 Stücke an, welche genau von den Kunden ab einer Zahlungsbereitschaft von p 4 = 72 Geldeinheiten erworben werden. Ab Periode 5 ändern sich Angebot und Nachfrage nicht mehr, es hat sich das Marktgleichgewicht p ∗ = 72 eingestellt. Die in Abbildung 5.4 oberhalb des Marktgleichgewichts grau schraffierte Fläche stellt die gesamte Ersparnis der zum Zuge gekommenen Konsumenten dar, die ja bereit gewesen sind, einen höheren als den Marktpreis zu zahlen. Die unterhalb der Gleichgewichtslinie dargestellt graue <?page no="163"?> 5.4 Gleichgewichte bei Marktpreisen 163 0 1 2 3 4 x 2 4 6 8 10 p 0 1 2 3 4 x 2 4 6 8 10 p 0 1 2 3 4 x 2 4 6 8 10 p A 1 (x) = 2 + 3x A 2 (x) = 2 + 2x A 3 (x) = 2 + 3 2 x d n = 5 − 1 2 p n d n = 5 − 1 2 p n d n = 5 − 1 2 p n a n +1 = − 2 3 + 1 3 p n a n +1 = − 1 + 1 2 p n a n +1 = − 4 3 + 2 3 p n Abbildung 5.5: Stabilisierung und Destabilisierung im linearen Spinnweb-Modell mit D(x) = 10 − 2x, p 0 = 4 Fläche stellt den über den variablen Kosten der zum Zuge gekommenen Produzenten befindlichen Ertrag, d.h. den gesamten Deckungsbeitrag der Produzenten dar. Die Punkte (d 0 , p 0 ) = (17, 38), (a 1 , p 0 ) = (7, 38), (d 1 , p 1 ) = (7, 82) und (a 2 , p 1 ) = (14, 82) = (d 2 , p 2 ) = · · · , welche die Entwicklung von Marktumfang und Preis im konkreten Fall beschreiben, liegen auf einem spiralförmigen Linienzug ähnlich dem Webmuster eines Spinnennetzes vgl. Abbildung 5.4 . Daher spricht man auch von einem Spinnweb-Modell. Die Preisentwicklung kann durch eine Folge (p n ) n ≥ 0 beschrieben werden. Sie steht mit den Folgen (a n ) n ≥ 1 der angebotenen und (d n ) n ≥ 1 der nachgefragten Mengen über das Gleichgewicht von Angebot und Nachfrage in folgendem Zusammenhang: Der Nachfragepreis D(x) zu einer auf dem Markt gehandelten Menge x ist derjenige Preis, den ein Konsument mindestens zahlen muss, um im „Wettbewerb“ mit den anderen Konsumenten nicht leer auszugehen. Der Angebotspreis A(x) ist derjenige Preis, zu dem genau die Menge x des Produktes angeboten wird. In Beispiel 5.37 sind A(x) und D(x) als stückweise konstante monoton wachsende bzw. fallende Funktionen aus den Preisbereitschaften von Anbieter und Konsumenten bestimmt und in Abbildung 5.4 dargestellt. Am Markt bestimmen sich p n , d n und a n aus der Gleichgewichtsbedingung a n = d n und den Rekursionen p n = A(a n +1 ) und p n = D(d n ). Allgemeiner nimmt man für Angebot und Nachfrage kontinuierliche, im einfachsten Fall lineare D(x) = α + βx und A(x) = γ + δx mit α, γ, δ > 0, β < 0 an. Dann ist p n = α + βd n ⇔ d n = p n β − α β , p n − 1 = γ + δa n ⇔ a n = p n− 1 δ − γ δ . Aus dem Gleichgewicht a n = d n („Angebot=Nachfrage“) ergibt sich durch Einsetzen der Terme für a n und d n sowie Auflösen nach p n die Rekursion p n = αδ − βγ δ + β δ p n − 1 . Aufgrund von Beispiel 5.5 vgl. S. 143 ist p n = αδ − βγ δ 1 − β δ + (p 0 − ( αδ − βγ δ 1 − β δ )( β δ ) n = αδ − βγ δ − β + (p 0 − αδ − βγ δ − β )( β δ ) n Für | β δ | < 1 konvergiert der Ausdruck gegen den Gleichgewichtspreis αδ − βγ β . Im Falle | β δ | ≥ 1 divergiert die Folge der Preise, nur für p 0 = αδ − βγ β ist sie konstant. <?page no="164"?> 164 5 Folgen und Reihen Beispiel 5.38 Für D(x) = 10 − 2x werden die drei Angebotsgeraden A 1 (x) = 2 + 3x, A 2 (x) = 2 + 2x und A 3 (x) = 2 + 3 2 x betrachtet. Zum Eröffnungspreis p 0 = 4 ist die Preisentwicklung angegeben in Abbildung 5.5 von links nach rechts skizziert (links stabilisierender, Mitte oszillierender, rechts explodierender Preisverlauf). Für ein stabiles Gleichgewicht (links) muss die Angebotskurve steiler als die Nachfragekurve sein, d.h. Konsumenten reagieren stärker auf Preisänderungen als Produzenten. Der Gleichgewichtspreis links ergibt sich als Schnittpunkt von Angebots- und Nachfragegerade (Break-Even- Preis). Der Schnittpunkt hat bei den Angebotskurven A 2 und A 3 keine Bedeutung als Marktgleichgewicht, es sei denn, er liegt als Eröffnungspreis vor. Übungen zu Abschnitt 5.4 ? 16. Ein Markt folge dem Spinnwebmodell mit den skizzierten Funktionen. a) Bestimmen Sie p 1 , . . . , p 4 für p 0 = 5. b) Leiten Sie eine explizite Form für die Preisentwicklung (p n ) n ∈N 0 her. c) Welchen Grenzwert hat die Folge? . 5.5 Finanzmathematische Folgen und Reihen Wo immer in der Ökonomie Kapital betrachtet wird, liegt den Überlegungen meist zugrunde, dass vorhandenes Kapital die Möglichkeit eines Zinsertrages bietet. Auch geliehenes Kapital ist unter Zinsaspekten zu betrachten, da der Darlehensgeber die Vergabe des Darlehens an eine periodische Zins-Gebühr koppelt. Die Entwicklung solcher Kapitalbeträge wird anhand exemplarischer Fragestellungen der Zinseszinsrechnung, Rentenrechnung und Tilgungsrechnung besprochen. Für eine genauere Behandlung der Finanzmathematik sei auf die Literatur verwiesen [ Kruschwitz , 2010]. Wir betrachten hier die Entwicklung eines Startkapitals K 0 > 0 durch Zins- und Einzahlungsbzw. Auszahlungseffekte über n gleichartige Perioden. Das Kapital K n am Ende von Periode n erhöht oder erniedrigt sich gegenüber dem Kapital K n − 1 am Ende der Vorperiode um die in Periode n berechneten Zinsen z n , und die Einbzw. Auszahlungen r n , d.h. K n = K n − 1 + z n + r n . Wir beschränken uns auf die nachschüssige Rechnung: Mit einem Zinsfuß p n in Periode n betragen die Zinsen je z n = K n − 1 p n 100 Der Zinsfuß soll über den gesamten Berechnungszeitraum stets denselben Wert p = 0 haben und auch die Einbzw. Auszahlungen betragen in jeder Periode stets den gleichen Wert r ∈ R . Damit lautet die implizite Formel für die Kapitalentwicklung K n = qK n − 1 + r mit Zinsfaktor q = 1 + p 100 . Nach Beispiel 5.5 vgl. S. 143 lautet die Lösung: Kapitalentwicklung unter Verzinsung Das Kapital K n nach n nachschüssig verzinsten Perioden bei Startkapital K 0 mit konstanter Einbzw. Auszahlung r und konstantem Zinsfaktor q = 1 beträgt K n = K 0 q n + r · q n − 1 q − 1 <?page no="165"?> 5.5 Finanzmathematische Folgen und Reihen 165 Diese Grundformel taucht in verschiedenen Gebieten der Finanzmathematik auf, von denen hier drei exemplarisch angesprochen werden sollen. 5.5.1 Zinseszinsrechnung Im Fall r = 0 (keine Einbzw. Auszahlung) wird in jeder Periode das Kapital verzinst und die Zinsen dem Kapital zugeschlagen, so dass sie in der nächsten Periode mitverzinst werden. Die Grundformel für das Kapital nach n Jahren lautet K n = K 0 (1 + p 100 ) n Bei unterjähriger Rechnung wird das Jahr in m gleich lange Zeitintervalle unterteilt, in denen der Zinsfuß p m = p m zur Berechnungsgrundlage der Zinsen wird. Gemäß Grundformel mit m Zinsperioden und Zinsfuß p m beträgt das Kapital nach einem Jahr K m = K 0 (1 + 1 m p 100 ) m Bei unterjähriger Rechnung erhöht sich der Kapitalertrag gegenüber einmaliger jährlicher Verzinsung, denn es wird jeweils ein m-ter Anteil des Kapital einmal, ein weiterer zweimal usw. verzinst, was einen höheren Zinsertrag am Ende des Jahres mit sich bringt. Verkleinert man die Zinsperioden immer weiter, so liegt ein Grenzübergang vor. Im Idealfall, der stetigen Verzinsung, beträgt das Kapital nach einem Jahr K = lim m →∞ K m = K 0 lim m →∞ (1 + 1 m p 100 ) m = K 0 · e p 100 wobei e = 2, 7182818 . . . = exp(1) = 1+1+ 1 2 + 1 6 + 1 24 + · · · die bereits oben vorgestellte Euler’sche Zahl ist. Es ist also - im Fall von Habenzinsen - rechentechnisch günstig, möglichst kleinteilig unterjährig zu verzinsen. Die Euler’sche Zahl liefert eine Obergrenze für den erzielbaren Kapitalbetrag: Bei einem Zinsfuß von 100% würde das Kapital maximal auf das etwa 2, 718-fache des Betrages zu Anfang des Jahres anwachsen. Beispiel 5.39 Ein Kapital von 2.000.000 e wird bei einem Jahreszinssatz von 3% angelegt. Es wird eine vierteljährliche Verzinsung angenommen. Damit beträgt das Kapital nach einem Jahr K 0 · (1 + 0, 03/ 4) 4 = 2.000.000 · 1, 0075 4 ≈ 2.060678, 38 e . Als Obergrenze der unterjährigen Verzinsung ergibt sich K 0 · e 0 , 03 = 2.000.000 · 1, 030034 = 2.060.909, 68 e Will man mit einmaliger Verzinsung dasselbe Ergebnis wie mit der stetigen Verzinsung erzielen, so muss man das Kapital zum Zinsatz e 0 , 03 − 1 ≈ 3, 045% verzinsen. Allgemeiner gilt lim n →∞ ( 1 + x n ) n = e x für alle x ∈ R . Dies folgt mit Einschachtelungsprinzip vgl. S. 147 und der Ungleichung e t ≥ 1 + t [ Terveer/ Terveer , 2011], für t = x n und t = − x x+n mit n > − x: e x n ≥ 1 + x n ⇔ e x ≥ ( 1 + x n ) n und e − x n + x ≥ 1 − x n + x ⇔ e x ≤ ( 1 + x n ) n+x also gilt die Einschachtelung e x ≥ ( 1 + x n ) n ≥ e x ( n+x n ) − x , woraus die Aussage folgt. <?page no="166"?> 166 5 Folgen und Reihen 5.5.2 Rentenrechnung In der Rentenrechnung wird ein gegebenes Kapital K 0 durch periodisch anfallende Auszahlungen r < 0 verringert. Gleichzeitig wird das Restkapital wieder zum Zinsfuß p verzinst. Wieder ergibt sich das Kapital nach n Perioden zu K n = K 0 q n + r q n − 1 q − 1 Meist soll das Kapital K 0 in der n-ten Auszahlungsperiode aufgebraucht sein, wobei n eine vorgegebene natürliche Zahl ist. Es stellt sich die Frage nach der Höhe der hierzu geeigneten Auszahlungen r < 0. Dazu nimmt man an, dass K n = 0, und löst mittels der Grundformel nach r auf. Das ergibt r = − K 0 (q − 1) q n q n − 1 Wann ist bei gegebener Rente r das Kapital spätestens aufgebraucht? Dazu wird die Gleichung K n = 0 nach n aufgelöst: K 0 q n + r q n − 1 q − 1 = 0 ⇔ ( K 0 + r q − 1 ) q n = r q − 1 ⇔ q n = 1 1 + K 0 q − 1 r Damit diese Gleichung nach n auflösbar ist, muss wegen r < 0 der Nenner des Bruches kleiner als Null sein, d.h. es muss gelten K 0 < − r q − 1 . Der Kapitalzins gleicht dann die Entnahme von Rentenbeträgen nicht aus. In diesem Fall ergibt sich durch Logarithmieren mit dem Logarithmus ln zur Basis e für n die Formel n = − ln ( 1 + K 0 q − 1 r ) ln(q) Falls K 0 ≥ − r q − 1 , so kann kein solcher Zeitpunkt gefunden werden, das Kapital bleibt also unendlich lange erhalten bzw. vermehrt sich trotz Verrentung. Der Wert r = (q − 1)K 0 = p 100 K 0 stellt die ewige Rente dar. Diese entspricht genau dem Zins der Anfangsperiode, d.h. das Startkapital verändert sich nicht. Beispiel 5.40 Ein Kapital von K 0 = 2.000.000 e wird zur Auszahlung einer jährlichen Rente von 70.000 e verwendet. Angenommen ist ein Zinssatz von 3% (d.h. q = 1, 03). Das Kapital inklusive seiner Erträge reicht ewig, wenn r q − 1 <= K 0 . In diesem Fall gilt r q − 1 = 70 . 000 0 , 03 ≈ 2.333.333 > 2.000.000, also reicht das Kapital nicht ewig. Das Kapital ist nach spätestens n Jahren aufgebraucht, wobei n die kleinste ganze Zahl n ≥ − ln(1 + K 0 q − 1 r ) ln(q) = − ln(1 − 2 . 000 . 000 2 . 333 . 333 ) ln(1, 03) ≈ 65, 83 ist. Also ist das Kapital spätestens nach 66 Jahren aufgebraucht. Es sei vereinbart, dass die Rente nur 20 Jahre ausgezahlt werden muss. Sie wird so hoch gewählt, dass das Kapital nach 20 Jahren auf 0 e fällt. Die Rente beträgt dann r = − K 0 q 20 (q − 1) q 20 − 1 = − 2.000.000 1, 03 20 · 0, 03 1, 03 20 − 1 ≈ 134431, 41 <?page no="167"?> 5.5 Finanzmathematische Folgen und Reihen 167 5.5.3 Annuitätenrechnung Annuitätenrechnung lässt sich als eine Spielart der Rentenrechnung auffassen, wobei statt einer Kapitalverringerung die Reduzierung einer Restschuld untersucht wird, die Einzahlung (Annuität) sich aus anfallenden Zinsen und einer Tilgung zusammensetzt - der zur ewigen Rente analoge Fall tritt also nicht ein, die Annuität auf - im Regelfall - monatliche Teilbeträge aufgeteilt wird, welche zu einer sofortigen Reduzierung der Restschuld führen (unterjährige Rechnung). Konkret liegt bei der Annuitätentilgung folgende Situation vor: Der Darlehensnehmer zahlt einen festen Betrag, eben die Annuität (lat. annus: das Jahr), auf Basis eines Geschäftsjahres, diese wird jedoch in gleich große monatliche Beträge aufgespalten, so dass in der Regel eine monatliche Rechnung mit gleichzeitiger unterjähriger monatlicher Verzinsung des Darlehens zum Tragen kommt. Der Tilgung, d.h. der Verringerung der Restschuld kommt jedoch nicht der gesamte Betrag zugute, sondern es werden zunächst die Zinsen für diese Periode berücksichtigt. Durch Reduzierung des Darlehens verringert sich der in Abzug zu bringende Zinsanteil, so dass gegen Ende der Laufzeit eines Annuitätendarlehens nahezu die komplette Einzahlung zur Tilgung verwendet wird. Bezeichnet K 0 > 0 den Umfang des Darlehens, p den Zinsfuß und r < 0 die konstante Raten je Periode, so gilt wieder die Grundformel K n = qK n − 1 + r = K 0 q n + r q n − 1 q − 1 Auch hier lässt sich der Zeitpunkt der Abbezahlung des Darlehens durch Auflösen der Gleichung K n = 0 nach n zu n = − log ( 1 + K 0 q − 1 r ) / log(q) ermitteln. Man erkennt zum einen, dass die periodische Zahlung r den Anfangszinsbetrag K 0 p 100 übersteigen sollte, um das Darlehen überhaupt tilgen zu können. Außerdem ist ersichtlich, dass nicht allein die Höhe der Rate r, sondern auch der Zinsfuß p die Laufzeit des Darlehens beeinflusst. Wenn beispielsweise ein Jahres-Zinssatz p/ 100 und ein Jahres-Tilgungssatz t/ 100 zum Ausgangsdarlehen K 0 vereinbart ist (was einer monatlichen Zahlung r = p + t 12 · 100 K 0 entspricht), so beträgt die Laufzeit (in Monaten) n = − log ( 1 + K 0 p 100 1 12 − 1 100 p + t 12 K 0 ) / log(1 + p 100 1 12 ) = − log(1 − p p + t ) log(1 + p 1200 ) (monoton fallend in p). In Abbildung 5.6 ist die Darlehnslaufzeit abhängig von Zins und Tilgung dargestellt. Der Grenzfall p = 0 bedeutet, dass keine Zinsen anfallen und die Restschuld linear mit der Tilgung abnimmt. So liefert die Regel von l’Hospital lim p → 0 − log(1 − p p + t ) log(1 + p 1200 ) = lim p → 0 1 1 − p p + t t ( p + t ) 2 1 1200 1 1+ p 1200 = 1200 t 5.5.4 Barwert und Endwert Bei Bar- und Endwert handelt es sich um finanzmathematische Kennzahlen, die unter Zinsbildung zu verschiedenen Zeitpunkten getätigte Zahlungen vergleichbar machen. <?page no="168"?> 168 5 Folgen und Reihen 2 4 6 8 10 Zinsfuß 20 40 60 80 100 Rückzahlung in Jahren Tilgung: 1% Tilgung: 2% Tilgung: 4% Tilgung: 10% Abbildung 5.6: Laufzeit eines Annuitätendarlehns in Abhängigkeit von Zins und Tilgung Der Endwert einer Gegenwartszahlung r ist der künftige Wert der (nachschüssigen) Gegenwartszahlung r in k Jahren unter der Annahme eines konstanten Jahreszinssatzes p. Weil aufgrund der Nachschüssigkeit der Zahlung das erste Jahr bei der Verzinsung nicht mitzählt, beträgt der Endwert dann r · q k − 1 , wobei q = 1 + p/ 100. Nimmt man nun an, dass eine Rente r jährlich am Ende eines Jahres ausgezahlt wird, so wird zur Berechnung des Rentenendwertes jede dieser Auszahlungen gemäß der obigen Überlegung verzinst. Das ergibt nach n Jahren RE = n ∑ k =1 r · q k − 1 = r q n − 1 q − 1 = r (1 + p/ 100) n − 1 p/ 100 Dagegen bezeichnet der Barwert den Gegenwartswert P V einer künftigen Zahlung r > 0, unter der Annahme, dass diese künftige Zahlung zum gegenwärtigen Zeitpunkt ausgezahlt wird und durch Verzinsung an dem künftigen Zeitpunkt genau dem dann zu tätigenden Zahlungsbetrag r entspricht. Liegt die künftige Zahlung r am Ende des nten Jahres, so wird sie aus dem Barwert P V durch r = P V · q n . Durch Umstellung nach P V ergibt sich die Grundformel für den Barwert einer künftigen Zahlung P V = r/ q n . Werden jetzt über n Jahre bei konstantem Zinssatz p jährlich Zahlungen r > 0 geleistet, so wird jede von ihnen durch die obige Grundformel mit individueller Anzahl von Jahren auf einen Barwert zurückgerechnet; diese Werte werden dann saldiert. Es ergibt sich der Rentenbarwert der ewigen Rente: P V e = r q + ( r q 2 ) + · · · = r q (1 + r q + ( r q 2 ) + · · · = r q 1 1 − 1 q = r q − 1 der n-maligen Rente: P V = r q + · · · + r q n = r q 1 − 1 q n 1 − 1 q = r q − 1 (1 − 1 q n ) = P V e (1 − 1 q n ) Beispiel 5.41 Anstelle einer jährlichen (nachschüssigen) Rente von 60.000 e möchte ein Lotteriegewinner eine sofortige Einmalzahlung erhalten. Diese entspricht dem Rentenbarwert. Wenn beispielsweise bei einem Zinssatz von 3,5% die Rente eine Laufzeit von 20 Jahren haben soll, so errechnet man <?page no="169"?> 5.5 Finanzmathematische Folgen und Reihen 169 den Barwert der ewigen Rente P V e = 60 . 000 0 , 035 ≈ 1.714.285, 7 e , den Barwert der n-maligen Rente: P V = 60 . 000 0 , 035 (1 − 1 1 , 035 20 ) ≈ 852.744, 19 5.5.5 Kapitalwert Der Kapitalwert N P V („net present value“) ist eine als Barwert angegebene Kennziffer einer Investition I > 0. In ihr werden die Investition selbst, aus ihr resultierende zeitlich nachfolgende Zahlungen/ Rückflüsse r 1 , . . . , r n und der so genannte Liquidationserlös ≥ 0 zusammengeführt. Es wird angenommen, dass im Zeitraum zwischen zwei (nachschüssigen) Rückflüssen jeweils derselbe Zinssatz p vorliegt. Der Kapitalwert setzt sich dann zusammen aus der Gegenwarts-Investition als Soll − I. den Rückzahlungen r k in Periode k = 1, . . . , n mit Barwerten r k / q k . dem Liquidationserlös am Ende von Periode n, der sich aus der Veräußerung der Anlageform ergibt und wie ein Rückfluss in den Barwert / q n überführt wird. Die Formel für den Kapitalwert lautet dann N P V : = − I + n ∑ k =1 r k (1+ p 100 ) k + (1+ p 100 ) n . Bei konstanten Zahlungen folgt unter Verwendung der geometrischen Summe: N P V = − I + r · (q n − 1) q n p 100 + (1 + p 100 ) n Ist der Kapitalwert einer Investition größer als Null, so lohnt sich die Anlage im Vergleich zu einer Anlage von I mit Zinsatz p, welche ohne weitere Ein/ Auszahlungen auskommt. Eine Investition mit N P V = 0 ist gleichwertig zu einer Anlage von I mit dem vorliegenden Zinsfuß p. Dieser wird dann als interner Zinsfuß bezeichnet. Beispiel 5.42 Aus einer Investition von 400.000 e erhält man über 10 Jahre Erträge von jährlich 30.000 e . Das Objekt wird nach 10 Jahren zu einem Preis von 500.000 e veräußert. Diese Investition hat bei einem Zinssatz von 5, 5% den Kapitalwert N P V = − 400.000 + 30.000(1, 055 10 − 1 1, 055 10 · 0, 055 + 500.000 1, 055 10 = 118.844 Ihr interner Zinsfuß ergibt sich durch Nullsetzen des Kapitalwertes als Formel in p − 400.000 + 30.000(q 10 − 1) q 10 (q − 1) + 500.000 q 10 = 0 ⇒ q 10 − 3 40 q 10 − 1 q − 1 − 5 4 = 0 Dies ist eine Gleichung 10. Grades, die man z.B. mit dem Newton-Verfahren näherungsweise lösen kann. Es ergibt sich q ≈ 1, 09135, also hat die Investition den internen Zinsfuß p ≈ 9, 14. <?page no="170"?> 170 5 Folgen und Reihen Übungen zu Abschnitt 5.5 ? 17. Berechnen Sie die Formel der Kapitalentwicklung bei konstantem Zins, wenn eine konstante Einzahlung jeweils vorschüssig (zu Beginn des Jahres) erfolgt. 18. Es wird ein Bausparvertrag mit Zinssatz 2, 4% abgeschlossen, der bei Fälligkeit in 12 Jahren ein Guthaben von 40000 e aufweisen soll. Wie hoch müssen die nachschüssigen Einzahlungen sein, wenn sie jeweils erfolgen a) einmal am Ende jedes Jahres, b) 4-mal jährlich am Ende jedes Quartals, c) 12-mal jährlich am Monatsende? 19. Ein Kapital von 10000 e wächst stetig verzinst binnen Jahresfrist um 360 e an. a) Welcher Jahreszinssatz liegt zugrunde? b) Wie hoch ist der Barwert eines Kapitals, welches bei vierteljährlicher Verzinsung mit dem berechneten Jahreszinssatz nach einem Jahr den gleichen Endwert hat wie das oben stetig verzinste Kapital? 20. Eine Rente von 1250 e soll über 20 Jahre monatlich ausgezahlt werden. a) Welches Kapital muss hierfür zu Beginn bereit stehen, wenn von einem Jahreszinssatz von 3, 5% ausgegangen werden kann? b) Welches Kapital braucht man bei diesem Zinssatz für die ewige Rente? 21. Bei einer Investition ergeben sich über 20 Jahre Rückflüsse von jährlich 20.000 e und am Ende des 20. Jahres ein Liquidationserlös von 150.000 e . Wie hoch ist die Investition bei einem internen Zinsfuß von 7%? Zusammenfassung Folgen zur Beschreibung real in der Zeit ablaufender Vorgänge lassen sich explizit - d.h. durch Angabe eines Bildungsgesetzes für jedes Folgenglied - oder implizit - d.h. zumeist durch Rekursionsformeln - repräsentieren. Beide Darstellungsmöglichkeiten eröffnen eigene Wege zur Berechnung von Grenzwerten, sofern diese existieren. Grenzwerte von Folgen beschreiben zum einen das langfristige Verhalten der beschriebenen realen Prozesse wie der Entwicklung von Gleichgewichtspreisen in Marktsituationen, zum anderen dienen sie als Grundlage der Differentialrechnung in Form von Grenzwerten von Funktionen. Unter den Folgen sind vor allem die Summenfolgen, d.h. die durch Saldierung gegebener Folgen entstandenen Reihen, von besonderer Bedeutung, denn einerseits ist Saldierung ökonomisches Alltagsgeschäft, andererseits lassen sich durch Grenzwertübergänge die wichtigsten Funktionen - zumal die in der Ökonomie verwendeten - als unendliche (Potenz-)Reihen darstellen. In Form von erzeugenden Funktionen ermöglichen sie zuweilen die Explizierung implizit definierter Folgen. Die geometrische Reihe ist die in der Ökonomie, speziell in der Finanzmathematik am häufigsten verwendete unendliche Reihe. Mit ihrer Hilfe lassen sich zahlreiche Grundformeln der Zinseszins-, Renten- und Annuitätenrechnung in expliziter Form angeben. <?page no="171"?> 6 Differentialrechnung Übersicht Die Dynamik betriebs- und volkswirtschaftlicher Vorgänge erschließt sich zumeist durch die Gegenüberstellung von Änderungen zweier oder mehrerer mutmaßlich in Beziehung stehender ökonomischer Variablen. Werden etwa von einem Produkt für den Preis p 0 insgesamt y 0 Einheiten und für den Preis p 1 insgesamt y 1 Einheiten abgesetzt, so ist das Verhältnis Δ y Δ p = y 1 − y 0 p 1 − p 0 ein Näherungswert für die Nachfrageänderung je Änderung des Preises um eine Einheit. Bei geringen Preisänderungen wird direkte Proportionalität von Nachfrage- und Preisänderung mit dem Proportionalitätsfaktor lim p 1 → p 0 Δ y Δ p angenommen. Er entspricht der Steigung der gestrichelt gezeichneten Tangente an den angenommenen Verlauf der Nachfragekurve im Punkt p 0 . Ökonomen bezeichnen den Wert als „marginale“ Nachfrage und sehen Änderungen der Nachfrage als proportional zur Änderung des Preises mit der marginalen Nachfrage als Proportionalitätsfaktor. Diese Sichtweise entspricht einer Linearisierung des Zusammenhanges zwischen Preisänderung und Nachfrageänderung und bildet die Grundlage der Differentialrechnung einer Variablen (vgl. [ Terveer/ Terveer , 2011]). Die den obigen Überlegungen zugrunde liegende Funktion p → y = y(p) ergibt sich oft durch Auflösung einer Gleichung f(p, y, . . . ) = 0, wobei f eine geeignete Funktion von mehreren Variablen ist. Diese und andere Funktionen mehrerer Variablen sowie ihr Änderungsverhalten spielen gleichzeitig eine wichtige Rolle beispielsweise in der Optimierung. In diesem Kapitel erläutern wir entsprechende Ableitungskonzepte für Funktionen mehrerer Variablen, die in allen wirtschaftswissenschaftlichen Anwendungen benötigt werden. Zunächst wird der Funktionsbegrifffür mehrere Variablen vgl. Abschnitt 6.1, S. 172 und seine Anwendung in der Ökonomie besprochen vgl. Abschnitt 6.2, S. 178 . Im Zentrum des dann folgenden Abschnitts über Ableitungskonzepte bei mehreren Variablen vgl. Abschnitt 6.3, S. 186 stehen der Gradient und das Differential. Wie man mit Differential und Gradient ökonomische Fragestellungen über das Änderungsverhalten von ökonomischen Variablen beschreiben kann, erläutern wir anschließend vgl. Abschnitt 6.4, S. 197 . Das Krümmungsverhalten von Funktionen mehrerer Variablen lässt sich mit Ableitungen zweiter Ordnung erfassen vgl. Abschnitt 6.5, S. 212 . Das Kapitel schließt mit einer Einführung in die Integralrechnung mehrerer Veränderlichen vgl. Abschnitt 6.6, S. 224 , wobei vor allem der Fall von Funktionen zweier Variablen illustriert wird. <?page no="172"?> 172 6 Differentialrechnung 6.1 Funktionen mehrerer Variablen Aus den vielfältigsten Gründen sind Funktionen einer Variablen als Modelle für ökonomische Anforderungen oft nicht mehr ausreichend: Zur Produktion eines Gutes sind i.d.R. mehrere Rohstoffe erforderlich. Meist wird auch die Herstellung mehrerer Produkte simultan geplant. Bei den Gesamtkosten in der Produktion müssen u.a. die variablen Kosten aus der Herstellung jedes der Unternehmensprodukte berücksichtigt werden. Der Absatz eines Produktes hängt neben dem eigenen Preis auch von dem Preis anderer Konkurrenz-Produkte ab. Selbst Zusammenhänge zwischen zwei ökonomischen Variablen lassen sich oft nur implizit unter Berücksichtigung einer Funktion mehrerer Variablen beschreiben. Daher muss man zur Modellierung auch Funktionen verwenden, deren Funktionsterme mehrere variable Argumente x 1 , . . . , x n beinhalten. Zudem werden sich oft hieraus gleich mehrere Werte y 1 , . . . , y m ergeben müssen. Definition 6.1 ! Eine m-wertige Funktion f : D ( ⊆ R n ) → W ( ⊆ R m ) von n Variablen ist gegeben durch [1] einen Definitionsbereich D ⊆ R n und einen Wertebereich W ⊆ R m , [2] insgesamt m Funktionsterme (x 1 , . . . , x n ) → y i = f i (x 1 , . . . , x n ), i = 1, . . . , m, mit (f 1 (x), . . . , f m (x)) T ∈ W für alle x ∈ D . f = (f 1 , . . . , f m ) T heißt auch Vektor der Funktionsterme oder (kurz) Funktionsvektor. Als Wertebereich einer m-wertigen Funktion mehrerer Variablen schreibt man meist einfach W = R m . Nicht alle Werte y ∈ W müssen auch tatsächlich als Funktionswerte angenommen werden, insofern ist der Begriff „Wertebereich“ etwas missverständlich. Wenn man tatsächlich nur die Menge der möglichen Funktionswerte { f(x) : x ∈ D} (als Teilmenge von W ) adressieren möchte, so spricht man vom Bild von f. Die Funktionsterme f 1 , . . . , f m einer m-wertigen Funktion werden oft wie einwertige Funktionen f i : D → R 1 behandelt und separat diskutiert. Falls nicht anders beschrieben, meinen wir im Folgenden immer einwertige Funktionen, wenn wir von Funktionen mehrerer Variablen sprechen. Eine besondere Ausnahme stellt die Modellierung von Nachfragesituationen auf Märkten dar, bei denen alle einwertigen Nachfragefunktionen der Produkte in ihrem simultanen Verhalten zu berücksichtigen sind. 6.1.1 Definitionsbereiche für Funktionen mehrerer Variablen Für den Definitionsbereich einer Funktion mehrerer Variablen gibt es eine viele ökonomisch relevante Festlegungen. Die wichtigste ist das kartesische Produkt. Definition 6.2 ! Eine Menge D von Vektoren (x 1 , . . . , x n ) T des R n , bei denen jede Variable x j frei aus einem vorgegebenen Bereich D j ⊆ R „ gewählt“ werden kann, heißt kartesisches Produkt (Schreibweise: D = D 1 × D 2 × · · · × D n ). Falls die Definitionsbereiche I j der Variablen jeweils (abgeschlossene bzw. offene bzw. beschränkte) Intervalle sind, dann heißt D = I 1 × · · · × I n auch (abgeschlossener bzw. offener bzw. beschränkter) Quader. <?page no="173"?> 6.1 Funktionen mehrerer Variablen 173 Sind alle D j = A ⊆ R identisch, so schreibt man für das kartesische Produkt der n Mengen auch einfach A n . Wir haben diese Notation bereits für den Vektorraum R n aller Spaltenvektoren verwendet. Beispiel 6.1 In dieser Schreibweise ist D = [0; ∞ [ n die Menge aller Vektoren mit nichtnegativen Komponenten. Diese Menge ist häufig Definitionsbereich ökonomischer Funktionen, denn ökonomische Variablen nehmen in aller Regel keine negativen Werte an. Definitionsbereiche, bei denen die Variablen nicht frei voneinander variieren, treten ebenfalls häufig auf. Die Bindungen werden hier meist durch Gleichungen und/ oder Ungleichungen beschrieben: In der Abstandsmessung vgl. Abschnitt 3.5 haben wir für z = (z 1 , . . . , z n ) T und r > 0 die (offene) Kugel B(z, r) ⊆ R n besprochen d.h. die Menge aller x = (x 1 , . . . , x n ) T ∈ R n , für die der (euklidische) Abstand ‖ x − z ‖ < r ist, d.h. für welche die Ungleichung (x 1 − z 1 ) 2 + · · · + (x n − z n ) 2 < r 2 erfüllt ist. Ersetzt man das <-Zeichen durch ein ≤ -Zeichen, d.h. betrachtet alle x mit ‖ x − z ‖ ≤ r, so spricht man von der abgeschlossenen Kugel. Die Menge D , welche durch die Gleichung (x 1 − z 1 ) 2 + · · · + · · · (x n − z n ) 2 = r festgelegt wird, heißt auch Oberfläche oder Rand der Kugel. In Verallgemeinerung des Konzeptes der Kugel spielen zuweilen auch Ellipsoide eine Rolle, d.h. z.B. Teilmengen des R n , die durch eine Ungleichung ( x 1 − z 1 ) 2 r 2 1 + · · · + ( x n − z n ) 2 r 2 n ≤ 1 beschrieben werden. Allgemeiner versteht man unter einem Ellipsoid die Lösungsmenge der Ungleichung 〈 (x − z), H(x − z) 〉 ≤ r zu vorgegebenem z ∈ R n , H ∈ R n × n , r > 0 (bzw. mit strikter Ungleichung oder strikter Gleichung). Lösungsmengen linearer Gleichungssysteme Ax = b mit m × n-Koeffizientenmatrizen stellen ebenfalls Definitionsbereiche mit „ gebundenen“ Variablen dar. Man nennt sie auch Hyperebenen. Liegt anstelle von linearen Gleichungen ein System linearer Ungleichungen a i 1 x 1 + · · · +a in x n ≥ b i vor, i = 1, . . . , m vor, so heißt der zugehörige Definitionsbereiche auch Polytop oder Simplex. Ein Anwendungsbeispiel für ein Polytop werden Sie im nächsten Abschnitt sehen vgl. S. 181 . Definitionsbereiche, bei denen Variablen durch Gleichungs- oder Ungleichungsrelationen aneinander gebunden werden, sind in ihrer Anwendung nicht immer sehr handlich. Es hat sich - z.B. in der Optimierung - erwiesen, dass es oft von Vorteil ist, diese Relationen als Nebenbedingungen des eigentlichen Sachzusammenhangs aufzufassen und die Definitionsbereiche zunächst weiter als ungebundene kartesische Produkte zu modellieren. Wir werden dies im nächsten Kapitel im Rahmen der Lagrange-Methode der Optimierung noch ausführlich besprechen. Bei den meisten der oben beschriebenen Definitionsbereiche D liegen Verbindungsstrecken zwischen zwei Punkten in D wieder vollständig in der Menge: Definition 6.3 ! Eine Teilmenge D ⊆ R n heißt konvex, wenn für alle x, y ∈ D und alle λ ∈ [0; 1] auch λx + (1 − λ)y in D liegt. Abbildung 6.1 zeigt Beispiele einer konvexen und nicht konvexen Menge. Vektoren der Form λx + (1 − λ)y mit λ ∈ [0; 1] stellen Punkte auf der Geraden durch x und y dar, die zwischen x und y liegen (z.B. ergibt λ = 0 den Vektor y und λ = 1 den Vektor x). <?page no="174"?> 174 6 Differentialrechnung x y y x konvex nichtkonvex Abbildung 6.1: Konvexe und nichtkonvexe Mengen im R 2 Der Ausdruck λx + (1 − λ)y mit λ ∈ [0; 1] wird auch als konvexe Linearkombination von x, y bezeichnet. Solche Linearkombinationen lassen sich auch mit mehr als zwei Vektoren a (1) , . . . , a ( m ) in der Form α 1 a (1) + · · · + α m a ( m ) bilden, dabei sind die α i ≥ 0 und summieren sich zu Eins. Bei einer konvexen Menge D liegt jede konvexe Linearkombination von endlich vielen Vektoren aus D wieder in D . 6.1.2 Lineare und quadratische Funktionen mehrerer Variablen Im Folgenden seien einige wichtige mathematische Beispiele (einwertiger) Funktionen f : D → R von n Variablen (als Variablenvektor x = (x 1 , . . . , x n ) T ) angegeben. Viele auch in der Ökonomie verwendete Funktionsterme haben eine (ggf. etwas verallgemeinerte) Gestalt, wie sie nachstehend beschrieben ist: Unter der j-ten Koordinatenfunktion versteht man die Funktion f : R n → R mit dem Funktionsterm f(x) = f(x 1 , . . . , x n ) = x j . Sie lässt sich auch mit dem j-ten Einheitsvektor e ( j ) und dem Skalarprodukt als f(x) = 〈 e ( j ) , x 〉 schreiben. Eine lineare Funktion f : R n → R hat den Funktionsterm f(x) = f(x 1 , . . . , x n ) = c 1 x 1 + · · · +c n x n = 〈 c, x 〉 , wobei c = (c 1 , . . . , c n ) T ∈ R n ein fest vorgegebener Vektor ist. Mit c als Einheitsvektor ergibt sich die Koordinatenfunktion. Eine Monomfunktion hat den Funktionsterm f(x 1 , . . . , x n ) = c · x a 1 1 · · · x a n n , ein Monom mit c ∈ R und a 1 , . . . , a n ∈ N 0 . Die Zahl r = a 1 + · · · + a n heißt Grad des Monoms. Lässt man für a 1 , . . . , a n auch beliebige (positive) reelle Zahlen zu, so nennt man die Funktionen auch Cobb-Douglas-Funktionen vgl. S. 182 . Ein Polynom vom Grad r ist eine Funktion, deren Funktionsterm eine Summe von Monomen ist, deren Grad jeweils kleiner oder gleich r ist. Speziell sind affin-lineare bzw. lineare Funktionen gerade die Polynome vom Grad 1 und quadratische Funktionen gerade die Polynome vom Grad 2. Hat eine quadratische Funktion nur Monome des Grades Zwei als Summanden, so spricht man auch von einer quadratischen Form. Jede quadratische Form hat den Funktionsterm f(x) = 〈 x, Hx 〉 , mit einer geeigneten symmetrischen Matrix H. Beispiel 6.2 f(x, y, z) = x ist die erste Koordinatenfunktion bezogen auf den Variablenvektor (x, y, z) T . Sie ist gleichzeitig lineare Funktion und Polynom vom Grad 1. Beispiel 6.3 Die Funktion f(x 1 , x 2 ) = x 1 x 2 − x 2 2 ist eine quadratische Funktion und gleichzeitig auch eine quadratische Form, denn f(x 1 , x 2 ) = 〈 ( x 1 x 2 ) , ( 0 1/ 2 1/ 2 − 1 )( x 1 x 2 ) 〉 . <?page no="175"?> 6.1 Funktionen mehrerer Variablen 175 6.1.3 Grenzwerte von Funktionen mehrerer Variablen Wie bei Funktionen einer Variablen, lassen sich auch in mehreren Variablen Funktionsgrenzwerte erklären. Man benötigt sie beim manchmal erforderlichen Randwertvergleich in der Optimierung mehrerer Variablen. Definition 6.4 ! Es sei D ⊆ R n und f : D → R m . Für ein x (0) ∈ D ist der Funktionsgrenzwert g = lim x → x (0) f(x) ∈ R m erklärt, wenn für jede Punktfolge (x (n) ) n ∈N mit lim n →∞ x (n) = x (0) die Punktfolge der Funktionswerte (f(x (n) )) n ∈N gegen g konvergiert. Funktionsgrenzwerte kann man über Grenzwertsätze von Zahlenfolgen berechnen: Beispiel 6.4 Wir wollen lim ( x,y ) → (2 , 3) (x 3 − y 2 ) bestimmen. Dazu betrachten wir Folgen x n → 2 und y n → 3 und erhalten lim n →∞ (x 3 n − y 2 n ) = (lim n →∞ x n ) 3 − (lim n →∞ y n ) 2 = 2 3 − 3 2 = − 1. Es gilt also lim ( x,y ) → (2 , 3) (x 3 − y 2 ) = − 1 Bei mehrwertigen Funktionen rechnet man die Grenzwerte komponentenweise aus. Auch uneigentliche Grenzwerte, bei denen alle oder ein Teil der Koordinatenfolgen (x n j ) n ∈N divergiert, sowie das Grenzwertverhalten in Definitionslücken x (0) kann man analog zu den entsprechenden Konzepten bei Funktionen einer Variablen beschreiben. Schließlich überträgt sich noch das Konzept der Stetigkeit: Definition 6.5 ! Eine Funktion f : D → R m mit D ⊆ R n heißt stetig in x (0) ∈ D , wenn der Grenzwert lim x → x (0 f(x) existiert und mit f(x (0) ) übereinstimmt. f heißt stetig in D , wenn f in jedem Punkt x (0) ∈ D stetig ist. Stetigkeit ist ein wichtiges Hilfsmittel, wenn man sicherstellen will, dass eine Funktion Extremwerte besitzt. Dies werden wir später genauer ausführen. Allerdings ist der Umgang mit Funktionsgrenzwerten respektive der Stetigkeitsnachweis ein etwas mühsames Geschäft. Ohne genauere Rechnung wollen wir folgende Regeln festhalten, die man in den meisten Fällen ad hoc verwendet, um die Stetigkeit nachzuweisen. [1] Alle Polynome sind stetig. [2] Alle Funktionen, die sich durch die Grundoperationen Addition, Subtraktion, Multiplikation, Division aus anderen stetigen Funktionen mehrerer Variablen zusammensetzen, sind innerhalb ihres Definitionsbereiches stetig. [3] Die Verkettung (Hintereinanderausführung) stetiger Funktionen ergibt wieder eine stetige Funktion. Die letzte Regel gebraucht man oft für einwertige Funktionen f, auf die eine Funktion h einer Variablen angewendet wird, z.B. Wurzel, Normalparabel oder Absolutbetrag. <?page no="176"?> 176 6 Differentialrechnung Abbildung 6.2: Genese des Graphen der Funktion f(x, y) = x 2 + 1 2 y 3 Beispiel 6.5 Die euklidische Norm ‖ · ‖ legt eine stetige Funktion fest. Zum einen ist die Funktion f : R n → R , f(x 1 , . . . , x n ) = x 2 1 + · · · + x 2 n als Polynom zweiten Grades stetig. Die euklidische Norm ist nun nichts weiter als die Verkettung mit der Quadratwurzelfunktion h(t) = √ t, d.h. ‖ x ‖ = √ x 2 1 + · · · + x 2 n = h(f(x 1 , . . . , x n )). Die Funktion g : R n → R , g(x) = ‖ x ‖ ist also stetig. Die (total) differenzierbaren Funktionen des nächsten Abschnitts sind ebenfalls stetig. 6.1.4 Grafische Darstellung von Funktionen mehrerer Variablen Funktionen einer Variablen lassen sich in einem zweidimensionalen Koordinatensystem zeichnen. Dies ermöglicht vielfach eine anschauliche Beschreibung wichtiger Funktionseigenschaften. Für Funktionen mehrerer Variablen muss man sich verdeutlichen: Jede Variable benötigt eine eigene Koordinatenachse, senkrecht zu den anderen, um den Einfluss der einzelnen Variablen grafisch gut zu erkennen. Auf einer weiteren Koordinatenachse werden die Funktionswerte abgetragen. Unter Verwendung des Anschauungsraum R 3 sind die einzigen darstellbaren Funktionen von mehr als einer Variablen genau die Funktionen zweier Variablen. Die drei erforderlichen Dimensionen müssen für die Darstellung auf Papier und Bildschirm auch noch in die Anschauungsebene projiziert werden. Wir illustrieren dies anhand der Funktion f : [ − 3 2 ; 3 2 ] 2 → R , f(x, y) = x 2 + 1 2 y 3 . Der Funktionsgraph wird über einem Gitternetz von Punkten (x, y) der Anschauungsebene erzeugt vgl. Abbildung 6.2 links . Dazu werden die Punkte (x, y, f(x, y)) T im Anschauungsraum R 3 skizziert vgl. Abbildung 6.2 Mitte . Je vier Punkte (x, y, f(x, y)) T , die zu einem Rechteck benachbarter Gitter-Punkte im Definitionsbereich gehören, werden durch Linien zu einem räumlichen Viereck verbunden vgl. Abbildung 6.2 rechts . Diese Vierecke werden oft nicht-transparent oder halb-transparent gezeichnet, und man verstärkt durch Einsatz virtueller Lichtquellen den räumlichen Effekt (wobei das Gitternetz weggelassen werden kann). Dann allerdings müssen Teile des Graphen, die <?page no="177"?> 6.1 Funktionen mehrerer Variablen 177 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 Abbildung 6.3: Erzeugung des Konturdiagramms der Funktion f(x, y) = x 2 + 1 2 y 3 „hinter“ anderen verdeckt liegen, ausgeblendet werden, was den Berechnungsaufwand solcher Schaubilder stark erhöht - mit der Lösung dieses Sichtbarkeitsproblems beschäftigen sich zahlreiche Computer-Algorithmen. In Abbildung 6.3, links, ist eine solche Darstellung für die Funktion f(x, y) = x 2 + 1 2 y 3 mit Hilfe des professionellen Computeralgebra-Programms Mathematica angegeben. In den Schaubildern wird eine weitere Möglichkeit illustriert, wie man eine Funktion zweier Variablen in einem zweidimensionalen Schaubild darstellen kann: das Kontur-Diagramm. Es ist gleichsam eine topographische Karte der Funktion, in die Linien bzw. Kurven, auf denen der Funktionsgraph einen konstanten Verlauf hat, in moderater, d.h. die Lesbarkeit des Schaubildes unterstützender Form eingezeichnet werden. Diese Linien nennt man Niveau-Linien bzw. Iso-Quanten bzw. Iso-Höhenlinien. Definition 6.6 ! Für eine Funktion f : D ⊆ R n → R und c ∈ R heißt N f (c) : = { x ∈ D : f(x) = c } die c-Niveaulinie bzw. Iso-Quante von f zum Niveau bzw. zur Höhe c. In zwei Variablen wirkt eine einzelne Höhenlinie wie der Graph einer Funktion einer Variablen. An Stellen, wo die Kurve vertikal verläuft, ist aber meist keine Darstellung als Funktion einer Variablen möglich. In ökonomischen Anwendungen überlagert man oft Kontur-Diagramme verschiedener Funktionen. Beispielsweise werden so in der Optimierung die zu minimierende Funktion mit den Nebenbedingungen in Bezug gesetzt. Wir werden dies bei der Besprechung der Lagrange-Methode ausnutzen. Übungen zu Abschnitt 6.1 ? 1. Für t ∈ R seien D 1 = { ( x y ) ∈ R 2 : x 2 + ty 2 ≤ 1 } D 2 = { ( x y ) ∈ R 2 : tx ≤ y + 1 } a) Skizzieren Sie D i für t = 1, 2, 0, − 1. b) Welche dieser Mengen sind Kreise, Ellipsen oder Polytope? c) Welche dieser Mengen sind konvex? 2. Welche der nachfolgenden Funktionen mehrerer Variablen sind Polynome? Welche sind lineare bzw. quadratische Funktionen bzw. quadratische Formen auf D = [0; ∞ [ 2 ? a) f(x, y) = ax 2 − bxy + cy b) f(x, y) = (x 2 y − y)/ (x + 1) c) f(x, y) = x ( y t ) bzw. f(x, y) = (x y ) t <?page no="178"?> 178 6 Differentialrechnung 3. Berechnen Sie lim ( x,y ) → ( x 0 ,y 0 ) f(x, y). Ist f in (x 0 , y 0 ) stetig? a) f(x, y) = x 2 + y − 1, x 0 = 3, y 0 = 2, b) f(x, y) = √ 1 + 2x − y, x 0 = 1, y 0 = 3, c) f(x, y) = x/ y, x 0 = t, y 0 = 2t. 4. Gegeben seien folgende Funktionen f(x, y) = xy, g(x, y) = 2xy, h(x, y) = x(y + 1), u(x, y) = (x − 1)(y + 1). Welcher Zusammenhang besteht zwischen den Höhenlinien a) von f und g, b) von f und h, c) von f und u? 6.2 Funktionen mehrerer Variablen in der Ökonomie Die bisherigen Beispiele für Funktionen mehrerer Variablen zeichnen sich zum einen durch verhältnismäßig einfache Gestalt aus, zum anderen werden sie aber auch durchweg und ausgiebig in den Wirtschaftswissenschaften verwendet. Darüber hinaus behandelt man weitere Funktionstypen, die spezifischen ökonomischen Ansprüchen weiter Genüge tragen. Im Folgenden sollen beispielhaft einige Ansätze zur Mathematisierung ökonomischer Sachverhalte mittels Funktionen mehrerer Variablen beschrieben werden. 6.2.1 Lineare Funktionen mehrerer Variablen in der Ökonomie Wir besprechen nachfolgend einige typische ökonomische Beispiele, in denen lineare Funktionen mehrerer Variablen zur Modellierung verwendet werden. Beispiel 6.6 (Lineare Funktionen in der Ökonomie) Im Bereich der linearen Algebra wurden bereits Verflechtungsansätze behandelt, bei denen mehreren Argumenten (Input-Variablen) ein oder auch mehrere Ergebnisse zugewiesen wurden. Wir kommen noch einmal auf das Beispiel 1.1 der Materialverflechtung vgl. S. 16 zurück. Die Verflechtung zwischen den vier möglichen Regaltypen und den dafür benötigten vier Bauteil-Arten wird durch die Matrix A = ⎛ ⎜ ⎝ 2 3 4 5 1 1 2 4 5 10 15 20 20 40 60 80 ⎞ ⎟ ⎠ ∈ R 4 × 4 gegeben. Jeder Kombination von Produktquantitäten x 1 , . . . , x 4 der vier Regaltypen werden die erforderlichen Quantitäten der Produktionsfaktoren Regalträger, Regalboden, Querstange, Montagestift zugewiesen. Zugrunde liegt die (lineare) 4-wertige Funktion f : R 4 → R 4 , f(x) = A · x, wobei x = (x 1 , . . . , x 4 ) T , mit den vier einwertigen linearen Funktionen f 1 (x) = 2x 1 + 3x 2 + 4x 3 + 5x 4 , f 2 (x) = x 1 + x 2 + 2x 3 + 4x 4 , f 3 (x) = 5x 1 + 10x 2 + 15x 3 + 20x 4 f 4 (x) = 20x 1 + 40x 2 + 60x 3 + 80x 4 . Oft lassen sich auch Kostensituationen mittels linearer Funktionen darstellen; es mögen z.B. bei der Herstellung von n Produkten P 1 , . . . , P n je Einheit des Produktes P i <?page no="179"?> 6.2 Funktionen mehrerer Variablen in der Ökonomie 179 variable Kosten c 1 , . . . , c n > 0 je Einheit entstehen. Die gesamten variablen Kosten stellen sich dann mit der linearen Funktion f : R n → R 1 , f(x) = f(x 1 , . . . , x n ) = 〈 c, x 〉 = c 1 x 1 + . . . + c n x n mit c = (c 1 , . . . , c n ) T dar. Dabei bezeichnen die x i die Quantitäten der Produkte P i . Beispiel 6.7 (Fortsetzung von 1.1 vgl. S. 16 ) Es werde angenommen, dass in der Situation des Regal-Herstellers ein Regalträger mit 5 e , eine Querstange mit 1 e , ein Regalboden mit 3 e und die Montagestifte mit 0, 20 e je Stift in der Beschaffung veranschlagt werden. Die variablen Kosten der Herstellung lassen sich dann durch den Kostenvektor c = ⎛ ⎜ ⎝ c 1 c 2 c 3 c 4 ⎞ ⎟ ⎠ = ⎛ ⎜ ⎝ 2 1 5 20 3 1 10 40 4 2 15 60 5 4 20 80 ⎞ ⎟ ⎠ ⎛ ⎜ ⎝ 5 1 3 0, 20 ⎞ ⎟ ⎠ = ⎛ ⎜ ⎝ 30 54 79 105 ⎞ ⎟ ⎠ beschreiben; jede Komponente beschreibt die Beschaffungskosten für ein Regal des betreffenden Typs. Unter Vernachlässigung von Verpackungsmaterial und Personalkosten erhält man als variable Kostenfunktion die lineare Funktion f(x) = f(x 1 , x 2 , x 3 , x 4 ) = 〈 c, x 〉 = 30x 1 + 54x 2 + 79x 3 + 105x 4 Im Kosten-Sachzusammenhang sind alle Produktvariablen x i ≥ 0; es ist also mit dem eingeschränkten Definitionsbereich D = [0; ∞ [ n zu arbeiten. 6.2.2 Nachfragefunktionen in mehreren Variablen Eine weitere Anwendungssituation für Funktionen mehrerer Variablen stellt die Modellierung von Produktbündel-Nachfragen dar. Hierbei müssen in aller Regel wenigstens die Preise sämtlicher beteiligten Produkte berücksichtigt werden. Man unterscheidet dabei zwei Typen von Abhängigkeiten: Produkte, die in direkter Konkurrenz zueinander stehen, nennt man Substitutionsgüter. Meist steigt mit dem Preis eines Gutes die Nachfrage nach dem anderen. Falls die Produkte gegenseitig benötigt werden, nennt man sie Komplementärgüter. Beispiele hierfür stellen etwa Kraftfahrzeuge und Kraftstoffe oder Medienträger und die dafür benötigten Abspielgeräte dar. Steigt der (Durchschnitts-)Preis eines der beiden Güter, so bewirkt dies für beide Güter einen Absatzrückgang. Für beide Arten von Gütern benötigt man geeignete Typen von Nachfragefunktionen f i , deren Funktionsterme f i (p 1 , . . . , p n ) abhängig von den Preisen aller relevanten Produkte modelliert werden. Die Nachfragefunktion f i (p 1 , . . . , p j , . . . , p n ) des i-ten Produktes ist dabei i.a. in der Variablen p j monoton fallend, falls Produkt i und Produkt j Komplementärgüter sind monoton wachsend, falls Produkt i und Produkt j Substitutionsgüter sind. Wir betrachten im Folgenden ein Beispiel, in dem Substitutionsgüter auftreten: <?page no="180"?> 180 6 Differentialrechnung Beispiel 6.8 Der Möbelbauer Ikebau hat eine Erhöhung des Preises für sein Regal Bill1 von p = 90 auf p = 95 e durchgeführt, dabei aber festgestellt, dass dies nicht zur gewünschten Erhöhung des Gewinns geführt hat. Als Ursache hat eine Befragung bei Kunden ergeben, dass das Regal im Vergleich zu dem Regal Bill2 als zu teuer empfunden wird, weshalb die Kunden aufgrund des besseren Preis-Leistungsverhältnisses für Bill2 dieses bevorzugen. Gleichzeitig hat die erhöhte Nachfrage nach Bill2 zu Lieferengpässen bei diesem Regaltyp und zu erhöhten Lagermengen bei Bill1 geführt. Für Ikebau stellen sich die beiden Regaltypen daher als Substitutionsgüter dar, deren Preise so passend zueinander gewählt werden müssen, dass die genannten Probleme nicht mehr auftreten. Deshalb sollen der Deckungsbeitrag aus dem Absatz beider Regale maximiert und die ermittelten Absatzmengen zur Grundlage der Kapazitätsplanung gemacht werden. Zunächst ergeben sich für Bill2 die variablen Stückkosten 54 e , während sie für Bill1 30 e betragen, vgl. Beispiel 6.7. Danach muss bei Ikebau eine Nachfragefunktion f 1 (p, q) für die Nachfrage nach Bill1 bzw. f 2 (p, q) für die Nachfrage nach Bill2 ermittelt werden. Beide Funktionen müssen aufgrund der obigen Beobachtungen über die gegenseitige Einflussnahme der Absatzmengen sowohl vom Preis p des Typs Bill1 als auch vom Preis q des Regaltyps Bill2 abhängig sein. Mit diesen Nachfragefunktionen ermittelt sich dann der Deckungsbeitrag für den gemeinsamen Absatz der beiden Regale zu G(p, q) = (p − 30)f 1 (p, q) + (q − 54)f 2 (p, q) Die Bestimmung eines adäquaten Nachfragezusammenhangs kann eine schwierige Aufgabe sein. Grundsätzlich ist dabei für f 1 und f 2 separat zunächst ein Funktionstyp zu spezifizieren. Beide Funktionstypen müssen sowohl von p als auch von q abhängig sein. Danach kann wieder über Referenzwerte der Nachfrage (d.h. in Form einer Steckbriefaufgabe) oder durch Auswertung von Vergangenheitsdaten mittels der KQ- Methode die konkrete Gestalt der Nachfragefunktionen errechnet werden. Die erste dieser Vorgehensweisen sei exemplarisch vorgeführt. Es sei angenommen, dass Produktionskapazitäten für 2030 Regale bei Bill1 und 1095 Regale bei Bill2 vorliegen, die im Falle p = q = 0 auch vollständig abgesetzt werden. Die Nachfragefunktionen seien linear, d.h. von der Form f 1 (p, q) = 2030 − b 1 ,p p + b 1 ,q q f 2 (p, q) = 1095 + b 2 ,p p − b 2 ,q q mit Nachfragekoeffizienten b 1 ,p , b 1 ,q , b 2 ,p , b 2 ,q > 0. Ferner seien - bei Absatz des jeweiligen anderen Regaltyps zum Preis 0 - die Preisgrenzen p min = 145, q min = 365 für die Nachfrage nach Bill1 und Bill2 bekannt, d.h. es gilt f 1 (145, 0) = 0 und f 2 (0, 365) = 0. Als absolute Preisobergrenze, oberhalb von der kein Absatz mehr erzielt wird, werde p max = 207, q max = 434 angenommen. Hieraus ergeben sich die Gleichungen 2030 − 145b 1 ,p + 0 · b 1 ,q = 0 ⇔ b 1 ,p = 14 2030 − 14 · 207 + 434b 1 ,q = 0 ⇔ b 1 ,q = 2 1095 + 0 · b 2 ,p + − 365b 2 ,q = 0 ⇔ b 2 ,q = 3 1095 + 207 · b 2 ,p − 3 · 434 = 0 ⇔ b 2 ,p = 1 Somit lauten die Nachfragefunktionen f 1 (p, q) = 2030 − 14p + 2q, f 2 (p, q) = 1095 + p − 3q <?page no="181"?> 6.2 Funktionen mehrerer Variablen in der Ökonomie 181 0 50 100 150 200 0 100 200 300 400 Abbildung 6.4: Deckungsbeitrags-Funktion G(p, q) = − 14p 2 − 3q 2 + 3pq + 2396p + 1197q − 120030; links Definitionsbereich, Konturdiagramm; rechts räumliche Darstellung Ökonomisch sind nur diejenigen Preiskonstellationen p, q von Bedeutung, in denen beide Nachfragen nichtnegativ sind, d.h. f 1 (p, q) ≥ 0 und f 2 (p, q) ≥ 0. Durch diese beiden linearen Ungleichungen wird der in Abbildung 6.4, links, schraffiert dargestellte Bereich als ökonomisch sinnvoller Preisbereich D ausgezeichnet. Mathematisch handelt es sich bei D um ein konvexes Polytop. Setzt man die berechneten Nachfragefunktionen in die allgemeine Formel für den Deckungsbeitrag ein, so ergibt sich G(p, q) = (p − 30)(2030 − 14p + 2q) + (q − 54)(1095 + p − 3q) = − 14p 2 − 3q 2 + 3pq + 2396p + 1197q − 120030 Als Deckungsbeitrag ergibt sich eine Zielfunktion mit linearen und quadratischen Termen in p und q - in der oben eingeführten Sprechweise also eine quadratische Funktion zweier Variablen. Ziel des Möbelherstellers ist die Maximierung dieses Deckungsbeitrages durch geeignete Festlegung von p, q. Dies kann mit Ableitungskonzepten für Funktionen mehrerer Veränderlichen erreicht werden, welche wir später behandeln werden. Der Deckungsbeitrag wird maximal für p = 113, q = 256, vgl. Beispiel 7.2 vgl. S. 233 . Wir beschließen das Beispiel mit grafischen Darstellungen der Gewinnfunktion vgl. Abbildung 6.4 . Dabei werden der ökonomisch relevante Definitionsbereich für die Preise p,q und die Niveaulinien der Nachfragefunktion für Bill2 skizziert, rechts in einer räumlichen Ansicht, links im Konturdiagramm. Das Gewinnmaximum im Bereich der innersten skizzierten Niveaukurve ist gut erkennbar. Im vorliegenden Beispiel wurde mit (affin) linearen Nachfragefunktionen gearbeitet, jedoch sind auch komplexere Funktionsmodelle (quadratische Funktionen etc.) denkbar, von denen jeweils die grundlegenden Anforderungen bei Substitutionsgütern bzw. Komplementärgütern eingehalten werden müssen. Sicherlich erahnen Sie, dass dann auch die Modellierung beispielsweise durch Steckbriefmethoden erheblich aufwendiger ist exemplarisch ist dies in [ Terveer/ Terveer , 2011] für quadratische Nachfragefunktionen einer Variablen dargestellt. <?page no="182"?> 182 6 Differentialrechnung 6.2.3 Produktionsfunktionen in mehreren Variablen Lineare Materialverflechtungen zwischen Produkten und Rohstoffen gehen von festen Teilelisten für jedes Produkt aus. Oft lässt sich der Produktionsertrag eines Gutes aus mehreren Rohstoffen aber auch über diverse „Rezepturen“ aus mehreren Rohstoffen erzielen, wobei die Rohstoffe innerhalb gewisser Grenzen unabhängig voneinander variieren dürfen. Rohstoffe sind auch Inputs wie Energie, Arbeit, Kapital. Die einzelnen Rohstoffe mögen durchnummeriert von 1 bis n in den Mengen x 1 , . . . , x n vorliegen. Der Produktionsertrag y stellt sich dann in der Form y = f(x 1 , . . . , x n ) ≥ 0 dar, wobei f : D → R , D ⊆ R n , eine geeignete Funktion ist. Eine solche Funktion wird dann Produktionsfunktion genannt. Meist ist dabei der Definitionsbereich D = [0; ∞ [ n oder D =]0; ∞ [ n , wobei x j = 0 dafür steht, dass Rohstoffj in der aktuellen Konstellation (x 1 , . . . , x n ) T nicht eingesetzt wird. Obergrenzen für den Rohstoffeinsatz werden oft nicht im Definitionsbereich, sondern durch explizite Restriktionen erfasst. Manchmal ergibt sich die Zuordnung des Produktionsertrags zu den Rohstoffen durch technische Spezifikationen; dann ist die Produktionsfunktion also nicht Gegenstand der ökonomischen Modellierung, sondern wird als „externe“ Bestimmungsgröße in die Modellierung eingebaut. Oft werden aber auch Ökonomen unmittelbar mit der Aufgabe betraut sein, ein Rohstoff-Produkt-Gefüge in eine geeignete Funktion mehrerer Variablen übersetzen zu müssen. In der klassischen Produktionstheorie betrifft dies vor allem Zusammenhänge, in denen die Produktionsfaktoren Arbeit und Kapital auftreten. Die tatsächlich verwendete Produktionsfunktion wird dann aus einer größeren Funktionsklasse durch geeignete Wahl von Parametern festgelegt. Dazu verwendet man bevorzugt die KQ-Methode anhand vorliegender empirischer Daten. Die wichtigsten Funktionstypen zur ökonomischen Modellierung des Produktionsertrages sind Cobb-Douglas- (CD-) und CES-Produktionsfunktionen: Definition 6.7 (Cobb-Douglas-Funktion) ! Eine CD-Funktion hat den Funktionsterm f(x 1 , . . . , x n ) = c · x a 1 1 · . . . · x a n n für x 1 > 0, . . . , x n > 0, wobei c > 0, a 1 > 0, . . . , a n > 0 geeignete Konstanten sind. Dieser Funktionstyp ist nach den beiden Wirtschaftswissenschaftlern Cobb und Douglas benannt: Beispiel 6.9 In [ Cobb/ Douglas , 1928] kamen die beiden Autoren durch Diskussion empirischer Daten zur amerikanischen Volkswirtschaft zu dem Schluss, dass mit der Funktion (L, C) → P = 1, 01 · L 3 4 C 1 4 der beiden ökonomischen Größen Arbeit L und Kapital C die Produktivität P in den Vereinigten Staaten von Amerika in der Zeit von 1899 bis 1922 in zufrieden stellender Weise modelliert werden konnte. Die Funktion ist in Abbildung 6.5, links, skizziert. Die von Cobb und Douglas verwendete Funktion hat die naheliegende Proportionalitätseigenschaft, dass eine gleichzeitige Vervielfachung aller Inputs um den gleichen Faktor zu einer eben solchen Vervielfachung des Outputs führt, d.h. es gilt 1, 01 · (λL) 3 4 (λC) 1 4 = λ · 1, 01 · L 3 4 C 1 4 . Dies liegt daran, dass die Summe der Exponenten Eins <?page no="183"?> 6.2 Funktionen mehrerer Variablen in der Ökonomie 183 0 5 10 L 0 5 10 C 0 5 10 P 0.0 0.5 1.0 1.5 2.0 x 0.0 0.5 1.0 1.5 2.0 y 0.0 0.5 1.0 1.5 2.0 f x,y 0.0 0.5 1.0 1.5 2.0 x 0.0 0.5 1.0 1.5 2.0 y 0.0 0.5 1.0 1.5 2.0 f x,y Abbildung 6.5: Produktionsfunktionen (L, C) → 1, 01 · L 3 4 C 3 4 (links), (x, y) → ( 1 2 x 1 2 + 1 2 y 1 2 ) 2 (Mitte), (x, y) → ( 1 2 x − 1 2 + 1 2 y − 1 2 ) − 2 (rechts), grafische Darstellung ist. Allgemein wird diese Proportionalitätseigenschaft einer CD-Produktionsfunktion durch Parameterkonstellationen mit a 1 + · · · + a n = 1 berücksichtigt. Produktionsschwund hingegen kann durch Parameterwahlen mit a 1 + · · · + a n ≤ 1 erfasst werden. Dass die Exponentensumme größer als Eins ist, kommt eher selten vor. Cobb-Douglas-Funktionen sind genau wie Monome definiert, der einzige Unterschied besteht darin, dass die Exponenten jetzt beliebige positive reelle Zahlen sein dürfen, während sie bei Monomen natürliche Zahlen sein müssen. Mathematisch sind auch negative Exponenten in CD-Funktionen zulässig, dann lassen sich die Terme nicht im Produktionskontext (ggf. aber als Nachfragefunktionen) verwenden. Definition 6.8 (CES-Funktion) ! Eine CES-Funktion hat den Funktionsterm f(x 1 , . . . , x n ) = c · (a 0 + a 1 x p 1 + . . . + a n x pn ) 1 p für x 1 > 0, . . . , x n > 0, wobei c > 0, a 0 ≥ 0, a 1 > 0,. . . , a n > 0, und p ∈ R , p = 0, p = 1, geeignete Parameter sind. CES-Funktionen wurden erstmals in [ Arrow et al. , 1961] vorgestellt. Die Abkürzung steht für „constant elasticity of substitution“ - für diesen Funktionstyp ist die Substitutionselastizität vgl. S. 210f. konstant. Wir betrachten zwei Beispiele von CES-Funktionen: Beispiel 6.10 f(x 1 , x 2 , x 3 ) = ( 1 1+ 1 √ x 1 + 1 √ x 2 + 1 √ x 3 ) 2 = (1 + x − 1 / 2 1 + x − 1 / 2 2 + x − 1 / 2 3 ) − 2 ist eine CES- Funktion mit n = 3, c = 1, a 0 = 1, a 1 = a 2 = a 3 = 1, p = − 1 2 f(x 1 , x 2 ) = 5 · 3 √ 2 + x 3 1 + x 3 2 ist eine CES-Funktion mit n = 2, c = 5, a 0 = 2, a 1 = a 2 = 1, p = 3. Zwei weitere Beispiele von CES-Produktionsfunktionen sind in Abbildung 6.5, Mitte und rechts dargestellt. Cobb-Douglas-Funktionen können als Grenzfall p = 0 der CES- Funktionen aufgefasst werden. Im Falle von a 0 = 0 und a 1 + · · · + a n = 1 gilt lim p → 0 p √ a 1 x p 1 + · · · + a n x p n = x a 1 1 · · · x a n n <?page no="184"?> 184 6 Differentialrechnung Für den Spezialfall n = 2 vgl. hierzu Übungsaufgabe 5 vgl. S. 185 . 6.2.4 Homogene Funktionen in der Ökonomie Bei den Cobb-Douglas-Funktionen mit Exponentensumme Eins haben wir bereits die Proportionalität angesprochen. Oft lässt sich in ökonomischen Input-Output-Zusammenhängen ein charakteristisches Verhalten erkennen: Vervielfacht man einen Produktionsfaktor um den Faktor λ und behält man das Einsatzverhältnis der Faktoren bei (d.h. vervielfacht die übrigen Produktionsfaktoren mit demselben Faktor), dann wird auch der Output um einen Faktor vergrößert, der nur von λ, nicht aber von den Input- Variablen abhängt. Ist dieser Faktor von der Form λ r für ein r ≥ 0, so spricht man von r-homogenen Funktionen. Dies lässt sich grundsätzlich auch auf den Fall r < 0 übertragen, was z.B. für Nachfragefunktionen interessant werden kann. Der einfachste Fall ist der Zusammenhang mit linearen Verflechtungsmodellen; alsdann ist r = 1 und man spricht wie schon angedeutet auch von proportionalen Beziehungen. Jedoch sind auch die Fälle r > 1 (überproportionaler Zusammenhang) und vor allem r < 1 (unterproportionaler Zusammenhang) von Bedeutung. Letzterer tritt regelmäßig im Produktionskontext auf, wenn mit erhöhter Produktionsintensität ein technisch bedingter Schwund verbunden ist. Es sollte nicht verwundern, dass homogene Zusammenhänge ein verhältnismäßig einfaches Änderungsverhalten des Output bei simultaner und proportionaler Änderung aller Inputvariablen bedingen; weil sich dieses Änderungsverhalten auf die Zahl r, den Homogenitätsgrad zurückführen lässt, sind homogene Modellansätze sehr beliebt unter Ökonomen. Die zur Beschreibung derartiger Sachverhalte erforderlichen Funktionen nennt man dann ebenfalls homogen. Definition 6.9 ! [1] Eine Funktion f : D ⊆ R n → R heißt homogen vom Grad r, falls für alle x = (x 1 , . . . , x n ) T ∈ D und λ ∈ R mit λx ∈ D gilt f(λx) = f(λx 1 , . . . , λx n ) ! = λ r · f(x 1 , . . . , x n ) = λ r · f(x) [2] f heißt linear-homogen, wenn f homogen vom Grad 1 ist, d.h. wenn für alle x ∈ D und λ ∈ R mit λx ∈ D gilt f(λx) = λ · f(x) [3] f heißt positiv-homogen vom Grad r, wenn für alle x ∈ D und λ > 0 mit λx ∈ D gilt: f(λx) = λ r · f(x) Homogene Funktionen treten vor allem bei der Modellierung von Produktionszusammenhängen (dann zumeist linear-homogen), aber auch im Nachfragekontext u.a.m. auf. Streng formal sind homogene Funktionen in ökonomischen Kontexten meist positiv homogen, da negative Werte von λ zu Vektoren λx führen, die nicht mehr im meist gegebenen ökonomischen Definitionsbereich D ⊆ [0; ∞ [ n liegen. Von den bisher behandelten Funktionstypen sind etliche homogen: Lineare Funktionen sind linear homogen: Linearität bedeutet u.a. f(λx) = λ 1 f(x). Quadratische Formen, d.h. quadratische Funktionen mehrerer Variablen der Form f : R n → R , f(x) : = 〈 x, Ax 〉 mit einer quadratischen Matrix A ∈ R n × n sind homogen vom Grad 2, denn für alle λ ∈ R und x ∈ R n gilt: f(λx) = 〈 λx, A(λx) 〉 = 〈 λx, λ(Ax) 〉 = λ 2 〈 x, Ax 〉 = λ 2 f(x) <?page no="185"?> 6.2 Funktionen mehrerer Variablen in der Ökonomie 185 0.0 0.5 1.0 1.5 2.0 x 0.0 0.5 1.0 1.5 2.0 y 0.0 0.5 1.0 x 3 8 y 1 8 0.0 0.5 1.0 1.5 2.0 x 0.0 0.5 1.0 1.5 2.0 y 0.0 0.5 1.0 1.5 2.0 x 3 4 y 1 4 0.0 0.5 1.0 1.5 2.0 x 0.0 0.5 1.0 1.5 2.0 y 0 1 2 3 4 x 3 2 y 1 2 Abbildung 6.6: Strahlverhalten der Funktionen (x, y) → x 3 8 y 1 8 , (x, y) → x 3 4 y 1 4 , (x, y) → x 3 2 y 1 2 (von links nach rechts). Hier wurden die Eigenschaften des Skalarproduktes gemäß Satz 3.8 vgl. S. 86 und die Linearität des Matrix-Vektorproduktes gemäß Satz 4.1 vgl. S. 104 ausgenutzt. Cobb-Douglas-Funktionen f : D = [0; ∞ [ n → R , f(x) = c · x a 1 1 · . . . · x a n n sind stets (positiv) homogen. Der Homogenitätsgrad ist r = a 1 + . . . + a n , denn für alle x ∈ D , λ > 0 gilt: f(λx 1 , . . . , λx n ) = c · (λx 1 ) a 1 · . . . · (λx n ) a n = c · λ a 1 x a 1 1 · . . . · λ a n x a n n = λ r · f(x) CES-Funktionen der Form f : D =]0; ∞ [ n → R , f(x) = c · (a 0 +a 1 x p 1 +. . .+a n x p n ) 1 p sind positiv linear homogen, wenn a 0 = 0. Für alle x ∈ D , λ > 0 gilt dann nämlich nach Ausklammern von λ p in der p-ten Wurzel: f(λx) = c · (a 1 (λx 1 ) p + . . . + a n (λx n ) p ) 1 p = c · (λ p (a 1 x p 1 + . . . + a n x p n )) 1 p = λ · f(x) Eine r-homogene Funktion verhält sich längs Geraden { λx : λ ∈ R} oder Halbgeraden { λx : λ ≥ 0 } durch den Ursprung und x wie die Potenzfunktion λ → cλ r mit c = f(x). Für r < 1 ist sie längs der Halbgeraden rechtsgekrümmt (konkav), für r > 1 linksgekrümmt, für r = 1 linear. In Abbildung 6.6 ist dies für verschiedene Cobb- Douglas-Funktionen skizziert. Aus dem Strahlverhalten homogener Funktionen folgen später noch einige Ableitungsregeln. Übungen zu Abschnitt 6.2 ? 5. Zeigen Sie für für x, y > 0, α ∈ ]0; 1[ lim p → 0 (αx p + (1 − α)y p ) 1 / p = x α y 1 − α . 6. Die Funktion f(x, y) = c · min ( x a , y b ) r mit c, a, b, r > 0 heißt Leontief- Produktionsfunktion. a) Sei a = b = c = r = 1. Zeichnen Sie d- Isoquanten von f für d ∈ { 1 10 , 1 4 , 1 2 , 3 4 } . b) Welcher Sachverhalt wird durch eine Leontief-Produktionsfunktion erfasst? c) Überprüfen Sie f auf Homogenität. 7. Überprüfen Sie die folgenden Funktionen auf (positive) Homogenität. a) f(x, y) = x 2 + xy b) f(x, y, z) = x 2 + xy + z c) f(x, y) = xy/ (x 2 + y 2 ) d) f(x, y, z) = √ xy + x e) f(x, y) = max(x 2 , xy) f) f(x, y) = 1/ (x 2 + y 2 ) <?page no="186"?> 186 6 Differentialrechnung 6.3 Ableitungskonzepte für Funktionen mehrerer Variablen Für eine Funktion f : D ⊆ R → R einer Variablen und x 0 ∈ D , y 0 = f(x 0 ) lässt sich die Ableitung m = f ′ (x 0 ) auf zwei Arten erklären, die zum selben Ergebnis führen: als Grenzwert lim h → 0 f ( x 0 + h ) − f ( x 0 ) h von Differenzenquotienten. Über diesen Ansatz lassen sich die grundlegenden Ableitungsregeln (Faktor-, Summen-, Produkt- und Quotientenregel sowie Kettenregel) herleiten. als Linearisierung von f in x 0 . Die Gerade g(x) = y 0 + m(x − x 0 ) ist dann eine lineare Funktion mit f(x) ≈ y 0 + m(x − x 0 ), wenn x ≈ x 0 . Die Steigung m ist dadurch charakterisiert, dass lim x → x 0 f ( x ) − y 0 − m ( x − x 0 )) x − x 0 = 0. Anschaulich gesprochen hat die Gerade denselben Funktionswert und dieselbe Steigung in x 0 wie f. Der Nutzen der Ableitung liegt dann im Linearisierungsansatz: man erkennt hieraus beispielsweise die notwendige Bedingung f ′ (x) = 0 für lokale Extrema oder das Newton-Verfahren zur Bestimmung einer Nullstelle x 0 von f. Hierbei wird folgende rekursive Folge (x n ) n ∈N gebildet: x 1 ist ein nahe bei x 0 liegender Startwert und x n +1 ist jeweils eine Nullstelle von x → f(x n ) + f ′ (x n )(x − x n ). Auch bei Funktionen mehrerer Variablen lässt sich die Ableitung als Grenzwert und als Linearisierung definieren, die Ansätze weisen aber kleine Unterschiede auf: Der Grenzwertansatz führt zu partiellen Ableitungen vgl. Definition 6.10, S. 188 , bei denen sich nur eine der Inputvariablen ändert. Der Grenzwertübergang wird immer nur für eine Variable durchgeführt, während die anderen als Konstanten aufgefasst werden. Die bekannten Ableitungsregeln in einer Variablen lassen sich dann unmittelbar auf partielle Ableitungen übertragen. Die partiellen Ableitungen nach allen Variablen bündelt man in Form eines Spaltenvektors, des Gradienten. Der Ansatz der Linearisierung führt zu einer (affin) linearen Funktion in mehreren Variablen, welche die gegebene Funktion im vorgegebenen Punkt approximiert und deren Linearfaktoren zum so genannten Differential zusammengefasst werden. Funktionen, die sich linearisieren lassen, werden als (total) differenzierbare Funktionen bezeichnet vgl. Definition 6.11, S. 193 . Funktionen, deren partielle Ableitungen selber wieder stetige Funktionen aller Variablen sind, sind linearisierbar; sie stellen in den wirtschaftswissenschaftlichen Anwendungen den Regelfall dar. Man nutzt das Konzept partieller Ableitungen für den Kalkül zur praktischen Berechnung von Ableitungen, interpretiert den berechneten Gradient als Differential und linearisiert so die Funktion. 6.3.1 Die partielle Ableitung Am einfachsten ist das Änderungsverhalten einer Funktion mehrerer Variablen zu beschreiben, wenn nur eine der Variablen sich verändert, während die anderen ihren Wert behalten („ceteris paribus“). Betrachtet man etwa den Kontext eines Marktes, auf dem jeder Anbieter für sein Produkt eine Nachfragefunktion hat, die von den Preisen aller Anbieter abhängt, so entspricht dies der Annahme, dass nur ein Anbieter den Preis für sein Produkt ändern will, die anderen jedoch ihre Preise beibehalten. Damit werden alle Nachfragefunktionen zu Funktionen dieses einen Preises, der sich verändert. <?page no="187"?> 6.3 Ableitungskonzepte für Funktionen mehrerer Variablen 187 2 0 2 4 x 2 0 2 4 y 150 100 50 0 2 1 1 2 3 4 x 30 20 10 10 g x f x,1 2 1 1 2 3 4 y 60 50 40 30 20 10 10 h y f 1, y Abbildung 6.7: Typische Bewegungsrichtungen und Schnittfunktionen bei einer Funktion zweier Variablen Diese Funktion einer Variablen kann auch sichtbar gemacht werden, wie in Abbildung 6.7 anhand der Funktion f(x, y) = x 3 − 6x 2 − 6y 2 + 5xy + 10y im Punkt (1, 1) T dargestellt. Hält man die Variable y bei 1 fest und verändert nur die Variable x, entseht entsteht die so genannte Schnittfunktion g(x) = f(x, 1) = x 3 − 6x 2 + 5x + 4. Der Verlauf dieser Funktion ist in Abbildung 6.7, Mitte dargestellt. Zum Vergleich sind links die entsprechenden Funktionswerte f(x, 1) als (parametrische) Kurve auf dem Funktionsgraphen eingezeichnet. Leitet man g nach x ab, so ergibt sich g ′ (x) = 3x 2 − 12x+5 und g ′ (1) = − 4. Die Tangente an g in x = 1 lautet x → − 4x+8. Hält man nun die Variable x bei 1 fest, so ergibt sich in der Veränderlichen y die Schnittfunktion h(y) = f(1, y) = − 6y 2 + 15y − 5, deren Graph in Abbildung 6.7, rechts, dargestellt ist. Nach y abgeleitet ergibt sich h ′ (y) = − 12y +15 und h ′ (1) = 3 Hat man sich erst einmal daran gewöhnt, Variablen als temporär konstant aufzufassen, so wird man auf den Schritt, in die konstant zu haltende Variable zunächst ihren konkreten Wert einzusetzen, verzichten (zumal dieser a priori meist gar nicht vorgegeben ist) und sich diese Variable selbst wie eine Konstante vorstellen. Wenn beispielsweise nach x abgeleitet werden soll, so wird dies durch das Voranstellen des Symbols ∂ ∂x vor den Funktionsterm angedeutet. Die Rechnung im vorliegenden Beispiel lautet dann ∂ ∂x (x 3 − 6x 2 − 6y 2 + 5xy + 10y) = 3x 2 − 12x + 5y Dabei ist zu beachten, dass im Summand 5xy der Faktor 5y wie eine Konstante zu behandeln ist, weshalb 5xy bei Differenzieren nach der Variable x mit der Faktorregel zu eben dieser Konstanten 5y abgeleitet wird und die Ausdrücke − 6y 2 und 10y in der Variable x als Konstante gelten, mithin bei Differenzieren nach x zu Null abgeleitet werden. Mit der ∂ ∂ · -Schreibweise lautet entsprechend die Ableitung nach y ∂ ∂y (x 3 − 6x 2 − 6y 2 + 5xy + 10y) = − 12y + 5x + 10 Es gibt hier also zwei verschiedene Möglichkeiten, eine Variable als Veränderliche und die andere als Konstante aufzufassen. Keine von diesen ist vor den anderen besonders <?page no="188"?> 188 6 Differentialrechnung ausgezeichnet, sondern es werden - auch mit Hinblick auf die späteren Ableitungskonzepte - alle partiellen Ableitungen benötigt und daher in einem Vektor gebündelt. Das ist auch bei mehr als zwei Variablen der Fall: Definition 6.10 (Partielle Ableitungen und Gradient) ! Es sei D ⊆ R n und f : D → R eine Funktion. [1] Für festes x = (x 1 , . . . , x n ) T ∈ D und i ∈ { 1, . . . , n } heißt f partiell differenzierbar in x nach der i-ten Komponente, wenn die so genannte i-te partielle Ableitung lim h → 0 f(x 1 , . . . , x i − 1 , x i + h, x i+1 , . . . , x n ) − f(x 1 , . . . x i − 1 , x i , x i+1 , . . . , x n ) h existiert. Sie wird dann mit ∂ ∂x i f(x 1 , . . . , x n ) bzw. D i f(x 1 , . . . , x n ) bezeichnet. [2] Falls in x ∈ D alle partiellen Ableitungen von f existieren, so heißt f partiell differenzierbar in x, und ∇ f(x) : = (D 1 f(x), . . . , D n f(x)) T (sprich „Nabla f “) heißt Gradientenvektor von f (kurz: Gradient von f) in x. [3] f heißt partiell differenzierbar in D , wenn f in jedem x ∈ D partiell differenzierbar ist. Beispiel 6.11 Die partielle Ableitung von f(x, y) = x 3 + 2xy + e 7 y nach der Variable x lautet ∂ ∂x f(x, y) = 3x 2 + 2y Denn nach der Summenregel ist sie Summe der partiellen Ableitungen von ∂ ∂x x 3 bzw. ∂ ∂x 2xy bzw. ∂ ∂x e 7 y nach x. Die erste dieser Ableitungen ist 3x 2 , die zweite ergibt sich nach der Faktorregel als 2y, denn in dem Produkt 2xy wird der Term 2y als Konstante interpretiert, wenn nach x abgeleitet wird. Die dritte Ableitung schließlich ist 0, da die Variable x gar nicht darin auftritt. Die partielle Ableitung von f nach y ist entsprechend ∂ ∂y f(x, y) = 2x + 7e 7 y Der erste Summand wird zu 0 abgeleitet, weil er gar nicht von y abhängt, der zweite Summand nach der Faktorregel zu 2x, weil er linear in y mit Faktor 2x ist. Der dritte Summand muss nach der Kettenregel differenziert werden, wodurch sich der Faktor 7 vor dem Exponential ergibt. Insgesamt hat f also den Gradienten ∇ f(x, y) = ( 3x 2 + 2y 2x + 7e 7 y ) Beispiel 6.12 Bei der Funktion f : R 3 → R , f(x, y, z) = xz 1+ x 2 + y 2 werden die partiellen Ableitungen z.B. mittels Quotientenregel für die partielle Ableitung nach x, Kettenregel beim Ableiten nach y und Faktorregel für die Ableitung nach z bestimmt: ∂ ∂y xz 1 + x 2 + y 2 = z(1 + x 2 + y 2 ) − xz2x (1 + x 2 + y 2 ) 2 = z(1 + y 2 − x 2 ) (1 + x 2 + y 2 ) 2 <?page no="189"?> 6.3 Ableitungskonzepte für Funktionen mehrerer Variablen 189 ∂ ∂y xz 1 + x 2 + y 2 = − 2xyz (1 + x 2 + y 2 ) 2 ∂ ∂z xz 1 + x 2 + y 2 = x (1 + x 2 + y 2 ) Zusammengefasst lautet der Gradient ∇ f(x, y, z) = ( z(1 + y 2 − x 2 ) (1 + x 2 + y 2 ) 2 , − 2xyz (1 + x 2 + y 2 ) 2 , x 1 + x 2 + y 2 ) T Regel für partielles Ableiten Man leitet eine Funktion partiell nach einer Variablen x ab, indem man im Funktionsterm alle anderen Variablen wie Konstanten auffasst und mit den „üblichen“ Ableitungsregeln einer Variablen nach x differenziert. Entsprechend verfährt man mit jeder der auftretenden Variablen. Besonders häufig treten in Anwendungen die Ableitungen linearer und quadratischer Funktionen auf. Eine lineare Funktion einer Variablen f(x) = cx hat die Ableitung f ′ (x) = c, ist also konstant. Entsprechendes lässt sich für lineare Funktionen mehrerer Variablen sagen: Beispiel 6.13 Die Funktion f : R 2 → R , f(x, y) = 5x − 3y hat die partiellen Ableitungen ∂ ∂x f(x, y) = 5 und ∂ ∂y f(x, y) = − 3. Der Gradient ist also ∇ f(x, y) = (5, − 3) T . Beachten Sie, dass sich f in der Form f(x, y) = 〈( 5 − 3 ) , ( x y )〉 darstellen lässt und ∇ f(x, y) gerade der links im Skalarprodukt stehende Vektor ist. Diese Rechnung lässt sich auf beliebige lineare Funktionen von n Variablen übertragen: Satz 6.1 Es sei c = (c 1 , . . . , c n ) T ∈ R n . Die lineare Funktion f : R n → R , f(x) = 〈 c, x 〉 = c T x = c 1 x 1 + · · · + c n x n hat den Gradient ∇ f(x) = c für x = (x 1 , . . . , x n ) T ∈ R n . Kurz gefasst lässt sich festhalten: Der Gradient einer linearen Funktion ist konstant. Entsprechend kann man sagen, dass der Gradient einer quadratischen Funktion linear ist. Von quadratischen Funktionen f(x) = cx 2 einer Variablen ist dies hinlänglich bekannt, es gilt hier f ′ (x) = 2cx. Beispiel 6.14 Die Funktion f : R 2 → R , f(x, y) = 2x 2 − 6xy + 5y 2 hat die partiellen Ableitungen ∂ ∂x (2x 2 − 6xy + 5y 2 ) = 4x − 6y = 2(2x − 3y) ∂ ∂y (2x 2 − 6xy + 5y 2 ) = − 6x + 10y = 2( − 3x + 5y) <?page no="190"?> 190 6 Differentialrechnung Der Gradient von f lautet also ∇ f(x, y) = ( 4x − 6y − 6x + 10y ) = 2 ( 2x − 3y − 3x + 5y ) = 2 ( 2 − 3 − 3 5 ) ( x y ) Die Matrix A = ( 2 − 3 − 3 5 ) lässt sich auch zur Darstellung der Funktion f verwenden: f(x, y) = 〈( x y ) , ( 2 − 3 − 3 5 ) ( x y )〉 Diese Rechnungen gelten entsprechend für quadratische Formen in n Variablen: Satz 6.2 Es sei A ∈ R n × n eine symmetrische Matrix. Die quadratische Form f : R n → R , f(x) = 〈 x, Ax 〉 mit x = (x 1 , . . . , x n ) T ∈ R n hat den Gradienten ∇ f(x) = 2Ax. Ist die Matrix A einmal nicht symmetrisch, so ist die Ableitung im letzten Satz in der Form ∇ f(x) = (A + A T )x zu formulieren. Weil wir uns darauf verständigt haben, Vektoren in Form von Spaltenvektoren zu schreiben - wodurch sich dann auch die Matrizenoperationen festlegten - haben wir auch den Gradienten als Spaltenvektor erklärt. Aus Platzgründen stellen wir ihn dann zuweilen als transponierten Zeilenvektor dar. Manchmal wird der Gradient aber auch selbst als Zeilenvektor erklärt. Hintergrund ist, dass die partiellen Ableitungen einer mehrwertigen Funktionen f = (f 1 , . . . , f m ) T partiell differenzierbarer Funktionen f i : R n → R zusammengefasst dargestellt werden in der so genannten Jacobi-Matrix J f (x 1 , . . . , x n ) = ∂(f 1 , . . . , f m ) ∂(x 1 , . . . , x n ) = ⎛ ⎜ ⎜ ⎜ ⎝ ∂ ∂x 1 f 1 ∂ ∂x 2 f 1 · · · ∂ ∂x n f 1 ∂ ∂x 1 f 2 ∂ ∂x 2 f 2 · · · ∂ ∂x n f 2 ... ... . . . ... ∂ ∂x 1 f m ∂ ∂x 2 f m · · · ∂ ∂x n f m ⎞ ⎟ ⎟ ⎟ ⎠ Bei einer Funktion f : R n → R 1 stimmen transponierte Jacobi-Matrix und Gradient überein. Beispiel 6.15 Die Funktion (r, φ) ∈ [0; 2π[ × [0; ∞ [ → (x, y) = g(r, φ) = (r cos(φ), r sin(φ)) heißt Polarkoordinatentransformation; sie bildet Rechtecke [r 1 ; r 2 ] × [φ 1 ; φ 2 ] auf Kreisringsektoren gemäß Abbildung 6.8 ab. Man nennt r und φ auch die Polarkoordinaten des Punktes (x, y) T vgl. Abbildung 6.8 . Sie hat die Jacobi-Matrix J f (r, φ) = ( ∂ ∂r r cos(φ) ∂ ∂φ r cos(φ) ∂ ∂r r sin(φ) ∂ ∂φ r sin(φ) ) = ( cos(φ) − r sin(φ) sin(φ) r cos(φ) ) Wir werden Polarkoordinaten in der Integralrechnung verwenden, um das Gauß’sche Fehlerintegral zu bestimmen, vgl. Abschnitt 6.6.2. Fasst man das Ergebnis des partiellen Ableitens wieder als Funktion der vorliegenden Variablen auf, so lässt sich die partielle Ableitung aus mathematischer Sicht als <?page no="191"?> 6.3 Ableitungskonzepte für Funktionen mehrerer Variablen 191 r 1 r 2 x y Φ 2 Φ 1 r 1 r 2 x y r 1 r 2 r Φ 1 Φ 2 Φ r 1 r 2 r Φ 1 Φ 2 Φ Abbildung 6.8: Transformation eines Rechteckes in einen Kreisringsektor mittels Polarkoordinaten Operator interpretieren, d.h. als eine Zuordnung, die einer (partiell differenzierbaren) Funktion wieder eine Funktion zuordnet. Man spricht daher auch vom Partialableitungs-„Operator“ ∂ ∂ · . Zunächst wird mittels dieses Operators eine neue Funktion, die Ableitungsfunktion berechnet. Der konkrete Wert der Ableitung wird danach durch Einsetzen der Werte in die Argumente der Funktion bestimmt. Das führt in manchen Situationen (z.B. bei der Formulierung und Anwendung der Kettenregel) zu Bezeichnungskonflikten, wenn die nachträglich einzusetzenden Werte wieder andere Variablen sind. Einheitliche Notation: Mit ∂f ∂x ∣ ∣ ∣ ∣ x = t ist folgende Vorgehensweise gemeint: [1] Mit dem Term ∂f ∂x wird ausgedrückt, dass die Funktion f in den Variablen, in welchen sie anfangs erklärt wurde, nach der Variable x abgeleitet wird. [2] Jedes Auftreten von x in ∂f ∂x wird durch den (geklammerten) Term t ersetzt. Sinngemäß kann diese Schreibweise auch für Jacobi-Matrizen anstelle einzelner partieller Ableitungen verwendet werden. Beispiel 6.16 Für f(x, y) = x 2 + xy ist ∂f ∂x = 2x + y, ∂f ∂y = x, ∂f ∂z = 0, ∂f ∂x ∣ ∣ x =3 y =2 = 8, ∂f ∂x ∣ ∣ x = y = 3y. Bei direkter Angabe eines Terms etwa: ∂ ( z 2 + zy ) ∂z = 2z+y und ∂ ( z 2 + zy ) ∂z ∣ ∣ ∣ z = x = 2x+y. Bei solider Beherrschung der Ableitungsregeln für Funktionen einer Variablen gibt sich die anfängliche Unsicherheit beim Bestimmen partieller Ableitungen ziemlich rasch. Nach dem Bearbeiten der Beispiele in den Übungsaufgaben sollten Sie fit für die komplizierteren Ableitungskonzepte sein. 6.3.2 Das Differential Differenzierbare Funktionen f : D → R , D ⊆ R einer Variablen lassen sich durch lineare Funktionen approximieren und dieser Sachverhalt wird ausgiebig genutzt, beispielswei- <?page no="192"?> 192 6 Differentialrechnung 2 0 2 4 x 2 0 2 4 y 150 100 50 0 50 Abbildung 6.9: Linearisierung einer Funktion zweier Variablen se in der Optimierung. Bei Funktionen mehrerer Variablen ist die Approximation durch lineare Funktionen etwas umständlicher, weil auch die linearen Funktionen von mehr als einer Variablen abhängen werden. Zudem reicht die partielle Differenzierbarkeit nicht ganz aus, eine Funktion f : D ⊆ R n → R von n Variablen zu linearisieren. Wir wollen die Linearisierung anhand von Funktionen mit zwei Variablen verdeutlichen. Dann bedeutet „Annäherung durch lineare Funktionen“ den Ansatz, eine Ebene an den Graphen von f zu legen, die diesen Graphen in einem gegebenen Punkt (x, y) T gerade berührt. Man nennt diese Ebene daher Tangentialebene vgl. Abbildung 6.9 . Angelegt in (x, y) T an den Graphen von f hat sie die Gleichung g(x + d 1 , y + d 2 ) = f(x, y) + a 1 · d 1 + a 2 · d 2 Dabei beschreibt a 1 die Steigung der Tangentialebene in x-Richtung und a 2 die Steigung der Tangentialebene in y-Richtung. Diese Steigungen müssen - um von einer Linearisierung sprechen zu können - mit den entsprechenden Steigungen von f in xbzw. y-Richtung übereinstimmen, sind also - wenn es überhaupt eine derartige Linearisierung gibt - die partiellen Ableitungen von f in x und y. Zudem muss die Linearisierung in (x, y) T auch noch eine ausreichende Approximation von f darstellen, d.h. der Unterschied zwischen f(x + d 1 , y + d 2 ) und g(x + d 1 , y + d 2 ) muss mit (d 1 , d 2 ) → (0, 0) „hinreichend klein“ werden. Konkret muss gelten: lim ( d 1 ,d 2 ) → (0 , 0) f(x + d 1 , y + d 2 ) − f(x, y) − a 1 d 1 − a 2 d 2 √ d 2 1 + d 2 2 = 0 Zudem wird man regelmäßig Schwierigkeiten mit dieser Art der Linearisierung haben, wenn es um Randpunkte des Definitionsbereiches geht. <?page no="193"?> 6.3 Ableitungskonzepte für Funktionen mehrerer Variablen 193 Definition 6.11 ! [1] Es sei D ⊆ R n . Ein Punkt x ∈ D mit B r (x) ⊆ D für ein r > 0 heißt innerer Punkt. Eine Menge D ⊆ R n heißt offen, wenn sie nur innere Punkte hat. [2] Es sei D ⊆ R n offen. Eine in x ∈ D partiell differenzierbare Funktion f : D ⊆ R n → R heißt (total) differenzierbar in x mit Ableitung bzw. Differential Df(x) = ∇ f(x) ∈ R n , wenn gilt lim d → ¯0 f(x + d) − (f(x) + 〈 Df(x), d 〉 ) ‖ d ‖ = 0 [3] f heißt in D differenzierbar, wenn f in jedem x ∈ D differenzierbar ist. [4] f heißt in D stetig differenzierbar, wenn f in D differenzierbar ist und die Abbildung Df : D → R n stetig ist in D (d.h. ∀ x ∈ D lim y → x Df(y) = Df(x)). Wir wollen nachfolgend die wesentlichen Aspekte Offenheit, Linearisierbarkeit und die Abgrenzung des Differentials vom Gradienten besprechen: Zur Offenheit: Die Offenheit des Definitionsbereiches D ist für die (totale) Differenzierbarkeit von f erforderlich, da in nicht inneren Punkten (sog. Randpunkten) von D Linearisierungen u.U. nicht möglich sind. Dieses Phänomen kennen Sie schon bei Funktionen einer Variablen, beispielsweise ist f : [0; ∞ [ → R , f(x) = √ x, im Randpunkt x = 0 nicht differenzierbar, obwohl die Funktion dort stetig ist. Die Funktion nimmt in x = 0 ihr Minimum an, dieses kann aber nicht über die notwendige Bedingung f ′ (x) = 0 bestimmt werden. Entsprechende Probleme können bei Funktionen mehrerer Variablen und deren Definitionsbereichen auftreten. Beispiel 6.17 Die Funktion f : [0; ∞ [ 2 → R , f(x, y) = x 3 8 y 1 8 ist für x, y mit x = 0 oder y = 0, aber x + y > 0 nicht partiell differenzierbar und damit auch nicht total differenzierbar. Denn die Funktion verhält sich auf Geraden parallel zur x-Achse wie die in 0 nicht differenzierbare Funktion x → cx 3 8 und auf Geraden parallel zur y-Achse wie die in 0 nicht differenzierbare Funktion y → cy 1 8 . für x = y = 0 nicht total differenzierbar, aber partiell differenzierbar. Die partielle Differenzierbarkeit ergibt sich, weil x → f(x, 0) = 0 und y → f(0, y) = 0 jeweils konstant und damit differenzierbar ist. Auf dem Strahl { (x, x) : x ≥ 0 } verhält sich f(x, y) = f(x, x) = x 1 / 2 wie die in 0 nicht differenzierbare Quadratwurzelfunktion, daher ist f in (0, 0) T nicht total differenzierbar. Allerdings ist f im gesamten Definitionsbereich stetig. Die „neuralgischen“ Punkte im vorangegangenen Beispiel sind Randpunkte von D , also gerade diejenigen Punkte, die weder innere Punkte von D noch von der Restmenge R n \ D (Komplement von D ) sind. Bei allen Untersuchungen unter Verwendung des Differenzierbarkeitsbegriffs sollte man möglichst mit offenen Definitionsbereichen arbeiten, gegebenenfalls durch getrennte Behandlung von Randpunkten. Beispielsweise bestimmt man beim Optimieren erst alle lokalen Extrema im Inneren von D und führt anschließend den Randwertvergleich, d.h. den Vergleich mit den Randpunkten durch. Offene Mengen sind beispielsweise alle Teilmengen des R n , welche durch eine oder mehreren Ungleichungen der Form g(x) < 0 mit stetigen Funktionen beschrieben werden, so beispielsweise offene Kugeln, Ellipsoide oder Quader ]a 1 ; b 1 [ × · · · × ]a n ; b n [. <?page no="194"?> 194 6 Differentialrechnung -1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1 Abbildung 6.10: Kontour-Diagramm der partiell, aber nicht total differenzierbaren Funktionen aus Beispiel 6.18 Man erkennt offene Mengen meist daran, dass sie mit Hilfe einer oder mehrerer <bzw. >-Ungleichungen beschrieben sind, wobei die auf beiden Seiten der Ungleichung stehenden Terme zu stetigen Funktionen gehören. Zur Linearisierbarkeit: Total differenzierbare Funktionen f : D → R werden auch als linearisierbare Funktionen bezeichnet. Ist f in x ∈ D differenzierbar, so ist g : R n → R , g(y) = f(x) + 〈 Df(x), y − x 〉 eine affin lineare Funktion, die in x denselben Funktionswert und in jeder Richtung von x aus dieselbe Steigung hat wie f. Wie bei Funktionen einer Variablen gilt: Satz 6.3 Eine in x (0) ∈ D total differenzierbare Funktion f : D → R ist in x (0) stetig. Denn es ist lim x → x (0) f(x) = lim x → x (0) (f(x (0) ) + 〈 Df(x (0) ), x − x (0) 〉 + r(x − x (0) )) = f(x (0) ), weil Skalarprodukt und Restglied r(x − x (0) ) gegen Null konvergieren. Zur Abgrenzung von totaler und partieller Differenzierbarkeit: Bei der Definition der totalen Differenzierbarkeit gehen wir schon davon aus, dass die Funktionen partiell differenzierbar sind und verwenden die Begriffe Differential und Gradient synonym. Formal korrekter wäre es, totale Differenzierbarkeit losgelöst von der partiellen Differenzierbarkeit zu definieren; dies führt aber im Endeffekt zum gleichen Ergebnis. Nur für n = 1 sind totale und partielle Differenzierbarkeit identische Konzepte, für Funktionen mehrerer Variablen (n > 1) fallen sie auseinander. Das hatten wir schon im vorangegangenen Beispiel gesehen, wo aber Randpunkte Probleme bereiteten. Im folgenden Beispiel ist die Funktion in einem bestimmten inneren Punkt zwar partiell, aber nicht total differenzierbar, weil sie dort nicht stetig ist. Beispiel 6.18 Die Funktion f : R 2 → R mit f(x, y) = xy x 2 + y 2 falls (x, y) T = ¯0 und f(0, 0) = 0 ist in (0, 0) T partiell differenzierbar mit ∂f ∂x (0, 0) = 0 = ∂f ∂y (0, 0). Die Funktion ist aber in (0, 0) T weder stetig noch total differenzierbar, wie man an dem Kontur-Diagramm von f in Abbildung 6.10 sieht. Offenbar müsste sonst jede Niveaulinie der Funktion durch den Ursprung verlaufen, was aber der Stetigkeit widerspricht. <?page no="195"?> 6.3 Ableitungskonzepte für Funktionen mehrerer Variablen 195 In der Ökonomie sind die verwendeten Funktionen fast immer partiell differenzierbar mit stetigen partiellen Ableitungen und daher auch total differenzierbar. Satz 6.4 Sei D ⊆ R n offen und f : D → R stetig partiell differenzierbar, d.h. [1] f ist partiell differenzierbar in D . [2] Alle partiellen Ableitungen D 1 f : D → R , . . . , D n f : D → R sind stetig. Dann ist f (total) differenzierbar (und sogar stetig differenzierbar). Wie gesagt: Randpunkte des Definitionsbereiches sind in jedem Fall einer gesonderten Untersuchung zu unterziehen. Sieht man aber davon einmal ab, so lässt sich festhalten: Die Begriffe Gradient und Differential sind in der Ökonomie nahezu synonym. 6.3.3 Ableitungsregeln für Funktionen mehrerer Variablen Weil Differential und Gradient dieselbe Berechungsgrundlage haben, nämlich partielle Ableitungen, die sich wie gewöhnliche Ableitungen von Funktionen einer Variablen ergeben, lassen sich sämtliche Rechenregeln, die man hierfür kennt, auf den Umgang mit Differentialen und Gradienten übertragen. Dabei ist lediglich die Bündelung der partiellen Ableitungen im Gradientenvektor bzw. Differential zu berücksichtigen. Satz 6.5 Seien f, g : D ⊆ R n → R differenzierbar in x ∈ D . Dann sind für a, b ∈ R die Funktionen af + bg, f · g und, falls g(x) = 0, auch f g differenzierbar in x, und es gilt: [1] D(af + bg)(x) = aDf(x) + bDg(x), (Summenregel) [2] D(f g)(x) = g(x) · Df(x) + f(x) · Dg(x), (Produktregel) [3] D ( f g ) (x) = 1 (g(x)) 2 (g(x) · Df(x) − f(x) · Dg(x)) (Quotientenregel) Diese Regeln sind als Methoden zur Zusammenfassung partieller Ableitungen zu verstehen und eher selten in Gebrauch. Anders verhält es sich mit der Kettenregel: sie lässt unter Verwendung des Differentials - bzw. generell mit Hilfe der Jacobi-Matrix - verallgemeinern. Eine spezielle Version wird dabei häufig benötigt, um die so genannte Substitutionsgrenzrate vgl. S. 208 zu berechnen. Satz 6.6 (Spezialfälle der Kettenregel) Sei f : D ⊆ R n → R differenzierbar. [1] Kettenregel für (h ◦ f)(x) = h(f(x 1 , . . . , x n )): es sei h : ]a; b[ → R eine differenzierbare Funktion mit f(x) ∈ ]a; b[ für alle x ∈ D . Dann ist g = h ◦ f differenzierbar in D mit Dg(x) = h ′ (f(x)) · Df(x) [2] Kettenregel für (f ◦ h)(t) = f(h 1 (t), . . . , h n (t)): es seien h 1 , . . . , h n : ]a; b[ → R differenzierbare Funktionen einer Variablen mit h(t) = (h 1 (t), . . . , h n (t)) ∈ D für alle t ∈ ]a; b[. Dann ist g = f ◦ h : ]a; b[ → R differenzierbar mit g ′ (t) = n ∑ i=1 D i f(h 1 (t), . . . , h n (t)) · h ′ i (t) = n ∑ i=1 ∂f ∂x i (h 1 (t), . . . , h n (t)) · ∂h i ∂t <?page no="196"?> 196 6 Differentialrechnung Wir illustrieren zunächst die erste dieser Kettenregeln anhand von drei Beispielen: Beispiel 6.19 Die Funktion g : R 2 → R , g(x, y) = √ x 2 + y 2 = ‖ (x, y) ‖ ist Verkettung der Funktionen f(x, y) = x 2 + y 2 mit Differential Df(x, y) = (2x, 2y) T und h(t) = √ t mit h ′ (t) = 1/ 2 √ t für t > 0. Die Funktion g hat nach Kettenregel [1] für (x, y) T = ¯0 das Differential (den Gradienten) Dg(x, y) = h ′ (f(x, y)) · Df(x, y) = 1 2 ‖ ( x,y ) ‖ ( 2x 2y ) = ( x/ √ x 2 + y 2 y/ √ x 2 + y 2 ) Beispiel 6.20 Mit derselben Rechnung wie im vorangegangenen Beispiel zeigt man, dass die Norm- Funktion f : R n → R , f(x) = ‖ x ‖ für x = ¯0 das Differential Df(x) = 1 ‖ x ‖ · x hat. Beispiel 6.21 Die CES-Produktionsfunktion f(x 1 , . . . , x n ) = (a 0 + a 1 x p 1 + · · · a n x p n ) 1 / p hat das Differential Df(x) = 1 p f(x) 1 p − 1 · p · ⎛ ⎜ ⎝ a 1 x p − 1 1 ... a n x p − 1 n ⎞ ⎟ ⎠ = f(x) 1 p − 1 · ⎛ ⎜ ⎝ a 1 x p − 1 1 ... a n x p − 1 n ⎞ ⎟ ⎠ Auch für die zweite Kettenregel sollen Beispiele gegeben werden: Beispiel 6.22 Gesucht ist die Ableitung der Funktion g(t) = f(h(t), t) mit f(x, y) = x + y x − y und h(t) = t 2 . Dabei sei t = 0 und t = 1 vorausgesetzt. Df(x, y) = 1 ( x − y ) 2 ( (x − y) − (x + y) (x − y) + (x + y) ) = 2 ( x − y ) 2 ( − y x ) Hier erfolgt die Verkettung mit den Funktionen h 1 (t) = h(t) = t 2 , h ′ 1 (t) = 2t und h 2 (t) = t, h ′ 2 (t) = 1. Nach der Kettenregel gilt: g ′ (t) = − 2h 2 (t)/ (h 1 (t) − h 2 (t)) 2 · h ′ 1 (t) + 2h 1 (t)/ (h 1 (t) − h 2 (t)) 2 h ′ 2 (t) = − 2t/ (t 2 − t) 2 · 2t + 2t 2 / (t 2 − t) 2 · 1 = − 2t 2 / (t 2 − t) 2 = − 2/ (t − 1) 2 Beispiel 6.23 Wir betrachten die CD-Funktion f(x, y) = x 3 4 y 1 4 und nehmen an, dass sich in Abhängigkeit von der Zeit t die Produktionsfaktoren x, y verändern, d.h. zu Funktionen x = h 1 (t) und y = h 2 (t) werden, wobei beide Funktionen differenzierbar sind. Dann ist auch der Produktionsoutput g(t) = f(h 1 (t), h 2 (t)) eine Funktion der Zeit t. Wir bestimmen die Ableitung dieser Funktion mit der Kettenregel [2] (zur Übung und zum Ergebnisvergleich sollten Sie dies auch mit der Produktregel und der Kettenregel in einer Variablen anhand der Darstellung g(t) = h 1 (t) 3 4 h 2 (t) 1 4 durchführen): Df(x, y) = ( 3 4 x − 1 4 y 1 4 , 1 4 x 3 4 y − 3 4 ) T = x 3 4 y 1 4 · ( 3 4 x , 1 4 y ) T = f(x, y) · ( 3 4 x , 1 4 y ) T <?page no="197"?> 6.4 Ableitungskonzepte auf Grundlage des Differentials 197 g ′ (t) = D 1 f(h 1 (t), h 2 (t))h ′ 1 (t) + D 2 f(h 1 (t), h 2 (t))h ′ 2 (t) = 3 4 · f ( h 1 ( t ) ,h 2 ( t )) h 1 ( t ) h ′ 1 (t) + 1 4 · f ( h 1 ( t ) ,h 2 ( t )) h 2 ( t ) h 2 ( ′ t) = f(h 1 (t), h 2 (t)) ( 3 4 · h ′ 1 ( t ) h 1 ( t ) + 1 4 · h ′ 2 ( t ) h 2 ( t ) ) = g(t) · ( 3 4 · h ′ 1 ( t ) h 1 ( t ) + 1 4 · h ′ 2 ( t ) h 2 ( t ) ) Die Ableitung schreibt sich also als Produkt des Output g(t) und einer gewichteten Summe der so genannten logarithmischen Ableitungen von h 1 , h 2 . Sind beispielsweise h 1 (t) = a 1 t und h 2 (t) = a 2 t lineare Funktionen (Erhöhung der Inputs proportional zur Zeit), so gilt g(t) = a 3 / 4 1 a 1 / 4 2 t und g ′ (t) = g(t)/ t = a 3 / 4 1 a 1 / 4 2 = f(a 1 , a 2 ). Die Hauptanwendung der zweiten Kettenregel besteht aber in der Bestimmung impliziter Ableitungen, die in der Ökonomie Substitutionsgrenzraten genannt werden. Wir kommen hierauf im nächsten Abschnitt zurück. Übungen zu Abschnitt 6.3 ? 8. Berechnen Sie a) ∂ ( yx ) ∂x und ∂ ( yx ) ∂x ∣ ∣ ∣ y = x b) ∂ ( y/ x ) ∂x und ∂ ( y/ x ) ∂x ∣ ∣ ∣ y = x 2 c) ∂ ( z − z 0 ) ∂z ∣ ∣ ∣ z = z 0 d) ∂x y ∂x und ∂x y ∂y 9. Berechnen Sie den Gradienten von f: a) f(x, y) = √ 1 + 2x 2 − 3y 2 b) f(x, y) = e x − y 2 +sin(x+y) − x √ 1 + y 2 c) f(x, y, z) = x ln( y z ) d) f(x, y, z) = ln(x · y · z) · (xy + xz + yz) e) f(x, y, z) = x y/ z 10. Berechnen Sie den Gradienten der Gewinnfunktion aus Beispiel 6.8 vgl. S. 180f. 11. Hängt f ′ (x) bei einer Funktion f einer Variablen x nicht von x ab, so ist f linear. a) Geben Sie ein Beispiel dafür, dass folgende Aussage für Funktionen mehrerer Variablen falsch ist: „Hängt ∂f ∂x für jede im Funktionsterm auftretende Variable x nicht von x ab, so ist f linear.“ b) Wie muss die Aussage richtig lauten? 12. Bestimmen Sie die Linearisierung der Funktion f : R 2 → R , f(x, y) = x 2 + 1 2 y 3 im Punkt (4, − 2) T . 13. Gegeben sei die Funktion g : R 2 → R , g(x, y) = (x 2 + y 2 ) p . Dabei sei p > 0. a) Berechnen Sie mit der Kettenregel für x 2 + y 2 > 0 das Differential Dg(x, y). b) Ist g für x = y = 0 differenzierbar? Wie lautet das Differential Dg(0, 0)? c) Rechnen Sie analog für g(x 1 , . . . , x n ) = (x 2 1 + · · · + x 2 n ) p . 14. Sei f : R 2 → R eine differenzierbare Funktion mit f(0, 0) = 1 und D 1 f(x, y) = D 2 f(x, y) = 0 ∀ x, y ∈ R . Bestimmen Sie eine Funktion h : R → R mit f(h(t), t) = 1 für alle t ∈ R (Hinweis: Leiten Sie f(h(t), t) mit Kettenregel [2], nach t ab). 6.4 Ableitungskonzepte auf Grundlage des Differentials Das Differential einer Funktion f wird auf mannigfaltige Art verwendet: es beschreibt das Änderungsverhalten von f in verschiedene Richtungen, wobei man durch geeignete Maßnahmen (z.B. Elastizitäten) den Einfluss von Messeinheiten vermeiden kann. <?page no="198"?> 198 6 Differentialrechnung 2 0 2 4 x 2 0 2 4 y 150 100 50 0 Abbildung 6.11: Verhalten der Funktion f(x, y) = x 3 − 6x 2 − 6y 2 +5xy+10y im Punkt (0, 0) T in Richtung ( 1 2 , − 1 2 ) T Schließlich sind viele ökonomische Funktionen implizit definiert, ihre Ableitungen lassen sich unter Verwendung der Kettenregel über das Differential berechnen. 6.4.1 Richtungsableitung In den Gradienten einer Funktion f gehen alle i-ten partiellen Ableitungen ein. Man leitet also jeweils nach einer der Variablen ab, wobei die anderen als Konstanten aufgefasst werden. Gemäß Abbildung 6.7 vgl. S. 187 entspricht der partiellen Ableitung das Änderungsverhalten der Funktion längs einer parallelen Geraden zu einer der Koordinatenachsen. Es spricht allerdings nichts dagegen, eine Funktion auch längs anderer Linien zu untersuchen, etwa wie in Abbildung 6.11 wieder anhand der Funktion f(x, y) = x 3 − 6x 2 − 6y 2 + 5xy + 10y dargestellt. Die Punkte auf einer Gerade durch den Punkt (x, y) sind von der Form (x + d 1 t, y + d 2 t), wobei t ∈ R und d 1 d 2 die Steigung der Geraden im Koordinatensystem von x und y ist. (d 1 , d 2 ) T ist ein Richtungsvektor, der im Ortsvektor (x, y) T angesetzt wird und dessen Richtung zusammen mit dem Punkt (x, y) die Gerade festlegt. Es gibt natürlich nicht nur eine Darstellungsmöglichkeit einer solchen Geraden, vielmehr führen alle Wertekombinationen d 1 , d 2 mit dem gleichen Quotienten d 1 d 2 zur selben Geraden. Setzt man nun die geänderten Werte in die Funktion f ein, so ergibt sich g(t) = f(x + d 1 t, y + d 2 t) Für die vorliegende Funktion sei im Punkt x = y = 0 die durch d 1 = 1 2 und d 2 = − 1 2 repräsentierte Richtung gewählt. Dann lauten die zugehörigen Funktionswerte g(t) =f(0 + 1 2 t, 0 − 1 2 t) = 1 8 t 3 − 3 2 t 2 − 3 2 t 2 − 5 4 t 2 − 5t = 1 8 t 3 − 17 4 t 2 − 5t Die zugehörigen Punkte auf dem Funktionsgraphen sind in der dreidimensionalen Darstellung von f als (blaue) Kurve dargestellt. Die Änderungsrate von f in Richtung von (d 1 , d 2 ) T entspricht gerade der Änderungsrate von g in t = 0, d.h. dem Wert <?page no="199"?> 6.4 Ableitungskonzepte auf Grundlage des Differentials 199 ∂g ∂t ∣ ∣ t =0 = lim h → 0 g ( h ) − g (0) h = lim h → 0 f ( 1 2 h, − 1 2 h ) − f (1 , 1) h . Konkret ergibt sich der Wert ∂ ∂t ( 1 8 t 3 − 17 4 t 2 − 5t ) ∣ ∣ ∣ ∣ t =0 = ( 3 8 t 2 − 17 8 t − 5 ) ∣ ∣ ∣ ∣ t =0 = − 5 Der gerade bestimmte Wert wird als Richtungsableitung bezeichnet. Definition 6.12 ! Es sei f : D ⊆ R n → R und x = (x 1 , . . . , x n ) T ∈ D . Für einen Vektor d = (d 1 , . . . , d n ) T ∈ R n , d = ¯0, heißt (falls der Grenzwert existiert) D f (x, d) = lim h → 0 f(x 1 + hd 1 , . . . , x n + hd n ) − f(x 1 , . . . , x n ) h Richtungsableitung von f im Punkt x in Richtung d. f heißt dann im Punkt x in Richtung d differenzierbar. Oben wurde am Beispiel der Funktion (x, y) → x 3 − 6x 2 − 6y 2 + 5xy + 10y die Richtungsableitung Df((0, 0) T , ( 1 2 , − 1 2 ) T ) = − 5 mit dem Ableitungskalkül in einer Variable bestimmt. Das ist zwar nicht so mühsam, als würde man die Ableitung als Grenzwert berechnen; die gewählte Vorgehensweise kann aber noch deutlich vereinfacht werden, wie wir gleich sehen werden. Zwischen Gradient und Richtungsableitung gibt es einen engen Zusammenhang: Nimmt man als Richtungsvektor einen der Koordinateneinheitsvektoren (1, 0) T oder (0, 1) T , so lautet die Änderungsfunktion t → f(x + t, y) bzw. t → f(x, y + t) und es ergibt sich beim Ableiten in t = 0 jeweils die partielle Ableitung nach x bzw. y. Satz 6.7 Die partielle Ableitung D i f(x) einer partiell differenzierbaren Funktion f : D → R ist gerade die Richtungsableitung in Richtung des i-ten Koordinateneinheitsvektors e (i) , d.h. es ist D i f(x) = Df(x, e (i) ). Neben den partiellen Ableitungen haben wir nun auf einen Schlag eine Unmenge weiterer Ableitungen verfügbar, nämlich je eine für jede Richtung d ∈ R n . Diese Richtungsableitungen hängen zudem nicht nur von der Orientierung, sondern auch von der Länge des Richtungsvektors ab. Welche dieser vielen Richtungsableitungen ist nun die für unsere Bedürfnisse maßgebliche? Im allgemeinen gibt es neben den Einheitsvektoren noch zwei weitere Richtungen, die in der Ökonomie zur Anwendung kommen. Wir wollen diese Richtungen anhand eines Vergleichs erläutern: Anschaulich stellt der Graph einer Funktion von zwei Variablen eine „Gebirge“ dar, in dem ein „Wanderer“ sich in einem Punkt (x | y | f(x, y)) befindet vgl. Abbildung 6.13, S. 202 . Ein Bergsteiger wird vielleicht den schnellsten möglichen Weg zum Gipfel in Form des steilsten Aufstiegs suchen. Ein „Höhenwanderer“ dagegen wird möglichst lange versuchen auf einer Höhe zu laufen. In der Ökonomie können beide Extreme auftreten: Dem Bergsteiger entspricht z.B. ein Unternehmen, das seinen aktuellen Gewinn f(x, y) durch gleichzeitige Veränderung der ökonomischen Kontrollvariablen x und y möglichst stark zu erhöhen versucht. Dem Höhenwanderer entspricht z.B. ein Unternehmen, das eine Richtung für die von ihm kontrollierbaren Entscheidungsvariablen x,y sucht, in der sich seine derzeitige Nachfrage f(x, y) nicht verändert. <?page no="200"?> 200 6 Differentialrechnung Während wir bisher nur besprochen haben, wie man die Ableitung in einer vorgegebenen Richtung bestimmt, dürfte klar sein, dass dieses Verfahren nicht gut geeignet ist, in den oben genannten Sachzusammenhängen die gewünschte Richtung zu bestimmen. Glücklicherweise gibt es unter Zuhilfenahme des Differentials eine vereinfachte Berechnungsmöglichkeit für Richtungsableitungen. Damit können dann beide „Kunden“, der Bergsteiger wie der Höhenwanderer gleichermaßen zufrieden gestellt werden. Satz 6.8 (Richtungsableitung für differenzierbare Funktionen) Falls f : D → R in x ∈ D (total) differenzierbar ist, so ist f in x in jede Richtung d ∈ R n , d = ¯0 differenzierbar und es gilt Df(x, d) = 〈 Df(x), d 〉 = 〈∇ f(x), d 〉 . Zur Begründung: Liegt t hinreichend nahe bei 0, so folgt aus der Linearisierung f(x + td) − f(x) t = 〈∇ f(x), td 〉 + r(td) t = 〈∇ f(x), d 〉 + r(td) t t → 0 −→〈∇ f(x), d 〉 Beispiel 6.24 Für f(x, y) = x 3 − 6x 2 − 6y 2 + 5xy + 10y ist der Gradient ∇ f(0, 0) = (0, 10) T vgl. S. 186f. Nach Satz 6.8 gilt z.B. Df( ( 0 0 ) , ( 1/ 2 − 1/ 2 ) ) = 〈∇ f(0, 0), ( 1/ 2 − 1/ 2 ) 〉 = 〈 ( 0 10 ) , ( 1/ 2 − 1/ 2 ) 〉 = − 5. Sie sehen, dass die Rechnung jetzt wesentlich übersichtlicher ist als die eingangs dieses Abschnitts durchgeführte. Mit der Richtungsdifferenzierbarkeit haben Sie nun ein weiteres Ableitungskonzept kennengelernt, welches sich anhand der bis jetzt gewonnenen Aussagen etwas plakativ wie folgt einordnen lässt: Zusammenhänge zwischen den Differenzierbarkeitsbegriffen: [1] Eine total differenzierbare Funktion ist in jede Richtung differenzierbar. [2] Eine in jede Richtung differenzierbare Funktion ist partiell differenzierbar. [3] Eine stetig partiell differenzierbare Funktion ist total differenzierbar. Die Ableitungskonzepte sind zwar verschieden, aber die Unterschiede sind vergleichsweise gering. Konkret wurde in in Beispiel 6.18 vgl. S. 194 eine partiell differenzierbare Funktion besprochen, die nicht total differenzierbar und auch nicht in jede Richtung differenzierbar ist. Man könnte annehmen, dass der Unterschied zwischen partieller und totaler Differenzierbarkeit tatsächlich durch den Unterschied zwischen partieller und Richtungsdifferenzierbarkeit begründet ist und Richtungsdifferenzierbarkeit in Wirklichkeit dasselbe wie totale Differenzierbarkeit ist. Es gibt allerdings Funktionen, die in jede Richtung differenzierbar, aber nicht total differenzierbar sind: Beispiel 6.25 Die Funktion f : R 2 → R , f(x, y) : = { xy 2 x 2 + y 4 falls x = 0 0 falls x = 0 besitzt in (0, 0) T Richtungsableitungen in jeder Richtung (d 1 , d 2 ), denn für d 1 = 0, t = 0, t → 0 ist f ( td 1 ,td 2 ) t = ( td 1 )( td 2 ) 2 t (( td 1 ) 2 +( td 2 ) 4 ) = d 1 d 2 2 d 2 1 + t 2 d 4 2 → d 2 2 d 1 . <?page no="201"?> 6.4 Ableitungskonzepte auf Grundlage des Differentials 201 -1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1 Abbildung 6.12: Kontour-Diagramm der partiell, aber nicht total differenzierbaren Funktionen aus Beispiel 6.25 für d 1 = 0 ergibt sich bei obiger Rechnung sofort die Richtungsableitung Null. Die Funktion ist aber in (0, 0) T nicht stetig (also auch nicht total differenzierbar), denn für x = 0 ist f(x 2 , x) = 1 2 . Dies ist im Kontur-Diagramm von f in Abbildung 6.12 dargestellt. Die gestrichelt gezeichnete 1 2 -Niveaulinie durchläuft scheinbar den Ursprung; dort liegt aber der Funktionswert 0 vor. Insgesamt steht hiermit fest, dass jeder speziellere Ableitungsbegriffzum Ausschluss von bestimmten Funktionen führt. Weiterhin stellen aber die partiell differenzierbaren Funktionen mit stetigen Ableitungen die für wirtschaftswissenschaftliche Anwendungszwecke brauchbarste Funktionsklasse dar und umfassen alle drei genannten Differenzierbarkeitsansätze. Lassen Sie uns nun die Gradientenformel für Richtungsableitungen genauer betrachten. Mit ihrer Hilfe können wir Richtungen wie die des steilsten Anstiegs von f oder die Richtung einer Niveaulinie von f sofort bestimmen. Wir illustrieren dies anhand einer Funktion von zwei Variablen vgl. Abbildung 6.13 . Die Richtung der Niveaulinie in (x 0 , y 0 ) T muss eine Richtung sein, in der sich die Funktion nicht verändert, also konstant ist, d.h. in der die Richtungsableitung gleich Null sein muss (Erinnern Sie sich, dass eine konstante Funktion die Ableitung Null hat! ). Wegen Satz 6.8 muss diese Richtung senkrecht zum Gradienten ∇ f(x 0 , y 0 ) liegen. Gemäß Konturdiagramm entspricht der Gradient hingegen einer „besonders schnellen“ Aufwärtsbewegung. Satz 6.9 (Gradient als Richtung des steilsten Anstiegs) Ist f : D → R 1 eine differenzierbare Funktion, so gilt für jeden Punkt x ∈ D : [1] ∇ f(x) zeigt in Richtung des steilsten Anstiegs von f in x. [2] Der steilste Anstieg von f in x ist ‖∇ f(x) ‖ . [3] Ist c = f(x 0 ) und d ein Richtungsvektor in x in Richtung N f (c) = { y ∈ D : f(y) = c } , so gilt 〈∇ f(x), d 〉 = 0, d.h. der Gradient steht senkrecht zur Niveaulinie im Punkt x. Alle Aussagen dieses Satzes sollen hier kurz begründet werden. Die Suche nach dem steilsten Anstieg ist nur für ∇ f(x) = ¯0 sinnvoll, sonst wäre jede Richtungsableitung in diesem Punkt gleich Null. Weiter ist nur die Orientierung, nicht aber die Länge der verwendeten Richtungsvektoren wichtig: Rein formal kann man durch Übergang von d zu αd die Richtungsableitung <?page no="202"?> 202 6 Differentialrechnung 1 0 1 1 0 1 0 5 1.5 1.0 0.5 0.0 0.5 1.0 1.5 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Abbildung 6.13: Der steilste Anstieg und die Richtung einer Niveaulinie bei einer Funktion von zwei Variablen vervielfachen, denn es ist Df(x, αd) = 〈∇ f(x), αd 〉 = α 〈∇ f(x), d 〉 = αDf(x, d) Diese Erhöhung der Steigung entspricht aber lediglich einer Zunahme der Bewegungsgeschwindigkeit im Koordinatensystem. Also beschränkt man sich auf Richtungsvektoren einer festen Länge, typischerweise || d || = 1. Unter Zuhilfenahme der Cauchy-Schwarz-Ungleichung vgl. Satz 3.9, S. 86 gilt für die betragsmäßige Richtungsableitung | Df(x, d) | = |〈∇ f(x), d 〉| ≤ ‖∇ f(x) ‖ · ‖ d ‖ = ‖∇ f(x) ‖ = Df(x, d) mit d = 1 ‖∇ f(x) ‖ ∇ f(x). Damit zeigt ∇ f(x) in die Richtung des steilsten Anstiegs. Wählt man den Richtungsvektor d = 1 ‖∇ f(x) ‖ ∇ f(x) mit der Länge 1, so ergibt sich als steilster Anstieg genau ‖∇ f(x) ‖ . Da die „Null-Anstieg“-Richtung einer Niveaulinie genau senkrecht hierzu liegen muss, ist also jede Niveaulinie senkrecht zur Richtung des Gradienten. Zum Abschluss der Diskussion von Richtungsableitungen wollen wir spezielle Richtungsableitungen für homogene Funktionen besprechen. Betrachtet man beispielsweise eine CD-Produktionsfunktion f(x 1 , . . . , x n ) : = c · x a 1 1 · . . . · x a n n , so stellt man ein vorteilhaftes Ableitungsverhalten fest. Es ist nämlich: ∂ ∂x i f(x 1 , . . . , x n ) = c · x a 1 1 · . . . · a i x a i − 1 i · . . . x a n n = a i x i · f(x 1 , . . . , x n ) Die erste Umformung zeigt, dass jede partielle Ableitung einer Funktion vom CD-Typ wieder eine CD-Typ-Funktion ist. Der Homogenitätsgrad hat sich bei Übergang zur partiellen Ableitung um Eins verringert. Fasst man die partiellen Ableitungen wieder zum Gradienten zusammen, so gilt aufgrund der zweiten obigen Form der partiellen Ableitung Df(x 1 , . . . , x n ) = ∇ f(x 1 , . . . , x n ) = f(x 1 , . . . , x n ) · ( a 1 x 1 , . . . , a n x n ) T Als homogene Funktion hat f ein besonders leicht zu berechnendes Änderungsverhalten, falls die Inputs x = (x 1 , . . . , x n ) T sich zu (1 + Δ)x = ((1 + Δ)x 1 , . . . , (1 + <?page no="203"?> 6.4 Ableitungskonzepte auf Grundlage des Differentials 203 Δ)x n ) T = x + Δx mit Δ ∈ ] − 1; ∞ [, Δ = 0 verändern. Diese Vervielfachung mit dem Faktor 1 + Δ entspricht einer Bewegung aus x heraus in Richtung des Vektors x, im Sachzusammenhang bedeutet es, dass die Produktionsfaktoren im gleichen Verhältnis zueinander bleiben („das Rezept bleibt gleich, die Menge erhöht sich“). Somit ist zu erwarten, dass auch die Richtungsableitung von f in x in Richtung x eine spezielle Form hat. In der Tat gilt: 〈∇ f(x), x 〉 = f(x 1 , . . . , x n ) · (a 1 +. . .+ a n ). Die Richtungsableitung ist also proportional zum Homogenitätsgrad und zum Funktionswert von f. Satz 6.10 (Ableitungseigenschaften homogener Funktionen) Sei D ⊆ R n offen und f : D → R differenzierbar und r-homogen. Dann gilt: [1] D 1 f, . . . , D n f sind homogen vom Grad r − 1. Für jedes d ∈ R n \ { 0 } sind die Richtungsableitungen Df( · , d) : D → R 1 homogen vom Grad r − 1. [2] Es gilt die Euler-Formel 〈∇ f(x), x 〉 = r · f(x) für alle x ∈ D Zur Begründung: Die Richtungsableitung ergibt sich für x ∈ D , d ∈ R n , λ ∈ R sowie h = 0 zu f(λx+hd) − f(λx) h = λ r − 1 f(x+ h λ d) − f(x) h λ → λ r − 1 Df(x, d). Die Euler-Formel erschließt sich aufgrund der folgenden Heuristik: Für x ∈ D und λ > 1 gilt λ r f(x) = f(λx) ≈ f(x) + 〈∇ f(x), λx − x 〉 . Das bedeutet näherungsweise λ r − 1 λ − 1 f(x) ≈ 〈∇ f(x), x 〉 . Wegen lim λ → 1 λ r − 1 λ − 1 = r (siehe auch Regel von l’Hospital) folgt dann die Euler- Formel, da die Näherungsaussage für λ → 1 exakt wird. 6.4.2 Elastizitäten Bei Funktionen f von einer Variablen wird anstelle der Ableitung bekanntlich oft die Elastizität ε f (x) = f ′ ( x ) · x f ( x ) als einheitenunabhängiges Änderungsmaß für f anstelle der Ableitung f ′ (x) verwendet. Sie gibt an, um wieviel Prozent näherungsweise sich der Funktionswert f(x) verändert, wenn die Variable x sich um ein Prozent erhöht. Die prozentuale Betrachtung ist im ökonomischen Kontext mit wechselnden (Währungs-) Einheiten oft von Vorteil. Auch für Funktionen mehrerer Variablen kann man solche Elastizitäten betrachten. Es muss allerdings darauf geachtet werden, dass sich jede der Inputvariablen von f ändern kann und man daher das prozentuale Änderungsverhalten abhängig vom prozentualen Änderungsverhalten jeder der Variablen bilden muss. Statt einer Elastizität hat man daher einen Vektor von partiellen Elastizitäten. Definition 6.13 (Partielle Elastizitäten) ! Falls f : D ⊆ R n → R in x = (x 1 , . . . , x n ) T ∈ D differenzierbar ist mit f(x) = 0, so heißt ε f (x 1 , . . . , x n ) : = ( x 1 · D 1 f(x) f(x) , . . . , x n · D n f(x) f(x) ) T Vektor der partiellen Elastizitäten bzw. Elastizitätsgradient. Beispiel 6.26 Für f(x, y) = x 2 y + y 2 x ist ∂ ∂x f(x, y) = 2xy + y 2 , ∂ ∂y f(x, y) = x 2 + 2xy. Der Elastizitätsgradient lautet dann, falls (x, y) = (0, 0) ε f (x, y) = ( x (2 xy + y 2 ) x 2 y + xy 2 , y ( x 2 +2 xy ) x 2 y + xy 2 ) T = ( 2 x + y x + y , 2 y + x x + y ) T <?page no="204"?> 204 6 Differentialrechnung Für den Elastizitätsgradienten einer differenzierbaren Funktion gilt wegen der Linearisierbarkeit von f folgende Näherungsgleichung f(y) − f(x) f(x) ≈ 〈∇ f(x), y − x 〉 f(x) = n ∑ i =1 D i f(x) f(x) (y i − x i ) = n ∑ i =1 ε f,i (x) y i − x i x i Die relative Änderung von f lässt sich also durch Wichtung der relativen Änderungen der Input-Variablen mit den partiellen Elastizitäten berechnen: Richtungselastizität Falls sich jede der Inputvariablen x i marginal um h i Prozent verändert, so verändert sich dadurch der Output marginal um 〈 ε f (x), h 〉 Prozent (wobei h = (h 1 , . . . , h n ) T ). Man spricht dann auch von der Elastizität von f in x in Richtung h, kurz: Richtungselastizität. Für homogene Funktionen besteht ein enger Zusammenhang zwischen Richtungselastität und Homogenitätsgrad: Satz 6.11 (Interpretation des Homogenitätsgrades) Für eine differenzierbare r-homogene Funktion beträgt die Richtungselastizität r%, wenn sich alle Inputs um jeweils 1 Prozent ändern. Denn die Richtungselastizität bei gleichartiger Änderung aller Inputvariablen um den Prozentsatz p beträgt für homogene Funktionen 〈 ε f (x), (p, . . . , p) T 〉 = p n ∑ i=1 ε f,i (x) = p n ∑ i=1 D i f(x)x i f(x) = p 〈∇ f(x), x 〉 f(x) = p · rf(x) f(x) = pr wobei die vorletzte Umformung gerade die Euler-Formel in Satz 6.10 ist. Für p = 1 ergibt sich die Richtungselastizität r, d.h. der Homogenitätsgrad. 6.4.3 Implizite Ableitungen und ihre Anwendungen Wir betrachten folgende ökonomische Problemstellung: Ein Gut z wird mit zwei Produktionsfaktoren x, y unter der Produktionsfunktion (x, y) → f(x, y) hergestellt. Der Produktionsertrag beträgt derzeit c = f(x 0 , y 0 ) und könnte auch durch andere Produktionskonstellationen (x, y) realisiert werden. In Abbildung 6.14 ist dieser Sachverhalt im Konturdiagramm von f dargestellt. Aufgrund von Preissteigerungen bei Produktionsfaktor x möchte man dessen Einsatz x 0 zu x 0 − Δ x verringern und gleichzeitig den Produktionsertrag c beibehalten. Dies ist in der Regel möglich mit einer Erhöhung des Einsatzes y 0 des zweiten Produktionsfaktors auf y 0 +Δ y . Mit der Bestimmung impliziter Ableitungen auf Grundlage von f möchte man nun beschreiben, wie groß etwa Δ y , also die Änderung des zweiten Produktionsfaktors in Abhängigkeit von Δ x ist. Denn die c-Niveaulinie (in Abbildung 6.14 blau hervorgehoben) lässt sich als Funktion der Variablen x interpretieren, deren Ableitung in x 0 als Tangentensteigung interpretiert werden kann. Als Näherung von y 0 + Δ y verwendet man dann oft die Ordinate y 1 des Punktes (x 0 − Δ, y 1 ) auf dieser Tangente. Die Substituierbarkeit eines Produktionsfaktors durch einen anderen wird also in erster Näherung mit Hilfe der Tangentensteigung an die c-Niveaulinie beschrieben. <?page no="205"?> 6.4 Ableitungskonzepte auf Grundlage des Differentials 205 f x, y c f x, y c x 0 x 0 x y 0 y 0 y y 1 x y Abbildung 6.14: Substitution eines Produktionsfaktors x durch den Produktionsfaktor y Eine vergleichbare Problemstellung gibt es auch bei der Behandlung von Nachfragesituationen. Sind etwa p, q die Preise zweier Substitutionsgüter (Konkurrenzgüter) und c = f(p, q) die Nachfrage in Mengeneinheiten nach dem ersten der beiden Güter (mit dem Preis p), so stellt sich die Frage, auf welchen Wert p − Δ p der Anbieter des ersten Gutes seinen Preis senken muss, wenn er die Nachfrage c nach dem Gut halten will, aber gleichzeitig der Anbieter des zweiten Gutes seinen Preis auf q − Δ q verringert. Beispiel 6.27 Ein Gut wird von zwei konkurrierenden Firmen zu den derzeitigen Preisen p = 10, q = 11 angeboten. Die Nachfragefunktion des Anbieters 1 lautet f(p, q) = 1000 q 2 p 3 + p 2 . Es liegt also eine laufende Nachfrage von f(10, 11) = 110 Einheiten bei Anbieter 1 vor. Anbieter 2 ändert nun seinen Preis q. Wenn nun Anbieter 1 seinen Preis nicht auch anpasst, so würde sich dadurch seine Nachfrage. Dies will Anbieter 1 vermeiden und muss daher seinen Preis ebenfalls ändern. Die erforderliche Änderung muss zu einem Wert p führen, der die Nachfrage f(p, q) = 110 beibehält. Es muss also das Tupel (p, q) T auf der 110-Niveaulinie von f bleiben vgl. Abbildung 6.15 . p muss also bei gegebenem q die folgende Gleichung erfüllen: 1000 q 2 p 3 + p 2 = 110 ⇔ p 3 + p 2 = 100 11 q 2 Naheliegend wäre es, als Antwort auf die Frage nach dem Änderungsverhalten von p in Abhängigkeit von q zu versuchen, die zuletzt gewonnene Gleichung nach p aufzulösen. Das ist allerdings gar nicht so leicht möglich, es handelt sich um eine Gleichung dritten Grades, deren Lösung mittels der so genannten Cardano-Formeln nicht geläufig und auch nicht praktikabel ist - das Beispiel ließe sich leicht abwandeln, dass ohne numerische Ansätze gar keine Lösung der Gleichung gefunden werden kann. Wie Sie aber in Abbildung 6.15 erkennen, sieht die 110-Niveaulinie im Bildausschnitt aus wie eine Funktion der Variablen q; dass sie im Punkt (10, 11) T übrigens erkennbar <?page no="206"?> 206 6 Differentialrechnung q p 6 8 10 12 14 16 18 20 6 8 10 12 14 16 Abbildung 6.15: Die Substitutionsgrenzrate als Steigung der Tangente (gestrichelt) an der Niveaulinie (blau) nicht vertikal verläuft, liegt daran, dass die partielle Ableitung ∂f/ ∂q an dieser Stelle von Null verschieden ist. Die Funktion, welche diese Niveaulinie - lokal — beschreibt, bezeichnet man mit q → p(q). Die Ableitung p ′ (11) dieser Funktion als Steigung im Punkt q = 11 lässt sich bestimmen, indem die Gleichung p(q) 3 + p(q) 2 = 100 11 q 2 auf beiden Seiten nach q abgeleitet wird (auf der linken Seite mit der Kettenregel in einer Variablen). Das ergibt die Gleichung 3p(q) 2 p ′ (q) + 2p(q)p ′ (q) = 200 11 q welche man nach p ′ (q) auflösen kann. Es folgt p ′ (q) = 200 11 · q 3 p ( q ) 2 +2 p ( q ) und in der vorliegenden Preiskonstellation p = 10, q = 11 folgt mit p(11) = 10, dass die Ableitung p ′ (11) den Wert 200 11 · 11 3 · 10 2 +2 · 10 = 5 8 hat. Das bedeutet: Erhöht/ verringert Anbieter 2 seinen Preis q = 11 um Δ q Geldeinheiten (wobei Δ q ein nahe bei Null liegender Wert ist), so muss Anbieter 1 seinen Preis p = 10 um etwa Δ p = 5 8 Δ q Geldeinheiten erhöhen/ verringern, um die momentane Nachfrage von 110 Einheiten zu halten. Diese und andere Problemstellungen liegen oft auch in Situationen vor, bei denen mehr als zwei ökonomische Inputs x 1 , . . . , x n einen ökonomischen Output f(x 1 , . . . , x n ) bestimmen, der konstant gehalten werden soll, wobei sich eine oder mehrere der Variablen verändern und die Auswirkung auf eine oder mehrere der übrigen Variablen berechnet werden soll. Wir haben im obigen Beispiel gesehen, wie man ad hoc rechnen kann, allerdings lässt sich die Problemstellung mittels impliziter Ableitungen allgemeiner lösen. Dies wollen wir jetzt für n = 2 Variablen vorstellen; die Übertragung auf mehr Variablen ist recht einfach. Es sei f : D → R eine differenzierbare Funktion der zwei Variablen x, y. Für vorgegebene x 0 , y 0 sei c = f(x 0 , y 0 ). Wir wollen nun wissen, wie sich y verändern muss, <?page no="207"?> 6.4 Ableitungskonzepte auf Grundlage des Differentials 207 wenn sich x ausgehend von x 0 verändert und die Gleichung f(x, y) = c gültig bleiben soll. Wir nehmen an, dass sich durch die Gleichung f(x, y) = c die Variable y als eine Funktion h : ]x 0 − r; x 0 + r[ → R der Variablen x schreiben lässt mit h(x 0 ) = y 0 . Durch den - ausreichend kleinen - Wert r > 0 wird berücksichtigt, dass diese Funktion nur bei einer „ausschnittweisen“ Sicht auf das Konturdiagramm von f existieren muss. Man verwendet nun meist kein neues Funktionssymbol für diese implizit definierte Funktion, sondern schreibt statt dessen x → y(x). Die dabei verwendete Sprechweise „y von x“ stellt ebenfalls sicher, dass jetzt y als abhängig von x angesehen wird. Die Ableitung dieser Funktion wird sinnvoller Weise mit y ′ (x) bzw. ∂y ∂x bezeichnet. Dass dabei die Funktionsbezeichnung f der alles bestimmenden Funktion „unter den Tisch fällt“, wird wegen der einfachen Schreibweise in Kauf genommen. Sollten x und y aber in mehreren Funktionsvorschriften auftreten, so muss jeweils klar gestellt werden, von welcher der Funktionen die Niveaulinie betrachtet wird. Rechnungen mit ∂y ∂x bekommen dann den Nachsatz „(für) f(x, y) = c “ oder „auf N f (c)“. Weil y(x) gerade derjenige x zugeordnete Wert y ist, für den (x, y) auf der c-Niveaulinie von f liegt, gilt f(x, y(x)) = c, d.h. die Funktion x → g(x) = f(x, y(x)) ist in der Nähe von x 0 konstant. Dann gilt dort natürlich auch g ′ (x) = 0. Andererseits lässt sich g(x) auch mit der Kettenregel [2] aus Satz 6.6 vgl. S. 195 ableiten, es gilt g ′ (x) = D 1 f(x, y(x)) · 1 + D 2 f(x, y(x)) · y ′ (x) = 0 Dann lässt sich y ′ (x) durch Freistellen ermitteln, wenn D 2 f(x, y(x)) = 0, es folgt y ′ (x) = − D 1 f(x, y(x)) D 2 f(x, y(x)) Da insbesondere f(x 0 , y 0 ) = c, d.h. y 0 = y(x 0 ), lässt sich in diesem Punkt die Änderungsrate von y gegeben x berechnen, indem man in die obige Gleichung x = x 0 , y = y 0 einsetzt und einfach nach y ′ (x 0 ) auflöst. Das ergibt y ′ (x 0 ) = − D 1 f ( x 0 ,y 0 ) D 2 f ( x 0 ,y 0 ) . Das Ergebnis kann auch mit Partialoperatoren geschrieben werden, es gilt im Punkt (x 0 , y 0 ) T ∂y ∂x = − ∂f ∂x / ∂f ∂y In dieser Schreibweise lässt sich die Formel für die implizite Ableitung recht gut merken, denn abgesehen vom Minuszeichen wirkt die Formel für die implizite Ableitung, als würde ∂y ∂x ein Bruch sein, der mit ∂f erweitert wird - wobei die entstehenden Brüche in Wirklichkeit wieder partielle Ableitungen sind. Ganz falsch ist diese Analogie nicht, wenn man Ableitungen als Grenzwerte von Differenzenquotienten, also Brüchen auffasst, deren Zähler und Nenner Differenzen in den auftretenden Variablen sind. Beachten Sie: Die Funktion y(x) muss in diesem Kontext nicht berechnet werden - dies würde darauf hinauslaufen, die Gleichung f(x, y) = 0 nach y umzustellen, und ist oft nicht einmal möglich, wie Sie schon im vorangegangenen Beispiel gesehen haben. Die implizit bestimmte Ableitung y ′ (x) kann aber in jedem Punkt (x 0 , y 0 ) T der c-Niveaulinie von f bestimmt werden. Zudem: Fragt man, wie sich y mit x verändert, wenn f(x, y) = c gelten soll, so ist aus ökonomischer Sicht meist eine marginale Änderung und damit nicht y(x), sondern y ′ (x) gesucht. <?page no="208"?> 208 6 Differentialrechnung Diese Überlegungen gelten entsprechend für Funktionen f mit mehr als zwei Variablen: Definition 6.14 ! Es sei f : D ⊆ R n → R eine differenzierbare Funktion der n Variablen x 1 , . . . , x n . Für ein x (0) = (x (0) 1 , . . . , x (0) n ) T ∈ D und ein k ∈ { 1, . . . , n } mit ∂f ∂x k (x (0) ) = 0 heißt der Ausdruck GRS(x k | x j ) : = ∂x k ∂x j (x (0) ) = − ∂f ∂x j (x (0) ) ∂f ∂x k (x (0) ) Grenzrate der Substitution zwischen x k und x j . Beispiel 6.28 (Fortsetzung von Beispiel 6.27) Im vorangegangenen Beispiel mit f(p, q) = 1000q 2 / (p 3 + q 2 ) gilt ∇ f(p, q) = 1000 ( − q 2 (3p 2 + 2p) (p 3 + p 2 ) 2 , 2q p 3 + p 2 ) T Es folgt ∇ f(10, 11) = ( − 32, 20) T und somit GRS(p | q) = ∂p ∂q = − ∂f ∂q / ∂f ∂q = − 20 − 32 = 5 8 . Manchmal ändern sich gleich mehrere Inputvariablen x i 1 , . . . , x i k einer Funktion mehrerer Variablen auf einmal und es ist das Änderungsverhalten einer der übrigen Variablen x zu untersuchen. Die Substitutionsgrenzraten lassen sich dann als partielle Ableitungen ∂x / ∂x i j der - lokal definierten - Funktion (x i 1 , . . . , x i k ) T → x (x i 1 , . . . , x i k ) auffassen. Diese Funktion ist dann aber total differenzierbar, d.h. die Substitutionsgrenzraten lassen sich z.B. auch als Grundlage für Simultanänderungen verwenden. Beispiel 6.29 Die Herstellung eines Gutes aus drei Rohstoffen R1,R2,R3 möge mit der Produktionsfunktion f : [0; ∞ [ 3 → [0, ∞ [, f(x, y, z) = x 1 2 y 1 3 z 1 6 erfolgen. Die Fertigung erfolgt derzeit bei einem Input x = 25, y = 27, z = 64 und ergibt den Produktionsoutput f(25, 27, 64) = 30 Einheiten. Aufgrund geänderter Marktpreise für R1 und R2 wird erwogen, deren Quantitäten in der Produktion zu ändern und es soll die Substitutionsgrenzrate zwischen R3 und R1 bzw. R3 und R2 ermittelt werden. Hierzu ist zunächst die Produktionsfunktion zu differenzieren: ∇ f(x, y, z) = ( 1 2 x − 1 2 y 1 3 z 1 6 , 1 3 x 1 2 y − 2 3 z 1 6 , 1 6 x 1 2 y 1 3 z − 5 6 ) T = f(x, y, z) ( 1 2x , 2 3y , 5 6z ) T Speziell ergibt sich ∇ f(25, 27, 64) = 30 ( 1 50 , 2 81 , 5 384 ) T = ( 3 5 , 20 27 , 15 64 ) T Substitutionsgrenzrate zwischen R3 und R1 ist GRS(z | x) = − ∂f ∂x / ∂f ∂z = − 64 25 Erhöht man beispielsweise den Rohstoffinput R1 von derzeit 25 um Δx Einheiten (wobei Δx > 0 eine geringfügige Änderung bezeichnet), so muss man den Input von R3 (derzeit 64 Einheiten) um näherungsweise 64 25 Δx verringern, um den Produktionsoutput von 30 Einheiten zu halten. <?page no="209"?> 6.4 Ableitungskonzepte auf Grundlage des Differentials 209 Substitutionsgrenzrate zwischen R3 und R2 ist GRS(z | y) = − ∂f ∂y / ∂f ∂z = − 256 81 Erhöht man den Rohstoffinput R2 von derzeit 27 um Δy Einheiten (wobei Δy > 0 eine geringfügige Änderung bezeichnet), so muss man den Input von R3 (derzeit 64 Einheiten) um näherungsweise 256 81 Δy verringern, um den Produktionsoutput von 30 Einheiten zu halten. Die gleichzeitige Änderung von R1 um Δx und R2 um Δy Einheiten erfordert eine Änderung von R3 um ungefähr − 64 25 Δx − 256 81 Δy Einheiten, um den Produktionsoutput zu halten. Die Bestimmung von Substitutionsgrenzraten-Gradienten und deren Nutzung in Analogie zu Richtungsableitungen setzt wieder lediglich voraus, dass die partielle Ableitung von f nach der Variable, deren Änderungsverhalten bestimmt werden soll, ungleich Null ist. Die Verwendung von Richtungs-Substitutionsgrenzraten wird mathematisch durch das Theorem über implizite Funktionen gerechtfertigt vgl. S. 282 . Wir wollen noch einmal auf die Formel für die Substitutionsgrenzrate ∂y ∂x = − ∂f ∂x / ∂f ∂y eingehen. Mit Ausnahme des Vorzeichens macht diese Formel den Eindruck, dass hier einfach ein Bruch mit dem Ausdruck ∂f erweitert wurde. Dass man mit partiellen Ableitungen wie mit Brüchen arbeitet, ist in den Wirtschafts- und Naturwissenschaften gängige Praxis. Wir wollen hier zwei weitere Ableitungsformeln erwähnen, die ebenfalls dem „Bruch“-Kalkül entsprechen: die „ gewöhnliche“ Kettenregel ∂y ∂x = ∂y ∂z · ∂z ∂x für Variablen x, y, z, bei denen z = f(x) direkt funktional von x und y = g(z) = g(f(x)) direkt funktional von z und indirekt (über z = g(x)) von x abhängt. Hierbei ist die linke Seite der Kettenregel ∂y / ∂x = (g ◦ f) ′ (x), während auf der rechten Seite die Ausdrücke ∂y / ∂z = g ′ (f(x)) und ∂z / ∂x = f ′ (x) stehen. die „inverse“ Kettenregel ∂y ∂z = ∂y ∂x / ∂z ∂x für Variablen x, y, z, bei denen y = f(x) und z = g(x) jeweils direkt funktional von x abhängen und g ′ (x) = 0. In diesem Fall lässt sich - zumindest „lokal“ - die Funktion g umkehren, d.h. x = g − 1 (z) und man kann schreiben y = f(x) = f(g − 1 (x)). Mit der gewöhnlichen Kettenregel gilt ∂y ∂z = f ′ (x) = f ′ (g − 1 (x)) · (g − 1 ) ′ (g(x)) = f ′ (z)/ g ′ (z) = ∂y ∂x / ∂z ∂x . Diese Regeln lassen sich sogar dann formulieren, wenn die auftretenden Variablen gar nicht expressis verbis, sondern als Funktionsterme auftreten, wie folgendes Beispiel verdeutlicht: Beispiel 6.30 (Elastizität als logarithmische Ableitung) Es sei f : ]0; ∞ [ → R eine differenzierbare Funktion einer Variablen mit y = f(x) = 0. Wir betrachten die Funktion x → z = ln(f(x)) und die Variable v = ln(x) ⇔ x = e v . Dann lässt sich z = ln(f(e v )) als Funktion von v schreiben und es gilt ∂z/ ∂v = f ′ (e v ) f(e v ) · e v = f ′ (x) x · x = ε f (x) <?page no="210"?> 210 6 Differentialrechnung Anders ausgedrückt und (im ersten Schritt) mit der inversen Kettenregel umgeformt: ∂ ln(y) ∂ ln(x) = ∂ ln(y)/ ∂x ∂ ln(x)/ ∂x = ∂ ln(f(x))/ ∂x ∂ ln(x)/ ∂x = f ′ (x)/ f(x) 1/ x = ε f (x) Die Elastizität einer Variablen y als Funktion einer anderen Variablen x ist also nichts anderes als die gewöhnliche Ableitung der Variablen z = ln(y) als Funktion der Variablen v = ln(x). Abschließend sei aufbauend auf dem Konzept des impliziten Ableitens noch eine weitere, in den Wirtschaftswissenschaften oft verwendete Ableitung besprochen: die Substitutionselastizität. Zur Veranschaulichung dieses Konzeptes betrachten wir wieder eine Produktionsfunktion (x, y) → f(x, y) zweier Produktionsfaktoren gemäß Abbildung 6.14. Im Mittelpunkt des Interesses steht hierbei wieder der Zusammenhang bzw. die Substituierbarkeit der beiden Produktionsfaktoren x, y auf einer Niveaulinie N f (c) von f. Da man es häufig mit homogenen Produktionsfunktionen zu tun hat, ist das Verhalten von f auf N f (c) gleichbedeutend mit dem Verhalten des Faktoreinsatzverhältnisses y/ x auf N f (c). Dieses lässt sich auf der Niveaulinie - oft sogar explizit - als Funktion der Substitutionsgrenzrate z = GRS(y | x) schreiben. Praktisch berechnet man die Substitutionsgrenzrate z und versucht diese als Term in y/ x zu schreiben, anschließend stellt man nach y/ x um. Beispiel 6.31 Die CD-Funktion f(x, y) = x a y b hat den Gradient ∇ f(x, y) = x a y b (a/ x, b/ y) T und somit die Substitutionsgrenzrate z = ∂y ∂x = − a/ x b/ y = − a/ b · y/ x. Es gilt also y/ x = − b a z. Beispiel 6.32 Die CES-Funktion f(x, y) = (x p + y p ) 1 / p mit p = 1 hat den Gradienten ∇ f(x, y) = (x p + y p ) 1 p − 1 · (x p − 1 , y p − 1 ) T und die Substitutionsgrenzrate z = ∂y ∂x = − x p− 1 y p− 1 = − (y/ x) 1 − p . Es gilt y x = − z 1 / (1 − p ) . Definition 6.15 ! Zu einer gegebenen total differenzierbaren Funktion f : D ⊆ R n → R von n Variablen (zu denen die Variablen x, y gehören) und einer c-Isoquante N f (c) versteht man unter der Substitutionselastizität zwischen y und x die Elastizität des Faktoreinsatzverhältnisses y/ x als Funktion der Substitutionsgrenzrate zwischen y und x, in Formeln: SEL(y | x) : = ε y/ x (GRS(y | x)) auf N f (c) Die Substitutionselastizität gibt näherungsweise an, um wieviel Prozent sich das Faktoreinsatzverhältnis y/ x bei einer Bewegung auf der Iso-Quante N f (c) ändert, wenn sich die Substitutionsgrenzrate zwischen y und x um 1% ändert. Durch die Betrachtung von Elastizitäten ist diese Größe hinsichtlich der Substitutionsgrenzrate und damit der Inputs einheitenunabhängig. Zudem berücksichtigt sie das Krümmungsverhalten von f längst der Niveaulinie N f (c), was die Substitutionsgrenzrate selber nicht leisten kann, weil sie „nur“ die Tangente an die Niveaulinie beschreibt. Beispiel 6.33 Es werden die Substitutionselastizitäten der obigen Produktionsfunktionen berechnet: <?page no="211"?> 6.4 Ableitungskonzepte auf Grundlage des Differentials 211 Bei der CD-Funktion f(x, y) = x a y b ergibt sich als Substitutionselastizität die Elastizität der Funktion z → − b a z, also 1. Bei der CES-Funktion f(x, y) = (x p + y p ) 1 / p ergibt sich als Substitutionselastizität die Elastizität der Funktion z → − z 1 / (1 − p ) , also der konstante Wert 1 1 − p Die Betrachtung von CES-Funktionen entspringt der Beobachtung, dass CD-Funktionen zu unflexibel an reale Sachverhalte anzupassen sind, weil sie stets die Substitutionselastizität 1 haben. Die CES-Produktionsfunktionen ergaben sich aus dem Bedarf an linear-homogenen Produktionsfunktionen, deren Substitutionselastizität von 1 verschieden, aber immer noch konstant ist. In den Beispielen haben wir das Faktoreinsatzverhältnis als Funktion der Substitutionsgrenzrate und daraus die Substitutionselastizität berechnet. Wenn dieser Weg nicht möglich ist, so hilft folgende Überlegung: die Substitutionselastiztität schreibt sich als SEL(y | x) = y ′ (x) y/ x · ∂(y(x)/ x) ∂y ′ (x) = x y · y ′ (x) · ∂(y(x)/ x) ∂y ′ (x) Weil auf der c-Niveaulinie von f sowohl das Faktoreinsatzverhältnis y/ x = y(x)/ x als auch die Substitutionsgrenzrate y ′ (x) = ∂y/ ∂x = − ∂f ∂x / ∂f ∂y als Funktion der Variablen x aufgefasst werden können, kann man mit der inversen Kettenregel die partielle Ableitung des Faktoreinsatzverhältnisses nach der Substitutionsgrenzrate in partielle Ableitungen bezüglich x umformen, sofern ∂y ′ ( x ) ∂x = 0: ∂(y(x)/ x) ∂y ′ (x) = ∂(y(x)/ x) ∂x / ∂y ′ (x) ∂x = y ′ (x)x − y(x) x 2 / y ′′ (x) Die Substitutionselastizität stellt sich daher wie folgt dar: SEL(y | x) = x y · y ′ (x) · y ′ (x)x − y(x) x 2 / y ′′ (x) = y ′ (x)(y ′ (x)x − y) x · y · y ′′ (x) Beispiel 6.34 Wir betrachten die Funktion f(x, y) = (x 2 + 1)/ y und wollen die Substitutionselastizität im Punkt (2, 1) T mit Funktionswert f(2, 1) = 5 berechnen. Hier ist die Substitutionsgrenzrate GRS(y | x) = 2xy/ (x 2 + 1) und lässt sich nicht direkt als Funktion von y/ x darstellen. Statt dessen bestimmt man die implizit definierte Funktion y(x) aus (x 2 + 1)/ y = 5 ⇔ y = y(x) = 1 5 (x 2 + 1) mit den Ableitungen y ′ (x) = 2 5 x und y ′′ (x) = 2 5 . Die Substitutionsgrenzrate zwischen y und x ist y ′ (2) = 4 5 , weiter ist y(2) = 1 und y ′′ (2) = 2 5 . Daraus berechnet sich die Substitutionselastizität in (2, 1) T zu SEL(y | x) = y ′ (2)(y ′ (2) · 2 − 1) 2 · 1 · y ′′ (2) = 4/ 5 · (2 · 4/ 5) − 1 2 · 2/ 5 = 3 5 Im nächsten Abschnitt werden wir die Formel für die Substitutionselastizität noch etwas weiter entwickeln, indem y ′ (x), y ′′ (x) mit partiellen Ableitungen von f erster und zweiter Ordnung ausgedrückt werden. Dann ist die Bestimmung der Substitutionselastizität auch noch möglich, wenn die implizite Funktion y = y(x) nicht mehr berechnet werden kann. <?page no="212"?> 212 6 Differentialrechnung Übungen zu Abschnitt 6.4 ? 15. Bei Rohstoffkosten 20x + 40y wird ein Gut mit der Produktionsfunktion f : ]0; ∞ [ 2 → R , f(x, y) = x 2 +3 xy + y 2 x +2 y hergestellt; aktuell ist x = y = 60. Nun sind weitere 50 Geldeinheiten so auf die Produktionsfaktoren aufzuteilen, dass der Produktionszuwachs möglichst groß ist. Argumentieren Sie mit ∇ f. 16. Die Nachfrage nach einem Gut mit Preis x 1 und Preis x 2 eines weiteren Gutes betrage f(x 1 , x 2 ) = x − α 1 · e βx 2 mit α ≥ 0, β ≥ 0. Berechnen Sie a) die direkte Preiselastizität ε f, 1 (x 1 , x 2 ) b) die Kreuzpreiselastizität ε f, 2 (x 1 , x 2 ) 17. Gegeben ist die Produktionsfunktion z = f(x, y) = 4x √ x √ x + y 2 . a) Berechnen Sie die partiellen Elastizitäten für x = 100 und y = 10. b) Um ca. wieviel % ändert sich z, wenn b1) x von 100 auf 101 erhöht wird und y = 10 konstant bleibt, b2) y von 10 auf 10,3 erhöht wird bei unverändertem x = 100? b3) x = 100, y = 10 um je 1% erhöht werden? 18. Aus Rohstoffen x, y entsteht ein Produkt z = f(x, y) = 150x + 1 10 xy + 300y. a) Wie ist bei bisherigen jährlichen Einsatzmengen x = 500, y = 1000 zu verfahren, wenn bei konstanter Produktion eine Mengeneinheit des zweiten Rohstoffes eingespart werden soll? (Hinweis: Substitutionsgrenzrate) b) Kann man wie in a) auch schließen, wenn der Einsatz des zweiten Rohstoffs massiv, z.B. um 50%, verringert wird? 19. Bestimmen Sie zur Funktion f(x, y) = x 2 + xy die Substitutionselastizität zwischen y und x im Punkt x = 2, y = 3 auf zwei Wegen: mittels der Darstellung des Faktoreinsatzverhältnisses y/ x als Funktion der Substitutionsgrenzrate GRS(y | x) und mittels der Krümmung y ′′ (x) der implizit definierten Funktion. 6.5 Ableitungen zweiter Ordnung für Funktionen mehrerer Variablen Bei Funktionen einer Variablen ist es oft erforderlich, zweite (bzw. höhere) Ableitungen zu bestimmen. Dabei wird einfach die Ableitungsfunktion x → f ′ (x) noch einmal nach x abgeleitet. Das Ergebnis heißt zweite Ableitung und wird mit f ′′ (x) bezeichnet. Mit der zweiten Ableitung lässt sich das Krümmungsverhalten der Funktion charakterisieren, denn eine Funktion f mit durchgängig positiver zweiter Ableitung f ′′ (x) auf einem Intervall [a; b] ist konvex (linksgekrümmt) auf [a; b]. Hat eine Funktion f in einem Punkt x 0 die erste Ableitung f ′ (x 0 ) = 0 und die zweite Ableitung f ′′ (x 0 ) > 0, so hat sie in x 0 ein lokales Minimum. Die zweite Ableitung kann auch verwendet werden, um Extremwerte numerisch zu bestimmen; der wichtigste Algorithmus heißt Newton-Verfahren und bestimmt zu einem geeigneten Startwert x 1 eine implizite Folge (x n ) n ≥ 1 , bei der x n +1 Scheitelstelle der quadratischen Funktion x → f(x n ) + f ′ (x n )(x − x n ) + 1 2 f ′′ (x n )(x − x n ) 2 ist. Liegt x 1 nahe genug an einer Minimalstelle x 0 von f, so gilt lim n →∞ x n = x 0 . Das Krümmungsverhalten und numerische Aspekte der Optimierung müssen auch bei Funktionen mehrerer Variablen untersucht werden, wozu man sich überlegen muss, was <?page no="213"?> 6.5 Ableitungen zweiter Ordnung für Funktionen mehrerer Variablen 213 unter Ableitungen höherer Ordnung bei Funktionen mehrerer Variablen zu verstehen ist. Dies ist Thema des vorliegenden Abschnitts. Im Vordergrund steht die Matrix, welche die partiellen Ableitungen zweiter Ordnung aufnimmt. 6.5.1 Die Hesse-Matrix Die partiellen Ableitungen D 1 f, . . . , D n f einer Funktion von n Variablen kann man wieder als Funktionen auffassen und versuchen, nach den n Variablen abzuleiten. Beispiel 6.35 Die Funktion f(x, y) = x 3 + 2xy + e 7 y hat die partiellen Ableitungen D 1 f(x, y) = ∂ ∂x f(x, y) = 3x 2 + 2y D 2 f(x, y) = ∂ ∂y f(x, y) = 2x + 7 · e 7 y . Jede der zwei partiellen Ableitungen kann noch einmal nach x bzw. y abgeleitet werden, was vier verschiedene Ableitungsmöglichkeiten ergibt D 1 (D 1 f)(x, y) = ∂ ∂x (3x 2 + 2y) = 6x D 2 (D 1 f)(x, y) = ∂ ∂y (3x 2 + 2y) = 2 D 1 (D 2 f)(x, y) = ∂ ∂x (2x + 7e 7 y ) = 2 D 2 (D 2 f)(x, y) = ∂ ∂y (2x + 7e 7 y ) = 49e 7 y Die hierbei entstehenden Ableitungen könnte man wiederum nach x bzw. y ableiten, was zu weiteren höheren Ableitungen führt. Der hiermit verbundene Aufwand ist aber aus Sicht ökonomischer Anwendungen weniger sinnvoll. Definition 6.16 ! f : D ⊆ R n → R sei partiell differenzierbar in D . Alle partiellen Ableitungen D i f : D → R 1 seien ebenfalls partiell differenzierbar in D . Dann heißt f zweimal partiell differenzierbar in D mit den partiellen Ableitungen zweiter Ordnung D ij f(x) = D j (D i f)(x) (1 ≤ i, j ≤ n, x ∈ D ) Falls alle D ij f : D → R 1 zusätzlich stetig sind, so heißt f zweimal stetig partiell differenzierbar. Beispiel 6.36 Mit der Matrix A = ( 1 2 2 5 ) ∈ R 2 sei die folgende Funktion zweier Variablen erklärt: f(x 1 , x 2 ) = 〈 ( x 1 x 2 ) , A ( x 1 x 2 ) 〉 = x 2 1 + 4x 1 x 2 + 5x 2 2 Hier ergibt sich D 1 f(x 1 , x 2 ) = 2x 1 + 4x 2 und D 2 f(x 1 , x 2 ) = 4x 1 + 10x 2 . Beide partiellen Ableitungen sind wieder partiell differenzierbar. Die partiellen Ableitungen zweiter Ordnung lauten dann D 1 , 1 f(x 1 , x 2 ) = 2, D 1 , 2 f(x 1 , x 2 ) = 4, D 2 , 1 f(x 1 , x 2 ) = 4 und D 2 , 2 f(x 1 , x 2 ) = 10. <?page no="214"?> 214 6 Differentialrechnung Wie bei den partiellen Ableitungen erster Ordnung hat sich für die partiellen Ableitungen zweiter Ordnung eine Schreibweise mit dem Partialoperator eingebürgert: Mit ∂ 2 f ∂x 2 ist die zweite Ableitung von f gemeint, wenn man zweimal hintereinander nach x ableitet. Mit ∂ 2 f ∂xy bzw. ∂ 2 f ∂x∂y (gemischte partielle Ableitung zweiter Ordnung) ist die zweite Ableitung von f gemeint, wenn man zweimal hintereinander ableitet, und zwar erst nach x und dann nach y. Sinngemäß lassen sich partielle Ableitungen höherer Ordnung erklären, also z.B. ∂ 3 f ∂x 3 oder ∂ 3 f ∂x∂y 2 etc. Sie haben bei den obigen Beispielen sicher schon gemerkt, dass die gemischten partiellen Ableitungen gar nicht von der Ableitungsreihenfolge abhängen, sondern dass sich derselbe Term ergibt. Diese Beobachtung macht man für alle Funktionen mehrerer Variablen, deren partielle Ableitungen zweiter Ordnung wieder stetige Funktionen sind (was man bei nahezu allen ökonomischen Anwendungen annehmen darf): Satz 6.12 (Hesse-Matrix) Sei D ⊆ R n offen und f : D → R zweimal stetig partiell differenzierbar. Dann ist H f (x) : = ⎛ ⎜ ⎜ ⎝ D 11 f(x) D 12 f(x) . . . D 1n f(x) D 21 f(x) D 22 f(x) . . . D 2n f(x) ... ... . . . ... D n1 f(x) D n2 f(x) . . . D nn f(x) ⎞ ⎟ ⎟ ⎠ eine symmetrische Matrix. Sie heißt Hesse-Matrix von f in x ∈ D . In den beiden vorangegangenen Beispiel ergibt sich also: Beispiel 6.37 Für f(x, y) = x 3 + 2xy + e 7 y lautet die Hesse-Matrix H f (x, y) = ( 6x 2 2 49e 7 y ) Beispiel 6.38 Für A = ( 1 2 2 5 ) und f(x) = 〈 x, Ax 〉 ist H f (x 1 , x 2 ) = ( 2 4 4 10 ) = 2A Dieses letzte Beispiel lässt sich auf beliebige quadratische Formen übertragen: Satz 6.13 Die quadratische Form f : R n → R , f(x) = 〈 x, Ax 〉 , x ∈ R n mit einer symmetrischen Matrix A ∈ R n × n hat die Hesse-Matrix H f (x) = 2A. Die Hesse-Matrix kann zur Beschreibung/ Berechnung des Krümmungsverhaltens einer Funktion mehrerer Variablen verwendet werden. Betrachten wir zunächst die Situation, dass f nur eine Variable x hat. Hier kann man die Approximationsgüte für differenzierbare Funktionen f in der Umgebung eines Punktes x ∈ D , wenn man statt der Linearisierung g(y) = f(x) + f ′ (x)(y − x) die quadratische Annäherung h(y) = f(x) + f ′ (x)(y − x) + 1 2 f ′′ (x)(y − x) 2 verwendet. Während g „nur“ im Funktionswert g(x) und der ersten Ableitung g ′ (x) mit f übereinstimmt, trifft dies bei h zusätzlich für die zweite Ableitung h ′′ (x) zu, d.h. die Krümmung von f in x wird auch durch h erfasst. <?page no="215"?> 6.5 Ableitungen zweiter Ordnung für Funktionen mehrerer Variablen 215 2 0 2 4 x 2 0 2 4 y 150 100 50 0 2 0 2 4 x 2 0 2 4 y 150 100 50 0 lineare Approximation quadratische Approximation Abbildung 6.16: Approximationen mit linearen/ quadratischen Funktionen Solch eine Verbesserung ist auch für eine zweimal stetig partiell differenzierbare Funktion f mehrerer Variablen x = (x 1 , . . . , x n ) T möglich und von der Form (mit y = x+d) h(y) = h(x + d) = f(x) + 〈∇ f(x) , d 〉 + 1 2 〈 d , H f (x) · d 〉 Diese Funktion hat in x denselben Funktionswert, Gradienten und dieselbe Hesse- Matrix wie f. Betrachtet man das Änderungsverhalten in einer speziellen Richtung d, so gilt für t ∈ R h(x + td) = f(x) + t 〈∇ f(x) , d 〉 + t 2 2 〈 d , H f (x) · d 〉 Richtungskrümmung: Der Ausdruck ∂ 2 h(x + αd) ∂α 2 ∣ ∣ ∣ ∣ α =0 = 〈 d, H f (x)d 〉 heißt Richtungskrümmung von f im Punkt x in Richtung d. Die Hesse-Matrix einer Funktion in einem Punkt gestattet es somit, das Krümmungsverhalten von f in diesem Punkt in beliebiger Richtung zu ermitteln. Dies wird im folgenden Abschnitt auf das Konzept definiter symmetrischer Matrizen führen. Beispiel 6.39 Dass mit der Approximation durch quadratische Funktionen mehrerer Variablen tatsächlich eine bessere Anpassung als durch lineare Funktionen erreicht werden kann, sei abschließend noch an einem Beispiel illustriert. Für die Funktion f : R 2 → R , f(x, y) = x 3 − 6x 2 − 6y 2 + 5xy + 10y, die ja schon bei der Einführung der verschiedenen Ableitungskonzepte behandelt wurde, gilt ∇ f(x, y) = ( 3x 2 − 12x + 5y − 12y + 5x + 10 ) , H f (x, y) = ( 6x − 12 5 5 − 12 ) Speziell im Punkt x = 0, y = 3 2 ergibt sich f(0, 3 2 ) = 3 2 , ∇ f(0, 3 2 ) = ( 15/ 2 − 8 ) , H f (0, 3 2 ) = ( − 12 5 5 − 12 ) <?page no="216"?> 216 6 Differentialrechnung x 0 y 0 x y x 0 y 0 x y Abbildung 6.17: Je stärker eine implizite Funktion gekrümmt ist, desto ungenauer ist die lineare Annäherung der Niveaulinie durch die Substitutionsgrenzrate. Damit lauten die Approximationen erster und zweiter Ordnung im Punkt (0, 3 2 ) T g(x, y) = 27 2 + 15x 2 − 8y h(x, y) = − 6x 2 + 10y + 5xy − 6y 2 In Abbildung 6.16 sind beide Approximationen in den Graph von f eingezeichnet. Erkennbar ist die deutlich geringere Approximationsgüte der linearen Approximation links, während rechts die quadratische Approximation in der Nähe des Entwicklungspunktes (0, 3 2 ) T auch die Krümmung von f recht gut erfasst. 6.5.2 Krümmung impliziter Funktionen Will man eine ökonomische Variable y durch eine Gleichung f(x, y) = c als Funktion der anderen Variablen x schreiben, so wird die Änderung von y in Abhängigkeit von x in erster Ordnung recht gut durch die Substitutionsgrenzrate, d.h. die Steigung y ′ (x 0 ) der implizit definierten Funktion beschrieben. Die Güte dieser Approximation hängt jedoch auch davon ab, wie stark die Niveaulinie im betrachteten Punkt (x 0 , y 0 ) T gekrümmt ist, wie man in Abbildung 6.17 erkennen kann. Je stärker diese Krümmung ist, desto weniger ändert sich y faktisch in Abhängigkeit von x, selbst wenn die Substitutionsgrenzrate einen anderen Eindruck vermittelt. Diese Krümmung wird durch die zweite Ableitung y ′′ (x 0 ) = ∂ 2 y ( x ) ∂x 2 (x 0 ) beschrieben, für die es eine Darstellung mit Hilfe der partiellen Ableitungen erster und zweiter Ordnung von f gibt: Satz 6.14 Es sei f : D ⊂ R 2 → R eine total differenzierbare Funktion. Die Krümmung der durch f(x, y(x)) = c implizit beschriebenen Funktion x → y(x) ist gegeben durch y ′′ (x) = ∂ 2 y(x) ∂x 2 = − ( ∂ 2 f ∂x 2 · ( ∂f ∂y ) 2 − 2 · ∂ 2 f ∂x∂y + ∂ 2 f ∂y 2 · ( ∂f ∂x ) 2 ) / ( ∂f ∂y ) 3 Leitet man nämlich die Substitutionsgrenzrate y ′ (x) = − ∂f ∂x / ∂f ∂y ein weiteres Mal nach x ab, <?page no="217"?> 6.5 Ableitungen zweiter Ordnung für Funktionen mehrerer Variablen 217 so muss man zunächst die Quotientenregel anwenden: y ′′ (x) = ∂( − ∂f ∂x / ∂f ∂y ) / ∂x = − ( ∂( ∂f ∂x ) ∂x · ∂f ∂y − ∂( ∂f ∂y ) ∂x · ∂f ∂x ) / ( ∂f ∂y ) 2 Achtung! Alle auftretenden partiellen Ableitungen erster Ordnung sind nach Definition der Substitutionsgrenzrate Funktionen in x und y(x). Bei nochmaligem Ableiten nach x muss daher die Kettenregel verwendet werden. Der Zähler-Ausdruck lautet dann ( ∂ 2 f ∂x 2 + ∂ 2 f ∂xy · ∂y ∂x ) · ∂f ∂y − ( ∂ 2 f ∂xy + ∂ 2 f ∂x 2 · ∂y ∂x ) · ∂f ∂x Jetzt setzen wir die Formel ∂y/ ∂x = − ∂f ∂x / ∂f ∂y ein und erhalten ( ∂ 2 f ∂x 2 − ∂ 2 f ∂xy · ∂f ∂x / ∂f ∂y ) · ∂f ∂y − ( ∂ 2 f ∂xy − ∂ 2 f ∂x 2 · ∂f ∂x / ∂f ∂y ) · ∂f ∂x Die Formel für die implizite Krümmung ergibt sich dann durch Einsetzen dieses Zählerterms und etwas „Sortierarbeit“. Die zweite Ableitung y ′′ (x) trat auch bei der Bestimmung der Substitutionselastizität auf. Setzt man in das auf Seite 211 gefundene Ergebnis die Formeln der Substitutionsgrenzrate und der impliziten Krümmung ein, so gewinnt man folgende Formel: Satz 6.15 (Formel für die Substitutionselastizität) Sei f : D ⊆ R n → R eine zweimal stetig partiell differenzierbare Funktion von n Variablen (zu denen die Variablen x, y gehören). Dann ist die Substitutionselastizität zwischen y und x (auf N f (c)) gegeben durch SEL(y | x) = − ∂f ∂x · ∂f ∂y x · y · x · ∂f ∂x + y · ∂f ∂y ∂ 2 f ∂x 2 · ( ∂f ∂y ) 2 − 2 · ∂ 2 f ∂xy · ∂f ∂x · ∂f ∂y + ∂ 2 f ∂y 2 · ( ∂f ∂x ) 2 Die Formel wird sicher eher selten direkt angewendet werden, allerdings erkennen Sie an ihr die Symmetrie der Substitutionselastizität, d.h. SEL(y | x) = SEL(x | y). 6.5.3 Konvexe Funktionen Eine konvexe Funktion mehrerer Variablen ist anschaulich dadurch gekennzeichnet, dass sie längs beliebiger Linien im Definitionsbereich eine Linkskrümmung aufweist. Damit man dies überhaupt sinnvoll aussagen kann, muss der Definitionsbereich D solche Linien auch beinhalten, d.h. zu je zwei Punkten x, y ∈ D muss auch stets die gesamte Verbindungslinie { λx + (1 − λ)y : λ ∈ [0; 1] } in D liegen, oder wie wir es bereits früher vgl. S. 173 ausgedrückt haben: die Menge D muss konvex sein. Wir haben dort aber auch schon festgestellt, dass in Anwendungssituationen überwiegend von Quadern als Definitionsbereich ausgegangen wird, so dass die Konvexität des Definitionsbereiches - von einigen „pathologischen“ Fällen einmal abgesehen - in der Ökonomie nahezu stillschweigend vorausgesetzt wird (und meist auch werden darf). Die durchgängige Linkskrümmung konvexer Funktionen mehrerer Variablen wird nun auf Linien durch den Definitionsbereich erklärt, also genau wie die Konvexität für Funktionen einer Variablen. <?page no="218"?> 218 6 Differentialrechnung konvex konkav Abbildung 6.18: Konvexe/ konkave Funktionen in zwei Variablen; rechts: die weder konvexe noch konkave Funktion f 2 (x, y) = xy Definition 6.17 ! [1] Sei D ⊆ R n konvex. Eine Funktion f : D → R heißt konvex, wenn für alle x, y ∈ D , λ ∈ ]0; 1[ gilt f(λx + (1 − λ)y) ≤ λf(x) + (1 − λ)f(y) [2] f heißt streng konvex, wenn für alle x, y ∈ D , λ ∈ ]0; 1[ gilt f(λx + (1 − λ)y) < λf(x) + (1 − λ)f(y) [3] f heißt konkav/ streng konkav, wenn − f konvex/ streng konvex ist. Der typische Verlauf konvexer bzw. konkaver Funktionen ist in Abbildung 6.18 skizziert. Der Verlauf von Verbindungslinien zwischen Punkten des Funktionsgraphen oberhalb bzw. unterhalb des Funktionsgraphen ist deutlich erkennbar. Beispiele für konvexe Funktionen sind alle (affin) linearen Funktionen f(x) = a 0 + 〈 a, x 〉 , wobei a ∈ R n . Der direkte Konvexitätsbeweis ist hierfür zwar nicht besonders schwer, aber von der Notation etwas aufwändig. Für andere - selbst einfach strukturierte - Funktionen ist der Nachweis oft - wie schon bei Funktionen einer Variablen - mit technischen Tricks verbunden. Man führt ihn zuweilen auf einfachere konvexe Funktionen zurück, muss sich dabei aber vor Fallen bei der Konvexitätsargumentation hüten. Beispielsweise sind Summen konvexer (bzw. konkaver) Funktionen konvex (bzw. konkav), während dies für Produkte von Funktionen nicht notwendigerweise gilt. Beispiel 6.40 So sind die Funktionen g(x, y) = x und h(x, y) = y als lineare Funktionen konvex und auch f 1 (x, y) = g(x, y) + h(x, y) = x + y ist konvex. Das ist aber nicht mehr für f 2 (x, y) = g(x, y)h(x, y) = xy der Fall, wie der Graph von f 2 in Abbildung 6.18 rechts verdeutlicht. Die dort für t = √ 1/ 2 blau eingezeichneten Verbindungsstrecken zwischen ( − t, − t, f( − t, − t)) T und (t, t, f(t, t)) T bzw. zwischen ( − t, t, f( − t, t)) T und (t, − t, f(t, − t)) T liegen oberhalb bzw. unterhalb des Graphen von f. Wir wollen aber im Folgenden Konvexität/ Konkavität von Funktionen mehrerer Variablen nicht direkt nachrechnen, sondern auf Ableitungen zweiter Ordnung zurückführen. Um hierfür ein geeignetes Kriterium zu bekommen, sollen zunächst quadratische Funktionen/ bzw. Formen und hier anfangs der Fall nur einer Variablen betrachtet werden. Beispiel 6.41 Die quadratische Funktion f(x) = ax 2 + bx + c hat für a > 0 eine durchgehende Linkskrümmung (Parabel nach oben geöffnet) und für a < 0 eine durchgehende Rechtskrüm- <?page no="219"?> 6.5 Ableitungen zweiter Ordnung für Funktionen mehrerer Variablen 219 mung (Parabel nach unten geöffnet). Die zweite Ableitung lautet hier f ′′ (x) = 2a. Das Vorzeichen von a bestimmt offensichtlich das Krümmungsverhalten von f. Wie sieht es jetzt mit dem Krümmungsverhalten bei quadratischen Funktionen mehrerer Variablen aus? Wenn man diese als Verallgemeinerung von quadratischen Funktionen einer Variablen auffasst, so müssten hierfür ebenfalls wieder die Ableitungen, d.h. die Hesse-Matrix zuständig sein. Satz 6.16 Eine quadratische Form f(x) = 〈 x, Ax 〉 zur symmetrischen Matrix A ∈ R n × n ist genau dann konvex, wenn sie nichtnegativ ist, d.h. wenn für alle d ∈ R n gilt 〈 d, Ad 〉 ≥ 0. Zur Begründung: f ist genau dann konvex, wenn für alle x, y ∈ D und λ ∈ [0; 1] gilt 〈 λx + (1 − λ)y, A( 〈 λx + (1 − λ)y) 〉 ≤ λ 〈 x, Ax 〉 + (1 − λ) 〈 y, Ay 〉 Löst man die linke Seite mit Hilfe der Linearität auf, so ergibt sich äquivalent λ 2 〈 x, Ax 〉 + 2λ(1 − λ) 〈 x, Ay 〉 + (1 − λ) 2 〈 y, Ay 〉 ≤ λ 〈 x, Ax 〉 + (1 − λ) 〈 y, Ay 〉 Nun bringt man alle Ausdrücke auf die rechte Seite und faktorisiert den Ausdruck λ(1 − λ): 0 ≤ λ(1 − λ)( 〈 x, Ax 〉 − 2 〈 x, Ax 〉 + 〈 y, Ay 〉 ) Die Skalarprodukte lassen sich mittels Linearität schließlich wieder zusammenfassen: λ(1 − λ) 〈 x − y, A(x − y) 〉 ≥ 0 Da aber λ ∈ [0; 1] beliebig gewählt werden kann, muss folglich für alle x, y ∈ D gelten: 〈 x − y, A(x − y) 〉 ≥ 0 Man erkennt, dass eine quadratische Form genau dann konvex ist, wenn das Skalarprodukt 〈 d, Ad 〉 ≥ 0 ist für jede Wahl des Vektors d ∈ R n . Beachten Sie, dass bei quadratischen Formen die Matrix A bis auf den Faktor 2 die Hesse-Matrix der betrachteten Funktion f ist. Der zuletzt gewonnene Ausdruck 〈 d, Ad 〉 hat also das gleiche Vorzeichen wie die Richtungskrümmung. Allgemein kann man aus der quadratischen Annäherung an eine beliebige zweimal stetig-differenzierbare Funktion schließen, dass im Falle der Konvexität die Richtungskrümmung einen stets nichtnegativen Wert 〈 d, H f (x)d 〉 in jedem Punkt x des Definitionsbereiches in jede Richtung d annehmen muss. Um also eine Funktion auf Konvexität zu prüfen, wird man konkret bei festem x ∈ D diese Richtungskrümmung in Abhängigkeit von d auf ihr Vorzeichenverhalten untersuchen. Das ist eine Standardaufgabe, die dem Nachweis der so genannten Definitheit der Hesse-Matrix H f (x) bei festem x entspricht. Definition 6.18 (Definitheit symmetrischer Matrizen) ! Eine symmetrische Matrix H ∈ R n × n heißt [1] positiv definit, wenn für alle d ∈ R n , d = ¯0, gilt: 〈 d, Hd 〉 > 0 [2] positiv semidefinit, wenn für alle d ∈ R n gilt: 〈 d, Hd 〉 ≥ 0 [3] negativ definit, wenn für alle d ∈ R n , d = ¯0, gilt: 〈 d, Hd 〉 < 0 [4] negativ semidefinit, wenn für alle d ∈ R n gilt: 〈 d, Hd 〉 ≤ 0 [5] indefinit, wenn keiner der ersten vier Fälle vorliegt. <?page no="220"?> 220 6 Differentialrechnung Beispiel 6.42 Betrachtet werde die Matrix H = ( 1 2 2 a ) , wobei a ∈ R zunächst nicht weiter spezifiziert ist. Für d 1 , d 2 ∈ R gilt 〈 ( d 1 d 2 ) , ( 1 2 2 a )( d 1 d 2 ) 〉 = d 2 1 +4d 1 d 2 +ad 2 2 = (d 1 +2d 2 ) 2 +(a − 4)d 2 2 . Deshalb ist H für a > 4 positiv definit, denn für alle d = ¯0 ist das Skalarprodukt strikt positiv. für a = 4 positiv semidefinit, aber nicht positiv definit. Denn für alle d ∈ R 2 ist das Skalarprodukt größer oder gleich Null, aber beispielsweise ist ( − 2, 1) T ein Richtungsvektor = ¯0, für den das Skalarprodukt gleich Null ist. für a < 4 indefinit, denn für d = (1, 0) ergibt sich das Skalarprodukt zu 1 > 0, während es für d = ( − 2, 1) T zu a − 4 < 0 wird. An diesem Beispiel kann man schon erkennen, dass die Überprüfung der Definitheit aufgrund von Definition 6.18 nicht sehr gangbar ist. Dafür gibt es einfache Definitheitskriterien auf Basis der so genannten Haupt-Unterdeterminanten. Satz 6.17 (Definitheitstest mittels Hauptunterdeterminanten) Sei H = (h ij ) 1 ≤ i,j ≤ n eine symmetrische n × n-Matrix mit den Haupt-Untermatrizen H k : = ⎛ ⎝ h 11 . . . h 1k ... . . . ... h k1 . . . h kk ⎞ ⎠ , 1 ≤ k ≤ n. Dann gilt [1] H ist positiv definit ⇔ det(H k ) > 0 für alle 1 ≤ k ≤ n. [2] H ist negativ definit ⇔ ( − 1) j det(H k ) > 0 für alle 1 ≤ k ≤ n. [3] H ist positiv semidefinit ⇒ det(H k ) ≥ 0 für alle 1 ≤ k ≤ n [4] H ist negativ semidefinit ⇒ ( − 1) k det(H k ) ≥ 0 für alle 1 ≤ k ≤ n. Insbesondere gilt: Eine symmetrische Matrix H mit det(H 2 ) < 0 ist indefinit. Determinanten einer quadratischen Teilmatrix werden auch Minoren genannt. Die hier durch sukzessives Auffüllen der Matrix nach rechts und unten betrachteten Minoren heißen auch Hauptminoren. Bei Verwendung des oben genannten Determinantenkriteriums können Situationen auftreten, in denen man aus dem Vorzeichenverhalten der Hauptunterdeterminanten nicht auf die Definitheit schließen kann. Dennoch ist es das gängigste Verfahren und soll anhand des oben bereits behandelten Beispiels noch einmal illustriert werden. Beispiel 6.43 Sei wieder H = ( 1 2 2 a ) mit a ∈ R . Hauptuntermatrizen und Hauptminoren lauten: H 1 = [1] und det(H 1 ) = 1 > 0. H 2 = H und det(H 2 ) = a − 4. Hieraus liest man ab: H ist positiv definit für a > 4 H ist nicht negativ definit und nicht negativ semidefinit (für beliebiges a) H ist indefinit für a < 4 <?page no="221"?> 6.5 Ableitungen zweiter Ordnung für Funktionen mehrerer Variablen 221 Wenn H positiv semidefinit ist, muß a ≥ 4 gelten. Man beachte, dass der Fall a = 4 mittels des allgemeinen Determinantenkriteriums nicht entschieden werden kann. Für 2 × 2-Matrizen H kann man jedoch auch im Fall det(H) = 0 noch Nutzen aus der Determinante gewinnen: Satz 6.18 (Spezielles Determinantenkriterium für 2 × 2-Matrizen) Eine symmetrische Matrix H = ( a b b c ) mit a > 0 und ac − b 2 = 0 ist positiv semidefinit. Dies folgt, weil dann zwangsläufig c ≥ 0 ist und der Ausdruck 〈 ( d 1 d 1 ) , ( a b b c )( d 1 d 2 ) 〉 = ad 2 1 + 2bd 1 d 2 + cd 2 2 = ( √ ad 1 + √ cd 2 ) 2 für beliebige d 1 , d 2 nichtnegativ ist. Für symmetrische Matrizen mit mehr als zwei Zeilen und Spalten kann man allerdings die Definitheit nicht mehr erschließen, wenn einer der Hauptminoren gleich Null ist: Beispiel 6.44 H = ⎛ ⎝ 1 2 0 2 4 0 0 0 − 1 ⎞ ⎠ ist indefinit, denn 〈 ⎛ ⎝ 1 0 0 ⎞ ⎠ , H ⎛ ⎝ 1 0 0 ⎞ ⎠ 〉 = 1, 〈 ⎛ ⎝ 0 0 1 ⎞ ⎠ , H ⎛ ⎝ 0 0 1 ⎞ ⎠ 〉 = − 1. Die Hauptminoren lauten hier det(1) = 1, det ( 1 2 2 4 ) = 0, det H = 0, was also nicht auf positive Semidefinitheit von H schließen lässt. Das Determinantenkriterium ist hier also nicht anwendbar. Man könnte das Determinantenkriterium noch verallgemeinern, um auch derartige Situationen zu untersuchen - sind nämlich sämtliche Hauptminoren aller durch simultane Umordnung von Zeilen und Spalten erhältlichen Matrizen größer oder gleich Null, so ist die Matrix positiv semidefinit. Dieses Kriterium ist aber nicht sehr praktikabel, denn schon bei drei Zeilen und drei Spalten sind die Hauptminoren von insgesamt 3! = 6 Matrizen zu prüfen, insgesamt also 18 Determinanten. Bei Matrizen mit 4 Zeilen und Spalten wären das schon 4 · 4! = 96 Determinanten. Das nächste Definitheitskriterium kommt ohne Determinanten aus und vermeidet diesen Aufwand. Es untersucht die Eigenwerte der zu prüfenden Matrix und ist deshalb aber für Matrizen höherer Dimensionen in aller Regel nur numerisch verwendbar. Satz 6.19 Sei H eine symmetrische Matrix mit Eigenwerten λ 1 , . . . , λ n . Dann gilt: [1] H ist positiv definit ⇔ λ 1 > 0, . . . , λ n > 0 [2] H ist negativ definit ⇔ λ 1 < 0, . . . , λ n < 0. [3] H ist positiv semidefinit ⇔ λ 1 ≥ 0, . . . , λ n ≥ 0 [4] H ist negativ semidefinit ⇔ λ 1 ≤ 0, . . . , λ n ≤ 0. H ist indefinit genau dann, wenn H einen strikt positiven und einen strikt negativen Eigenwert hat. <?page no="222"?> 222 6 Differentialrechnung Beispiel 6.45 Sei wieder H = ( 1 2 2 a ) mit a ∈ R . Das charakteristische Polynom von H lautet det ([ 1 − λ 2 2 a − λ ]) = (1 − λ)(a − λ) − 4 = λ 2 − (a + 1) λ + (a − 4) Eigenwerte von H sind die Nullstellen des charakteristischen Polynoms, d.h. λ 1 , 2 = a + 1 2 ± √ ( a + 1 2 ) 2 − (a − 4) = a + 1 ± √ (a − 1) 2 + 16 2 Ist nun a > 4, so ist √ (a − 1) 2 + 16 < a + 1 und beide Eigenwerte sind positiv. H ist also positiv definit. Falls a = 4, so hat H die Eigenwerte 0 und 5 und ist positiv semidefinit. Falls aber a < 4, so ist √ (a − 1) 2 + 16 > a+1. H hat dann einen positiven und einen negativen Eigenwert, ist also indefinit. Mit den Definitheitseigenschaften der Hesse-Matrix kann man jetzt das Krümmungsverhalten eine Funktion mehrerer Variablen charakterisieren: Satz 6.20 (Festlegung des Krümmungsverhaltens durch Definititheit) Sei D ⊆ R n offen und konvex und f : D → R zweimal stetig partiell differenzierbar. H f (x) sei die Hesse-Matrix von f in x. Dann gilt: [1] f ist konvex ⇔ H f (x) ist positiv semidefinit für alle x ∈ D . [2] Wenn H f (x) für alle x ∈ D positiv definit ist, so ist f streng konvex. [3] f ist konkav ⇔ H f (x) ist negativ semidefinit für alle x ∈ D . [4] Wenn H f (x) für alle x ∈ D negativ definit ist, so ist f streng konkav. Beispiel 6.46 Die Hesse-Matrix der Funktion f(x, y) = x 2 + 2y 2 lautet H f (x, y) = ( 2 0 0 4 ) und hat die Hauptunterdeterminanten 2 und 8. Sie ist also für alle (x, y) T ∈ R 2 positiv definit. Die Funktion f ist daher auf ganz R 2 (streng) konvex. Die Funktion f(x, y) = xy ist weder konvex noch konkav. Ihre Hesse-Matrix lautet nämlich H f (x, y) = ( 0 1 1 0 ) und hat die Determinante − 1. Sie ist also indefinit. Die Deckungsbeitrags-Funktion aus Beispiel 6.8 vgl. S. 180 lautet G(p, q) = − 14p 2 − 3q 2 + 3pq + 2396p + 1197q − 120030 Sie hat die Hesse-Matrix H G (p, q) = ( − 28 3 3 − 6 ) mit Hauptminoren − 28 < 0 und 159 > 0. Die Matrix ist dann pauschal negativ definit und G daher streng konkav. <?page no="223"?> 6.5 Ableitungen zweiter Ordnung für Funktionen mehrerer Variablen 223 Beispiel 6.47 Für die CD-Funktion f(x, y, z) = x α y β z γ auf dem Definitionsbereich D =]0; ∞ [ 3 soll das Krümmungsverhalten in Abhängigkeit von den Produktionsparametern α > 0, β > 0 ,γ > 0 genauer untersucht werden. Es gilt ∇ f(x, y, z) = ⎛ ⎝ αx α − 1 y β z γ βx α y β − 1 z γ γx α y β z γ − 1 ⎞ ⎠ = x α y β z γ ⎛ ⎝ α/ x β/ y γ/ z ⎞ ⎠ und H f (x, y, z) ist ⎛ ⎝ α (α − 1) x α − 2 y β z γ αβx α − 1 y β − 1 z γ αγx α − 1 y β z γ − 1 αβx α − 1 y β − 1 z γ β (β − 1) x α y β − 2 z γ βγx α y β − 1 z γ − 1 αγx α − 1 y β z γ − 1 βγx α y β − 1 z γ − 1 γ (γ − 1) x α y β z γ − 2 ⎞ ⎠ = x α y β z γ ⎛ ⎜ ⎝ α ( α − 1) x 2 αβ xy αγ xz αβ xy β ( β − 1) / y 2 βγ yz αγ xz βγ yz γ ( γ − 1) z 2 ⎞ ⎟ ⎠ ︸ ︷︷ ︸ = M Definitheit der Hesse-Matrix hängt nicht von dem für x, y, z > 0 positiven Faktor x α y β z γ , sondern von M ab. Die Haupt-Unterdeterminanten von M lauten det M 1 = α (α − 1) x 2 , det M 2 = αβ x 2 y 2 (1 − α − β) , det M 3 = αβγ (α + β + γ − 1) x 2 y 2 z 2 Letzterer Wert ergibt sich nach der Sarrus-Regel, einfacher aber mit Hilfe der Rechenregeln für Determinanten: det M 3 = αβγ x 2 y 2 z 2 det ⎛ ⎝ α − 1 β γ α β − 1 γ α β γ − 1 ⎞ ⎠ = αβγ x 2 y 2 z 2 det ⎛ ⎝ α + β + γ − 1 β γ α + β + γ − 1 β − 1 γ α + β + γ − 1 β γ − 1 ⎞ ⎠ = αβγ x 2 y 2 z 2 det ⎛ ⎝ α + β + γ − 1 β γ 0 − 1 0 0 0 − 1 ⎞ ⎠ = αβγ x 2 y 2 z 2 (α + β + γ − 1) Dabei wurden im zweiten Schritt zunächst die zweite und dritte Spalte zur ersten Spalte addiert, wodurch in der ersten Spalte die Einträge α + β + γ − 1 entstehen. Subtrahiert man dann noch die erste Zeile von der zweiten und dritten, so lässt sich nun die Determinante durch Entwicklung nach der ersten Spalte leicht bestimmen. Mit diesen Determinanten kann man nun die Definitheit von M bzw. H f prüfen: Falls α+β+γ < 1, so haben die Hauptunterdeterminanten die Vorzeichen − 1, 1, − 1. M und H f sind also negativ definit für alle x, y, z > 0. f ist also (streng) konkav. Falls α + β + γ > 1, so ist M indefinit. In Frage kommt nämlich nur positiv semidefinit. Hierfür muß aber gelten det M 2 ≥ 0, d.h. α + β ≤ 1. Dann folgt aber wegen α, β > 0 schon α < 1 und somit det M 1 < 0. Dies kann für positiv semidefinite Matrizen nicht sein. f ist weder konkav noch konvex. Im Fall α + β + γ = 1 hilft das Determinantenkriterium nicht. Allerdings lässt sich f als Grenzwert lim k →∞ f k einer Schar (streng) konkaver CD-Funktionen f k mit Exponenten α, β, γ − 1 k darstellen. Deren Konkavität überträgt sich auf f als - punktweisen - Grenzwert. f ist daher konkav. Dies lässt sich CD-Funktionen in beliebig vielen Variablen übertragen. Satz 6.21 Ist der Homogenitätsgrad α 1 + · · · + α n einer Cobb-Douglas-Funktion f(x 1 , . . . , x n ) = x α 1 1 · · · x α n n mit Exponenten α 1 > 0, . . . , α n > 0 echt kleiner als (bzw. kleiner oder gleich) Eins, so ist die Funktion strikt konkav (bzw. konkav). Bei einem Homogenitätsgrad größer als Eins ist die Funktion weder konkav noch konvex. <?page no="224"?> 224 6 Differentialrechnung 0.5 0.6 0.7 0.8 0.9 10.5 0.6 0.7 0.8 0.9 1 0 2 4 6 0.5 0.6 0.7 0.8 0 9 0.5 0.6 0.7 0.8 0.9 10.5 0.6 0.7 0.8 0.9 1 0 2 4 6 0.5 0.6 0.7 0.8 0 9 0.5 0.6 0.7 0.8 0.9 10.5 0.6 0.7 0.8 0.9 1 0 2 4 6 0.5 0.6 0.7 0.8 0 9 0.5 0.6 0.7 0.8 0.9 10.5 0.6 0.7 0.8 0.9 1 0 2 4 6 0.5 0.6 0.7 0.8 0 9 Abbildung 6.19: Ausschöpfung des Volumens unter dem Graph einer Funktion zweier Variablen mit sukzessiver Halbierung in x- und y-Richtung. Die Näherungsvolumina von links nach rechts lauten: 0, 25, 0, 642578, 0, 805176, 0, 878052. Der exakte Wert beträgt 121 128 ≈ 0, 945, vgl. Beispiel 6.48 vgl. S. 226 . Übungen zu Abschnitt 6.5 ? 20. a) Welche der Matrizen sind positiv (negativ) definit bzw. indefinit? A = ( 42 0 0 17 ) , B = ( − 1 2 2 − 3 ) , C = ( − 2 3 3 − 5 ) , D = ⎛ ⎝ − 4 4 − 1 4 − 6 2 − 1 2 − 1 ⎞ ⎠ , E = ⎛ ⎝ 3 2 − 2 2 3 − 4 − 2 − 4 5 ⎞ ⎠ 21. Wann ist A = ( a 2a 2a 4 ) positiv definit? 22. Berechnen Sie Hesse-Matrizen: a) f(x, y) = ln(xy), b)f(x, y, z) = 5x 2 − 3y 3 + 3z 4 , c)f(x, y, z) = x 4 yz , d)f(x, y, z) = e xyz . Ist f konvex (konkav)? 6.6 Integrale für Funktionen mehrerer Variablen Volumina von unregelmäßig umschlossenen Körpern lassen sich auf Integrale für Funktionen mehrerer Variablen zurückführen. Sie werden z.B. benötigt, wenn der Wahrscheinlichkeitsbegrifffür mehrere kontinuierliche Merkmale - beispielsweise die Preise oder Umsatzzahlen verschiedener Produkte - erklärt werden soll. 6.6.1 Volumenintegrale Diese Volumina werden im Folgenden exemplarisch anhang von Zweifachintegralen der Form ∫ D f(x 1 , x 2 )dx 1 dx 2 für stetige Funktionen f : D → R erklärt, wobei D = [a 1 ; a 2 ] × [b 1 ; b 2 ] ⊆ R 2 . Das Zweifachintegral lässt sich als Rauminhalt des Körpers über der Grundfläche D auffassen, der von dem Funktionsgebirge vertikal begrenzt wird. Auch hier kann man wie bei Funktionen einer Variablen das Integral über ein Ausschöpfungs- bzw. Einschließungsverfahren annähern. Als ausschöpfende Körper verwendet man dann Quader. In Abbildung 6.19 ist dies anhand der Funktion f(x, y) = x 3 − 6x 2 − 6y 2 + 5xy + 10y über dem Bereich D = [0, 5; 1] × [0, 5; 1] skizziert. Bei der Approximation der Körper werden formal Zerlegungsfolgen a 1 = a m, 1 < · · · < a m,m = a 2 , b 1 = b m, 1 < · · · < b m,m = b 2 <?page no="225"?> 6.6 Integrale für Funktionen mehrerer Variablen 225 mit max i (a m,i − a m,i − 1 ) m →∞ −→ 0 und max i (b m,i − b m,i − 1 ) m →∞ −→ 0 gewählt und D in Rechtecke [a m,i − 1 ; a m,i ] × [b m,j − 1 ; b m,j ] eingeteilt, in denen (geeignete) Stützstellen (x ( m ) i,j , y ( m ) i,j ) T ∈ [a m,i − 1 ; a m,i ] × [b m,j − 1 ; b m,j ] festgelegt werden. Dann ist das Zweifachintegral Grenzwert von „Quadersummen“: ∫ D f(x, y)dxdy : = lim m →∞ ∑ i,j f(x ( m ) i,j , y ( m ) i,j ) · (a m,i − a m,i − 1 ) · (b m,i − b m,i − 1 ) falls der Grenzwert unabhängig von der Art der Zerlegung existiert. Das skizzierte Ausschöpfungsverfahren ist allerdings bei Funktionen von n Variablen mit größerem n schnell ineffizient: Bei k Stützstellen auf jeder Koordinatenachse müssen nämlich (k +1) n Summanden berechnet werden. Ein Ausweg ist hier die numerische Integration z.b. mittels Computer-Simulationen, (Monte-Carlo-Methoden). Wenn das Zweifachintegral auf obige Weise als Grenzwert erklärt wird, lassen sich wieder Rechenregeln wie Konstanten- und Summenregel, d.h. ∫ D (af(x, y) + bg(x, y))dxdy = a ∫ D f(x, y)dxdy + b ∫ D g(x, y)dxdy und Regeln vom Typ der partiellen Integration und Substitution aufstellen. Volumenintegrale müssen nicht immer auf Approximationen zurückgeführt werden. Vielmehr sind im Falle stetiger Integranden f : D = [a; b] × [c; d] → R die Zweifachintegrale auf Doppelintegrale zurückführbar. Bei diesen werden zwei einfache Integrationen hintereinander ausgeführt, die man jeweils unter Verwendung des Hauptsatzes der Differential- und Integralrechnung mittels Stammfunktionen bestimmt. Man gewinnt das bestimmte Integral ∫ D f(x, y) dx dy indem man erst nach y integriert (wobei x Konstante ist) und das Ergebnis nach x integriert, d.h. über die iterierte Vorgehensweise ∫ D f(x, y) dx dy : = ∫ b a [ ∫ d c f(x, y) dy ] dx Den gleichen Wert erhält man, wenn erst nach x und dann nach y integriert wird: Satz 6.22 Für eine stetige Funktion f : [a; b] × [c; d] → R ist b ∫ a ⎡ ⎣ d ∫ c f(x, y) dy ⎤ ⎦ dx = d ∫ c ⎡ ⎣ b ∫ a f(x, y) dx ⎤ ⎦ dy <?page no="226"?> 226 6 Differentialrechnung Beispiel 6.48 Für D = [ 1 2 ; 1] × [ 1 2 ; 1] und f(x, y) = x 3 − 6x 2 − 6y 2 + 5xy + 10y ist ∫ D f(x, y) dx dy = 1 ∫ 1 2 [ 1 4 x 4 − 2x 3 + 5 3 x 2 y − 6xy 2 + 10xy ] x =1 x = 1 2 dy = 1 ∫ 1 2 ( − 3y 2 + 55 8 y − 97 64 ) dy = 121 128 = 0, 9453125 Bei der anderen Integrationsreihenfolge ergibt sich der gleiche Wert ∫ D f(x, y) dx dy = 1 ∫ 1 2 ( 1 2 x 3 − 3x 2 + 15 8 x + 2 ) dy = 121 128 Entsprechend verläuft die Integration von stetigen Funktionen mit mehr als zwei Variablen. Es wird nacheinander nach jeder Variablen integriert, wobei die anderen Variablen jeweils als Konstanten aufgefasst werden. Dass sich unabhängig von der Integrationsreihenfolge stets derselbe Wert ergibt, erinnert an die Gleichgültigkeit der Ableitungsreihenfolge bei der Bildung gemischter partieller Ableitungen zweiter Ordnung. 6.6.2 Integrationsregeln Anders als bei Funktionen einer Variablen haben die Begriffe „unbestimmtes Integral“ und „Stammfunktion“ für Funktionen mehrerer Variablen unterschiedliche Bedeutung. Definition 6.19 ! [1] Es sei f : D ⊆ R 2 → R eine stetige Funktion. Eine zweimal stetig partiell differenzierbare Funktion F : D → R heißt unbestimmtes Integral von f, wenn D 12 F (x, y) = D 21 F (x, y) = f(x, y) für alle (x, y) T ∈ D . Man schreibt dann ∫ f(x, y)dxdy = F (x, y). [2] Es seien f 1 , f 2 : D ⊆ R 2 → R stetig. Eine stetig partiell differenzierbare Funktion F : D → R heißt Stammfunktion von f 1 , f 2 , wenn ∇ F (x, y) = (f 1 (x, y), f 2 (x, y)) T für alle (x, y) T ∈ D . Für die Berechnung von Mehrfachintegralen ist das unbestimmte Integral zuständig. So gilt in der Situation der obigen Definition, wenn D = [a 1 ; a 2 ] × [b 1 ; b 2 ]: ∫ a 2 a 1 ∫ b 2 b 1 f(x, y)dxdy = ∫ a 2 a 1 ( ∫ b 2 b 1 f(x, y)dy)dx = ∫ a 2 a 1 (D 1 F (x, b 2 ) − D 1 F (x, b 1 )) dx = F (a 2 , b 2 ) − F (a 1 , b 2 ) − F (a 2 , b 1 ) + F (a 1 , b 1 ) Beide Integrationsschritte führt man also mittels des unbestimmten Integrals F aus. <?page no="227"?> 6.6 Integrale für Funktionen mehrerer Variablen 227 y x y b 1 b 2 a 1 y a 2 y y x 1 1 y 1 y 2 f x y Abbildung 6.20: Volumenintegral mit gebundenen Grenzen; links Definitionsbereich und Schnitt, Mitte und rechts Beispiel 6.50 Beispiel 6.49 Beispielsweise ergibt sich ∫ a 2 a 1 ∫ b 2 b 1 cos(x + y)dxdy = ∫ a 2 a 1 (sin(x + b 2 ) − sin(x + b 1 )) dx = − cos(a 2 + b 2 ) + cos(a 1 + b 2 ) + cos(a 2 + b 1 ) − cos(a 1 + b 1 ) Auch für allgemeinere Definitionsbereiche können Mehrfachintegrale gebildet werden: Im Falle von Integralen ∫ ∞ a 1 ∫ b 2 b 1 · · · , ∫ ∞ a 1 ∫ ∞ b 1 · · · , ∫ ∞ −∞ ∫ b 2 b 1 usw. mit uneigentlichen Integrationsgrenzen werden diese wieder durch Limesbildung erfasst. Falls D kein Rechteck (sondern Kreis, Dreieck,...) ist, bildet man Schnitte D y = { x ∈ R : (x, y) T ∈ D } und integriert wieder zweimal einfach, wobei innen als Integrationsbereich D y verwendet wird. Konkret gilt oft vgl. Abbildung 6.20, S. 227 - D y = { x ∈ R : (x, y) T ∈ D } = [a 1 (y); a 2 (y)], d.h. die Schnitte sind Rechtecke - { y ∈ R : ∃ x mit (x, y) T ∈ D } = [b 1 ; b 2 ]. Dann gilt ∫ D f(x, y)dxdy = ∫ b 2 b 1 ( ∫ a 2 ( y ) a 1 ( y ) f(x, y)dx ) dy. Dabei können nach Bedarf die Rollen von x, y vertauscht werden; dann aber ist auch eine vertauschte Berechnung der Schnitte erforderlich. Beispiel 6.50 Für f(x, y) = 2xy und D = { (x, y) T ∈ R 2 : x, y ≥ 0, x 2 + y 2 ≤ 1 } ist der Graph von f und der Definitionsbereich in Abbildung 6.20 dargestellt. Gesucht ist das Volumen des vom Funktionsgraph und D umschlossenen Bereiches. Die Schnitte lauten D y = { x ∈ R : (x, y) T ∈ D } = [ 0; √ 1 − y 2 ] für 0 ≤ y ≤ 1 und { y ∈ R : ∃ x mit (x, y) T ∈ D } = [0; 1]. Dann ergibt sich ∫ D f(x, y)dxdy = ∫ 1 0 ( ∫ √ 1 − y 2 0 2xydx ) dy = ∫ 1 0 y(1 − y 2 )dy = 1 4 <?page no="228"?> 228 6 Differentialrechnung Neben der Zurückführung von Zweifach-Integralen auf Doppelintegrale mittels Schnitten wird oft auch versucht, den Definitionsbereich so zu transformieren, dass er in einen Quader überführt werden kann. Das Ausgangs-Integral kann dann durch Substitution der Transformationsfunktion so umgeschrieben werden, dass abschließend die Berechnung als Doppelintegral möglich ist. Beispiele solcher Mengen sind alle Formen von Kreisringsektoren K der Form, wie sie schon in Abbildung 6.8 vgl. S. 191 dargestellt wurden. Bezeichnen r 1 den inneren und r 2 den äußeren Radius eines solchen Kreisringes und φ 1 < φ 2 die begrenzenden Winkel, so lässt sich jeder Punkt (x, y) T eines solchen Kreisring-Sektors in der Form (r cos φ, r sin φ) T mit den Polarkoordinaten r ∈ [r 1 ; r 2 ] und φ ∈ [φ 1 ; φ 2 ] darstellen. Die Transformationsfunktion ist dann g = (g 1 , g 2 ) : [r 1 ; r 2 ] × [φ 1 ; φ 2 ] → K , g(r, φ) = (r cos φ, r sin φ) Wie schon bei der Einführung der Determinante vgl. S. 116 angedeutet, verändert sich der Flächeninhalt einer solchermaßen aus einem Rechteck gewonnenen gekrümmten Fläche mit der Determinante der Änderungsfunktion, in diesem Falle der Determinante der Jacobi-Matrix der Transformationsfunktion g, welche man auch Funktionaldeterminante nennt. Im Falle der Kreisringsektor-Transformation ergibt sich die Jacobi-Matrix von g zu J g (r, φ) = ( cos φ − r sin φ sin φ r cos φ ) vgl. S. 190 , die Funktionaldeterminante ist det(J g (r, φ)) = r cos 2 φ + r sin 2 φ = r. Integrale über Bereichen, die sich auf Rechtecke transformieren lassen, können nun mittels der Substitutionsregel auf Doppelintegrale zurückgeführt werden. Diese Regel ist in wesentlich allgemeinerem Kontext, d.h. auch bei Funktionen mit mehr als zwei Variablen, gültig und sie erlaubt das Hin- und Herrechnen zwischen verschiedenen Transformationsgestalten des Integrationsbereiches S , für den die Indikatorfunktion 1 S (x) = { 1 falls x ∈ S 0 falls x / ∈ S Riemann-integrierbar ist. Beispiele solcher Jordan-Mengen sind Intervalle, Rechtecke, Kreise oder Ellipsen auch höherer Dimensionen. Satz 6.23 (Substitutionsregel) Seien D , E ⊆ R n offen und f : D → R eine stetige Funktion. Weiter sei g : E → D eine injektive (d.h. auf ihrem Wertebereich g( E ) ⊆D umkehrbare) und differenzierbare Funktion mit Jacobi-Matrix J g (x), deren Determinante det(J g (x)) auf E stets positiv oder stets negativ ist. Für jede kompakte Jordan-Menge T ⊆ E ist dann S = g( T ) wieder eine Jordan-Menge und es gilt ∫ g( T ) f(x)dx = ∫ T f(g(t)) | det J g (t) | dt Die Formel stellt eine Erweiterung der Substitutionsregel einer Variablen für eindimensionale Integrale dar, bei welcher die Ableitung der Transformationsfunktion als zusätzlicher Faktor hinzukam. Für höherdimensionale Integrationen muss an dieser Stelle eben die Determinante der Jacobi-Matrix eingesetzt werden. Man erkennt, dass die Volumenbestimmung also das Änderungsverhalten berücksichtigen muss, welches sich aus der Transformationsfunktion g ergibt. Während bei einer linearen Transformation x → Ax die Determinante von A in die Flächenänderungsformel eingeht, so benötigt man hierzu bei der nichtlinearen Transformation x → g(x) die Funktionaldeterminante - bei einer linearen Abbildung x → Ax stimmt die Funktionaldeterminante mit det(A) überein. <?page no="229"?> 6.6 Integrale für Funktionen mehrerer Variablen 229 Zur Illustration sei diese Substitutionsregel für den oben eingeführten Kreisringbereich K ausgeführt. Mit Kreisring-Transformation g(r, φ) = (r cos φ, r sin φ) und deren Funktionaldeterminante r lautet sie dann ∫ K f(x, y)dxdy = ∫ φ 2 φ 1 ∫ r 2 r 1 f(r cos φ, r sin φ) · r drdφ Beispiel 6.51 Die bekannteste Anwendung dieser Formel ist das sogenannte Gauß’sche Fehlerintegral ∫ ∞ −∞ e −x 2 dx = √π welches Grundlage der oft verwendeten Normalverteilung ist. Weil der Integrand symmetrisch ist, zeigt man ∫ ∞ 0 e −x 2 dx = 1 2 √π, was aus ∫ ∞ 0 ∫ ∞ 0 e − ( x 2 +y 2 )dxdy = ∫ ∞ 0 e −x 2 dx ∫ ∞ 0 e −y 2 dx folgt, wenn man nachgerechnet hat, dass das linke Doppelintegral den Wert π 4 hat. Dieses entspricht aber dem Zweifach-Integral über dem Quader [0; ∞] × [0; ∞], welcher durch Viertelkreise K R , d.h. Kreisringe mit Innenradius Null, Außenradius R mit Winkelbegrenzungen 0 und π 2 = 90 ◦ ausgeschöpft werden kann. Deshalb gilt ∫ ∞ 0 ∫ ∞ 0 e − ( x 2 +y 2 )dxdy = lim R→∞ ∫ K R e − ( x 2 +y 2 )dxdy Der Viertelkreis ist Polarkoordinaten-Transformation des Rechtecks [0; R]×[0; π 2 ].Damit besagt die Substitutionsregel, angewendet auf die Polarkoordinaten-Transformation ∫ K R e − ( x 2 +y 2 )dxdy = ∫ π 2 0 ∫ R 0 e − ( r 2 cos 2 φ+r 2 sin 2 φ )rdrdφ = ∫ π 2 0 ∫ R 0 e −r 2 rdrdφ = ∫ π 2 0 1 2 (1 − e −R 2 )dφ = π 4 (1 − e −R 2 ) Dieser Term beschreibt also das Volumen unter der Funktion e − ( x 2 +y 2 ) auf dem Viertelkreis K R . Mit R → ∞ ergibt sich der gesuchte Wert lim R→∞ π 4 (1 − e −R 2 ) = π 4 . Übungen zu Abschnitt 6.6 ? 23. Berechnen Sie (mit r > 0) a) r ∫ 1 2π ∫ 0 1dx dy, b) 2 ∫ 1 2 ∫ 1 (x 2 + y 2 )dx dy, c) 2 ∫ 1 1 ∫ 0 (x+y) 2 dx dy, d) π ∫ 0 π ∫ 0 1−cos(x+y)dx dy e) π ∫ 0 π ∫ 0 cos(x + y) 2 dx dy 24. Berechnen Sie ∫ {0≤y≤x≤1} √x − ydxdy <?page no="230"?> 230 6 Differentialrechnung Zusammenfassung Funktionen mehrerer Variablen werden in der Ökonomie vor allem zur Beschreibung von Produktionszusammenhängen und Nachfragesituationen verwendet. Darauf aufbauend treten sie auch bei der Darstellung von Gewinn, Erlös und Kosten auf. Zu den wichtigsten Funktionstypen in der Ökonomie gehören die Cobb-Douglas-Funktionen. Mit homogenen Funktionen erfasst man Sachverhalte, in denen Produktionsfaktoren sich in festen Einsatzverhältnissen verändern. Das Änderungsverhalten ökonomischer Funktionen wird mit dem Differential beschrieben. Zur Berechnung zieht man gewöhnliche partielle Ableitungen heran, d.h. man differenziert nach jeder Variablen, wobei man jeweils die übrigen Variablen wie Konstante behandelt. Mit dem solchermaßen erhaltenen Gradientenvektor kann man in den meisten Fällen weitere Ableitungen wie Richtungsableitungen und -elastizitäten bestimmen; mit letzeren erfasst man die Notwendigkeit das Änderungsverhalten ökonomischer Variablen einheitenunabhängig, also prozentual zu erfassen. Sobald ökonomische Variablen aneinander gebunden sind, lassen sie sich als implizite Funktionen voneinander auffassen und oft auch in Abhängigkeit voneinander differenzieren, um das Änderungsverhalten zu beschreiben. Gerade in Produktions- und Nachfragezusammenhängen betrachtet man die Isoquanten und deren Steigung in Form der Substitutionsgrenzrate sowie Krümmung in Form der (von Einheiten unabhängigen) Substitutionselastizität. Das Krümmungsverhalten von Funktionen mehrerer Variablen lässt sich mit dem Definitheitsverhalten der Hesse-Matrix, d.h. der Matrix der partiellen Ableitungen zweiter Ordnung beschreiben. Integrale in mehreren Variablen dienen zum einen der Flächen- und Volumenberechnung - vor allem im Bereich der Wahrscheinlichkeitsrechnung und Statistik - andererseits helfen sie in Form der Stammfunktion auch bei der steckbriefartigen Beschreibung nicht vollständig präzisierter funktionaler Zusammenhänge der Ökonomie. Übungen zur Vertiefung von Kapitel 6 ? 25. In der Rennbesen herstellenden Industrie herrscht ein harter Wettkampf um Marktanteile. Eine Studie der Firma „Nimbus“ zeigt, dass abhängig vom Preis x > 0 des Besens „Nimbus 2005“ vom Preis y > 0 des (Konkurrenz-)Besens „Reinemach“ und vom Preis z > 0 des Besenpflege-Set „Besen-Rein“ sich für den „Nimbus 2005“ eine Nachfrage gemäß der Funktion f(x, y, z) = y 2 z ( x + y ) ergibt. a) Bestimmen Sie die partiellen Ableitungen erster Ordnung von f. Vereinfachen Sie die dabei auftretenden Ausdrücke so weit wie möglich. b) Für festen Besenpflege-Set-Preis z > 0 sei g(x, y) = f(x, y, z). Weisen Sie nach, dass die Hesse-Matrix von g die folgende Gestalt hat: H g (x, y) = 2 z ( x + y ) 3 ( y 2 − xy − xy x 2 ) c) Untersuchen Sie die Funktion f auf Homogenität. Bestimmen Sie den Elastizitätsgradienten von f und die die Summe der partiellen Elastizitäten. d) Untersuchen Sie das Krümmungsverhalten der Funktion g anhand ihrer Hesse-Matrix H g (x, y), d.h. geben Sie insbesondere an, für welche x, y > 0 diese Hesse-Matrix positiv (bzw. negativ) definit (bzw. semidefinit) ist. Hinweis: Definitheit gemäß Definition prüfen. <?page no="231"?> 7 Optimierungsaufgaben Übersicht Zielformulierungen der Ökonomie lassen sich vielfach auf die Optimierung einer differenzierbaren Funktion f : D ⊆ R n → R von n Variablen zurückführen; diese Variablen sind meist noch Restriktionen unterworfen, die sich mit geeigneten differenzierbaren Funktionen g 1 , . . . , g m : D → R als Gleichungen oder Ungleichungen, d.h. in der Form von Nebenbedingungen g i (x 1 , . . . , x n ) = b i bzw. g i (x 1 , . . . , x n ) ≤ b i bzw. g i (x 1 , . . . , x n ) ≥ b i schreiben lassen. Wir betrachten zunächst Lösungsansätze für Optimierungsprobleme ohne Nebenbedingungen vgl. Abschnitt 7.1 und gehen auf notwendige und hinreichende Bedingungen für lokale Extrema, konvexe Optimierung sowie numerische Ansätze ein. Anschließend wird die Lagrange-Methode zur Bestimmung von kritischen Punkten für Optimierungsprobleme unter Nebenbedingungen in Gleichungs- und Ungleichungsform behandelt vgl. Abschnitt 7.2, S. 243 . Lokale oder globale Optimalität von kritischen Punkten kann dann auf verschiedene Arten nachgewiesen werden vgl. Abschnitt 7.3, S. 260 . Neben dem Spezialfall der konvexen Optimierung und der Besprechung von hinreichenden Bedingungen für lokale Extrema wird noch der Randwertvergleich als vergleichsweise elementare Möglichkeit des Optimalitätsnachweises beschrieben. Der Einfluss exogener Parameter auf das Ergebnis der Optimierung ist Thema der komparativen Statik vgl. Abschnitt 7.4, S. 274 . 7.1 Optimierungsaufgaben ohne Nebenbedingungen Auch wenn Optimierungsprobleme ohne Nebenbedingungen in Anwendungen seltener vorkommen - denn wann dürfen Ressourcen, als welche die Inputs einer Zielfunktion oftmals interpretiert werden, schon einmal bedingungslos eingesetzt werden? - wollen wir mit diesen beginnen, denn die mathematische Technik ist einfacher und bereitet den Boden für die Lösung restringierter Probleme. Dennoch lohnt es sich auch für diese Situation den Optimierungs-Kalkül zu behandeln, denn zum einen lässt sich auch die Optimierung unter Nebenbedingungen zum Teil hier einbetten, zum anderen bietet das Thema Gelegenheit, auf das Konzept der Hesse-Matrix noch einmal einzugehen. Bei der Optimierung muss man zwischen lokalen und globalen Extrema unterscheiden. In Anwendungen ist eigentlich immer die beste Lösung, also ein globales Extremum gesucht. Praktisch berechnet werden jedoch - durch Nullsetzen von Ableitungen - zunächst lokale Extrema oder Kandidaten hierfür. <?page no="232"?> 232 7 Optimierungsaufgaben Definition 7.1 (Lokales/ Globales Extremum einer Funktion) ! Sei f : D → R 1 , D ⊆ R n eine Funktion. [1] Man sagt, f hat an der Stelle x = (x 1 , . . . , x n ) T ∈ D ein lokales Maximum (bzw. lokales Minimum), wenn es ein ε > 0 gibt, so dass gilt: f(y) ≤ f(x) (bzw. f(y) ≥ f(x)) für alle y = (y 1 , . . . , y n ) T ∈ D mit ‖ y − x ‖ < ε [2] Man sagt, f hat an der Stelle x = (x 1 , . . . , x n ) T ∈ D ein globales Maximum (bzw. globales Minimum), wenn gilt f(y) ≤ f(x) (bzw. f(y) ≥ f(x)) für alle y = (y 1 , . . . , y n ) T ∈ D Zuweilen findet sich die Anforderung an ein lokales Extremum, dass es auch innerer Punkt des Definitionsbereiches sein soll. Wir verzichten hierauf, da später stets von differenzierbaren Funktionen auf offenen Mengen ausgegangen wird. Jedes globale Extremum ist ein lokales Extremum. Will man daher ein globales Extremum bestimmen, so kann man das prinzipiell daher wie folgt versuchen: [1] Erst werden alle Kandidaten für lokale Extrema bestimmt (FOC). Diese nennt man auch kritische Punkte.. [2] Unter den kritischen Punkten wird derjenige mit dem größten bzw. kleinsten Funktionswert ermittelt. [3] Schließlich ist noch ein Randwerte-Vergleich mit allen „Randpunkten“ des Definitionsbereichs D erforderlich. Diese Vorgehensweise ist dann brauchbar, wenn man schon weiß, dass das Problem ein globales Extremum als Lösung hat (aber das Extremum noch nicht kennt). Hinreichende Bedingungen für lokale Extrema müssen dann nicht nachgerechnet werden. 7.1.1 Bestimmung kritischer Punkte Mit dieser Vorgehensweise rückt die Bestimmung von Kandidaten für lokale Extrema in den Vordergrund des Interesses. Betrachtet man etwa die Maximierungsaufgaben, und ist (x 1 , . . . , x n ) T ∈ D Stelle eines lokalen Maximums einer Funktion f : D ⊆ R n → R , so bedeutet das für jede der n Input-Variablen, dass eine geringfügige Veränderung nur dieser einen Variablen zu einer Verringerung von f führt, d.h. für alle i ∈ { 1, . . . , n } gibt es ein Intervall J i =]x i − δ i ; x i + δ i [, so dass für alle t ∈ J i f(x 1 , . . . , x i − 1 , t, x i +1 , . . . , x n ) ≤ f(x 1 , . . . , x i − 1 , x i , x i +1 , . . . , x n ) Hält man also alle, bis auf die i-te Variable fest, so ergibt sich eine Schnittfunktion, die in x i ein lokales Maximum hat; damit muss deren Ableitung gleich Null sein. Dabei handelt es sich aber genau um die partielle Ableitung von f nach x i , d.h. um ∂f ∂x i . Es müssen deshalb in einem lokalen Maximum von f alle partiellen Ableitungen verschwinden, also gleich Null sein. vgl. Abbildung 7.1 .Derartige Bedingungen auf Basis der partiellen Ableitungen erster Ordnung der Zielfunktion nennt man auch Bedingungen erster Ordnung (kurz: FOC, engl. First Order Conditions). <?page no="233"?> 7.1 Optimierungsaufgaben ohne Nebenbedingungen 233 0.5 0 0.5 1 1.5 x 0 0.5 1 1.5 2 y 2 0 2 4 6 0 0.5 1 1.5 x Abbildung 7.1: Lokales Maximum (x 0 , y 0 ) einer Funktion zweier Variablen. Die Tangenten an den Graph von f im Punkt (x 0 | y 0 | f(x 0 , y 0 )) in y-Richtung ist horizontal ausgerichtet, die partiellen Ableitungen nach x, y sind dort gleich Null. Satz 7.1 (Notwendige Bedingungen für lokale Extrema; FOC) Sei f : D ⊆ R n → R partiell differenzierbar in D . Sei x = (x 1 , . . . , x n ) T ∈ D ein innerer Punkt von D , so dass f in x ein lokales Extremum hat. Dann gilt: ∇ f(x 1 , . . . , x n ) = ¯0, d.h. alle partiellen Ableitungen von f in x verschwinden. Jeder innere Punkt (x 1 , . . . , x n ) T ∈ D mit ∇ f(x 1 , . . . , x n ) = ¯0 heißt kritischer Punkt. Beispiel 7.1 Zu minimieren sei die Funktion k : R 2 → R , k(x, y) = x 2 + 2xy + 3(y − 1) 2 . Diese hat den Gradienten ∇ k(x, y) = (2x + 2y, 2x + 6(y − 1)) T . Setzt man die partiellen Ableitungen gleich Null, so ergibt sich das (lineare) Gleichungssystem 2x + 2y = 0, 2x + 6y = 6 Subtraktion der beiden Gleichungen voneinander führt zur Elimination von x und zur Gleichung 4y = 6 ⇔ y = 3 2 . Rücksubstitution liefert dann x = − 3 2 . An dieser Stelle kann noch nicht geschlossen werden, dass tatsächlich ein globales Minimum vorliegt. Man könnte z.B. nach einem Bereich B r ( − 3 2 , 3 2 ) mit geeignet großem Radius r > 0 suchen, außerhalb dessen nur noch Funktionswerte größer oder gleich f( − 3 2 , 3 2 ) vorliegen. Das soll an dieser Stelle unterbleiben, weil später eine einfachere Argumentation behandelt wird. Beispiel 7.2 (Fortsetzung von Beispiel 6.8 vgl. S. 180 ) Für das Regalbeispiel ergab sich der Deckungsbeitrag aus der Produktion der Regale Bill1 und Bill2 in Abhängigkeit von deren Preisen als G(p, q) = − 14p 2 − 3q 2 + 3pq + 2396p + 1197q − 120030 Die FOC lauten in diesem Fall − 28p + 3q + 2396 = 0 − 6q + 3p + 1197 = 0 Addiert man zweimal die erste zur zweiten Gleichung, so erhält man − 53p + 5989 = 0 ⇔ p = 113. Eingesetzt in die erste Gleichung folgt − 28 · 113 + 3q + 2396 = 0 ⇔ 3q = 768 ⇔ q = 256. <?page no="234"?> 234 7 Optimierungsaufgaben Auch hier soll die Argumentation, weshalb an dieser Stelle tatsächlich der maximale Deckungsbeitrag erzielt wird, zunächst zurückgestellt werden. Beispiel 7.3 (Formeln der KQ-Methode vgl. S. 98 ) Es soll eine Gerade der Form y = ax + b durch Festlegung geeigneter a, b ∈ R so an Datensätze (x 1 , y 1 ), . . . , (x n , y n ) angepasst werden, dass die Summe der quadrierten Abweichungen zwischen den geschätzten und beobachteten Werten minimal wird. Das bedeutet, dass die Funktion f : R 2 → R , f(a, b) = (y 1 − (ax 1 +b)) 2 + · · · +(y n − (ax n +b)) 2 in a, b minimiert werden muss. f ist differenzierbar mit ∇ f(a, b) = − 2 ( (y 1 − ax 1 − b)x 1 + · · · + (y n − ax n − b)x n (y 1 − (ax 1 + b)) + · · · + (y n − (ax n + b)) ) = − 2 ( S xy − aS x 2 − bS x n(¯ y − a¯ x − b) ) wobei S x = ∑ n i =1 x i , ¯ x = 1 n ∑ n i =1 x i und ¯ y = 1 n ∑ n i =1 y i . S x 2 = ∑ n i =1 x 2 i und S xy = ∑ n i =1 x i y i , Setzt man die partiellen Ableitungen gleich Null, so folgt aus der zweiten der beiden Gleichungen b = ¯ y − a¯ x. Eingesetzt in die erste Gleichung der FOC ergibt sich S xy − aS x 2 − bS x = 0 ⇒ S xy − aS x 2 − (¯ y − a¯ x)n¯ x = 0 ⇒ a = S xy − n¯ x¯ y S x 2 − n¯ x 2 Es folgen also aus den FOC genau die auf Seite 98 angegebenen KQ-Formeln. Dass die Anpassung optimal ist, d.h. die Fehlerquadratsumme minimal wird, kann an dieser Stelle - wie schon in den anderen Beispielen - noch nicht gezeigt werden. Die vorangegangenen Beispiele hatten jeweils quadratische Zielfunktionen in zwei Variablen. Bei quadratischer Zielfunktion lässt sich allgemeiner festhalten: Satz 7.2 Es sei f : D → R n , f(x) = c + 〈 a, x 〉 + 〈 x, Hx 〉 eine quadratische Funktion. Ein kritischer Punkt von f ist durch die Lösung des linearen Gleichungssystems 2Hx = − a gegeben. Denn ∇ f(x) = a + 2Hx, aufgrund von Satz 6.1 und 6.2 vgl. S. 190 Beispiel 7.4 Ein Produkt wird aus n Faktoren mit den Quantitäten x 1 > 0, . . . , x n > 0 hergestellt. Der Output betrage f(x 1 , . . . , x n ). Es sei angenommen, dass die Produktionsfunktion f differenzierbar ist. Das Produkt wird zu einem Preis q > 0 je Einheit verkauft. Die Faktoren stehen mit den Preisen p 1 , . . . , p n zur Verfügung. Mit diesen Informationen berechnet sich der Deckungsbeitrag zu G(x 1 , . . . , x n ) : = q · f(x 1 , . . . , x n ) − p 1 x 1 − · · · − p n x n Bei einer Faktorkombination mit maximalem Deckungsbeitrag ist nun für jeden Faktor i die partielle Ableitung ∂ ∂x i G(x 1 , . . . , x n ) = q · ∂ ∂x i f(x 1 , . . . , x n ) − p i gleich Null, d.h. es gilt q · ∂ ∂x i f(x 1 , . . . , x n ) = p i . Bei (lokal-)maximalem Deckungsbeitrag stimmen also Grenzerlös und Grenzkosten (Stückpreis) jedes Faktors überein. <?page no="235"?> 7.1 Optimierungsaufgaben ohne Nebenbedingungen 235 1 0 1 x 1 0 1 y 4 2 0 2 4 Abbildung 7.2: Graph der Funktion aus Beispiel 7.5 7.1.2 Hinreichende Bedingungen für lokale Extrema Nicht in jedem Fall stellt ein berechneter kritischer Punkt auch schon ein lokales - oder gar globales - Extremum der zu optimierenden Funktion f dar. Stattdessen können auch so genannte Sattelpunkte auftreten. Beispiel 7.5 Betrachtet werde die Funktion f : R 2 → R , f(x, y) = x 2 − y 2 . Der Graph von f ist in Abbildung 7.2 skizziert. Hier gilt ∇ f(x, y) = (2x, − 2y) T , d.h. der einzige kritische Punkt ist (0, 0) T . In diesem Punkt stimmt die Funktion in x-Richtung mit der oben geöffneten Parabel g(x) = f(x, 0) = x 2 , in y-Richtung jedoch mit der nach unten geöffneten Parabel h(y) = f(0, y) = − y 2 überein. Diese unterschiedlichen Öffnungen liegen in jedem Punkt (x, y) des Definitionsbereiches vor, deshalb kann die Funktion kein Extremum haben, vielmehr einen Sattelpunkt in (0, 0) T . Wenn im kritischen Punkt kein Extremum ist, so liegt dies am nicht einheitliche Krümmungsverhalten der Funktion. Ein lokales Extremum von f ist nur dann in einem kritischen Punkt gegeben, wenn jede Richtungskrümmung von f in diesem Punkt dasselbe Vorzeichen hat, d.h. f in alle Richtungen gleich gekrümmt ist. Die Richtungskrümmung einer Funktion f in x in Richtung d stimmt aber mit 〈 d, H f (x)d 〉 überein, wobei H f (x) die Hesse-Matrix von f bezeichnet vgl. S. 215 . Deshalb bauen hinreichende Bedingungen für lokale Extrema auf die Definitheit dieser Matrix: Satz 7.3 (Hinreichende Bedingungen für lokale Extrema) Sei f : D ⊆ R n → R zweimal stetig partiell differenzierbar und x ∗ = (x ∗ 1 , . . . , x ∗ n ) T ∈ D ein innerer Punkt von D mit ∇ f(x ∗ 1 , . . . , x ∗ n ) = ¯0. Dann gilt: [1] Wenn H f (x ∗ 1 , . . . , x ∗ n ) positiv definit ist, so hat f in x ∗ ein lokales Minimum. [2] Wenn H f (x ∗ 1 , . . . , x ∗ n ) negativ definit ist, so hat f in x ∗ ein lokales Maximum. [3] Wenn f in x ∗ ein lokales Minimum (bzw. Maximum) hat, so ist H f (x ∗ 1 , . . . , x ∗ n ) positiv (bzw. negativ) semidefinit. Insbesondere hat f bei indefiniter Matrix H f (x ∗ ) in x ∗ kein lokales Extremum. <?page no="236"?> 236 7 Optimierungsaufgaben Beispiel 7.6 (Fortsetzung von Beispiel 7.1 vgl. S. 233 ) Für k : R 2 → R , k(x, y) = x 2 + 2xy + 3(y − 1) 2 ergibt sich ∇ k(x, y) = ( 2x + 2y 2x + 6(y − 1) ) H k (x, y) = ( 2 2 2 6 ) Berechnet wurde anhand der FOC der kritische Punkt x = − 3 2 , y = 3 2 . Die Hesse- Matrix hat - nicht nur im kritischen Punkt - die Hauptminoren 2 und 8, ist nach dem Determinantenkriterium also positiv definit. Daher hat k im berechneten kritischen Punkt ein lokales Minimum. Dass dieses tatsächlich ein globales Minimum ist, kann an dieser Stelle noch nicht geschlossen werden. Gleich werden wir die Argumentationslücke schließen können, weil die betrachtete Funktion konvex ist. Beispiel 7.7 (Fortsetzung von Beispiel 7.2 vgl. S. 233 ) Der Deckungsbeitrag aus der Produktion der Regale Bill1 und Bill2 beträgt in Abhängigkeit von den Preisen p, q dieser Regale G(p, q) = − 14p 2 − 3q 2 + 3pq + 2396p + 1197q − 120030 mit den FOC − 28p + 3q + 2396 = 0, − 6q + 3p + 1197 = 0 sowie dem kritischen Punkt p = 113 und q = 256. Die Hesse-Matrix lautet H G (p, q) = [ − 28 3 3 − 6 ] und hat die Hauptunterdeterminanten − 28 und 159, ist daher negativ definit. Deshalb stellt der kritische Punkt bereits eine lokale Maximalstelle dar. Beispiel 7.8 (Fortsetzung von Beispiel 7.3 vgl. S. 234 ) Bei der Bestimmung der Geradenparameter nach der KQ-Methode ergibt sich in a, b ∈ R die Zielfunktion f(a, b) = (y 1 − (ax 1 + b)) 2 + · · · + (y n − (ax n + b)) 2 mit ∇ f(a, b) = − 2 ( S xy − aS x 2 − bS x S y − aS x − bn ) , H f (a, b) = 2 ( S x 2 S x S x n ) Hauptminoren der Hesse-Matrix sind 2S x 2 und 4(S x 2 − n¯ x 2 ) = 4 ∑ n i =1 (x i − ¯ x) 2 . Wenn mindestens zwei verschiedene Inputwerte x i = x j beobachtet wurden, so sind beide Hauptunterdeterminanten größer als Null. Dann liegt am berechneten kritischen Punkt ein lokales Minimum der Abweichungs-Zielfunktion f vor. Beispiel 7.9 (Fortsetzung von Beispiel 7.4 vgl. S. 234 ) Die Deckungsbeitragsfunktion f(x 1 , . . . , x n ) = qf(x 1 , . . . , x n ) − p 1 x 1 − · · · + p n x n hat Gradient q ∇ f(x 1 , . . . , x n ) − p und Hesse-Matrix H G (x 1 , . . . , x n ) = H f (x 1 , . . . , x n ). Ob im kritischen Punkt gemäß Beispiel 7.4 ein lokales Maximum vorliegt, hängt also vom Krümmungsverhalten der Produktionsfunktion bzw. von deren Hesse-Matrix ab. <?page no="237"?> 7.1 Optimierungsaufgaben ohne Nebenbedingungen 237 2 1 0 1 2 x 2 1 0 1 2 y 0 5 2 1 0 1 2 x 2 1 0 1 2 y 0 2 4 6 8 Abbildung 7.3: Stützebeneneigenschaft konvexer Funktionen 7.1.3 Optimierung konvexer Funktionen Für konvexe Funktionen ist die Minimierung besonders bequem, weil kritische Punkte schon Stellen eines globalen Minimums sind. Ursache ist das Stützebenenverhalten konvexer Funktionen. Satz 7.4 Sei D ⊆ R n konvex und f : D → R 1 konvex. Dann gilt: [1] f ist stetig im Inneren von D . [2] Stützebenen an konvexe Funktionen: Falls f differenzierbar in D ist, so gilt f(x) ≥ f(x (0) ) + 〈∇ f(x (0) ), x − x (0) 〉 für alle x (0) , x ∈ D . In Abbildung 7.3 ist das Stützebenenverhalten illustriert. Der Nachweis ist kompliziert und wird hier nicht vorgeführt. Hat man einen kritischen Punkt gefunden, so liegt die Stützebene folglich horizontal unterhalb des Funktionsgraphen, vgl. Abbildung 7.3 , rechts. In dem kritischen Punkt liegt daher ein globales Minimum vor. Satz 7.5 Sei D ⊆ R n konvex, f : D → R differenzierbar und konvex. Für jeden inneren Punkt x (0) von D gilt: ∇ f(x (0) ) = ¯0 ⇐⇒ f hat in x (0) ein globales Minimum Bei konkaver Funktion f liegt im kritischen Punkt ein globales Maximum vor. Beispiel 7.10 (Fortsetzung von Beispiel 7.6 vgl. S. 236 ) Zu minimieren ist die Funktion k(x, y) = x 2 + 2xy + 3(y − 1) 2 . Wir haben bereits nachgerechnet, dass H k (x, y) - unabhängig von x, y - immer die gleiche positiv definite Matrix ist. Also ist k konvex. Im einzigen kritischen Punkt x = − 3/ 2, y = 3/ 2 liegt wegen der Konvexität von k ein globales Minimum vor. Beispiel 7.11 (Fortsetzung von Beispiel 7.3 vgl. S. 234 ) Bei der Anpassung einer Geraden y = ax + b an Datenpaare (x 1 , y 1 ), . . . , (x n , y n ) ergibt sich ein kritischer Punkt der Zielfunktion f(a, b) = ∑ n i =1 (y i − (ax i + b)) 2 . In Beispiel 7.8 vgl. S. 236 wurde die Hesse-Matrix H f (a, b) berechnet und als positiv definit nachgewieisen. H f (a, b) ist gleichzeitig unabhängig von a, b. Damit ist f konvex und der kritische Punkt liefert ein globales Minimum von f. <?page no="238"?> 238 7 Optimierungsaufgaben Beispiel 7.12 (Fortsetzung von Beispiel 6.8 vgl. S. 180 ) Der Deckungsbeitrag für die Produktion von Bill1 und Bill2 könnte gemäß Beispiel 7.2 vgl. S. 233 maximal für den kritischen Punkt p = 113 und q = 256 sein. Weil die Hesse-Matrix H G (p, q) = ( − 28 3 3 − 6 ) unabhängig von p, q negativ definit ist, ist G konkav. Also liegt im kritischen Punkt tatsächlich ein globales Deckungsbeitragsmaximum vor. Den Beispielen liegt jeweils eine quadratische Funktion zugrunde. Allgemeiner gilt: Satz 7.6 Die quadratische Funktion f(x) = c + 〈 a, x 〉 + 〈 x, Hx 〉 mit symmetrischer positiv definiter Matrix H hat ein globales Minimum für x = − 1 2 H − 1 a. zur Begründung: f hat nach Satz 6.13 vgl. S. 214 die pauschal positiv definite Hesse- Matrix H f (x) = 2H. f ist also konvex, daher liegt im kritischen Punkt ein globales Minimum vor. In Satz 7.2 vgl. S. 234 wurde schon der kritische Punkt als Lösung der FOC 2Hx+a = ¯0 angegeben. Umgeformt nach x ergibt sich x = 1 2 H − 1 a. Auch die früher behandelte Projektionsaufgabe aus der Linearen Algebra lässt sich in dieses Schema einordnen: Beispiel 7.13 (Fortsetzung von Beispiel 4.19 vgl. S. 115 ) Es soll der Gewinn an fünf Tankstellen auf die zwei Umsatzsparten „Kraftstoff“ und „Sonstige“ zurückgeführt werden. Wir haben in Abschnitt 4.7 vgl. S. 105 dieses Problem als Projektionsaufgabe in Matrizendarstellung geschrieben: die Gewinnbeiträge α 1 und α 2 der beiden Umsatzsparten sowie der „Sockelgewinn“ α 0 ergeben sich durch Minimierung des Ausdrucks α → ‖ g − Dα ‖ . Dabei ist g = (3, 4, 2, 3, 7 2 ) T der Gewinnvektor, α = (α 0 , α 1 , α 2 ) T und D setzt sich spaltenweise aus den Vektoren u (0) = ⎛ ⎜ ⎜ ⎜ ⎝ 1 1 1 1 1 ⎞ ⎟ ⎟ ⎟ ⎠ , u (1) = ⎛ ⎜ ⎜ ⎜ ⎝ 6 2, 5 8, 5 6, 5 9, 5 ⎞ ⎟ ⎟ ⎟ ⎠ , u (2) = ⎛ ⎜ ⎜ ⎜ ⎝ 7 6 5 7 7, 5 ⎞ ⎟ ⎟ ⎟ ⎠ zusammen. Wir wollen nun das zugrunde liegende Optimierungsproblem lösen. Um beim Ableiten keine Quadratwurzeln berücksichtigen zu müssen, minimieren wir anstelle von ‖ g − Dα ‖ - bei gleicher Lösung - den quadrierten Ausdruck f(α) = ‖ g − Dα ‖ 2 = 〈 g − Dα, g − Dα 〉 = 〈 g, g 〉 − 〈 g, Dα 〉 − 〈 Dα, g 〉 + 〈 Dα, Dα 〉 Verwendet wurde, dass die euklidische Norm die Darstellung ‖ x ‖ = √ 〈 x, x 〉 hat. Es handelt sich bei f um eine quadratische Funktion in α, wie man unter Verwendung des Matrizen-Kalküls aus dem zuletzt gewonnenen Ausdruck erkennen kann: Der erste Summand hängt nicht von α ab. Als Funktion von α hat dieser Summand also den Gradienten ¯0. Die beiden mittleren Summanden stimmen überein, d.h. 〈 Dα, g 〉 = 〈 g, Dα 〉 = g T Dα = (D T g) T α = 〈 D T g, α 〉 . Die Summanden ergeben den Wert − 2 〈 D T g, α 〉 , also eine lineare Funktion in dem Variablenvektor α. Gemäß Satz 6.1 vgl. S. 189 hat dieser Teil der Funktion den Gradienten − D T g. <?page no="239"?> 7.1 Optimierungsaufgaben ohne Nebenbedingungen 239 Der letzte Summand ist eine quadratische Form in α, denn 〈 Dα, Dα 〉 = (Dα) T (Dα) = α T (D T D)α = α T (D T Dα) = 〈 α, (D T D)α 〉 Gemäß Satz 6.2 vgl. S. 190 hat dieser Funktionsteil den Gradienten 2(D T D)α. Die Zielfunktion hat also die Form f(α) = 〈 g, g 〉 + 2 〈 D T g, α 〉 + 〈 α, (D T D)α 〉 und den Gradienten ∇ f(α) = − 2D T g + 2(D T D)α Zudem hat sie nach Satz 6.13 vgl. S. 214 die Hesse-Matrix H f (α) = 2(D T D) Diese Matrix ist positiv semidefinit, denn für beliebiges d ∈ R 3 gilt 〈 d, (D T D)d 〉 = d T (D T D)d = (Dd) T (Dd) = 〈 Dd, Dd 〉 = ‖ Dd ‖ 2 ≥ 0 Es ist also f eine konvexe Funktion und jeder kritische Punkt, d.h. mit ∇ f(α) = ¯0 ist Minimalstelle. Diese Gleichung bedeutet aber − 2D T g + 2(D T D)α = ¯0 ⇔ (D T D)α = D T g Sie sehen, dass sich als notwendige Bedingung für ein lokales Minimum gerade die Normalgleichungen ergeben. Die geometrische Lösung des Projektionsproblems, die schon in Beispiel 3.37 vgl. S. 96 gefunden wurde, lässt sich also im Optimierungskontext herleiten und ist global optimal. Sie werden sich jetzt vielleicht fragen, ob man die Optimierung nicht auch viel einfacher hätte durchführen können, wenn die Funktion f(α 0 , α , α 2 ) expliziter geschrieben worden wäre. Aber zum einen würde die Rechnung nicht unbedingt übersichtlicher, denn der Weg bis expliziten Zielfunktion stellt sich recht umfangreich dar, und die schließlich gewonnene Zielfunktion f(α 0 , α 1 , α 2 ) = 201 4 − 31α 0 − 391 2 α 1 − 409 2 α 2 + 5α 2 0 + 247α 2 1 + 861 4 α 2 2 + 66α 0 α 1 + 65α 0 α 2 + 865 2 α 1 α 2 lädt auch nicht unbedingt zur Beschäftigung mit ihr ein. Zum anderen kann Ihnen die vorliegende Rechnung aber auch als „Blaupause“ für lineare Regressionsaufgaben der Statistik dienen, der Rechenweg ist stets derselbe, wenn man die genannte Symbolik verwendet: Die Daten zu dem Merkmal, welches erklärt werden soll, sind im Vektor g zusammengefasst. Die Daten der Merkmale, welche g erklären sollen, werden spaltenweise in D erfasst. Üblicherweise ist die erste Spalte von D eine Spalte mit ausschließlich Eins- Einträgen, womit ein mittlerer Wert für g beschrieben wird. Das Optimierungsproblem lautet ‖ g − Dα ‖ ! = min und wird durch α = (D T D) − 1 D T g gelöst (vorausgesetzt, D T D ist invertierbar, d.h. die Spalten von D sind linear unabhängig). So weit lässt sich der Optimierungsansatz der Regressionsanalyse aus deskriptiver, d.h. rein von Daten getriebener Sicht lösen. In der Statistik lernen Sie dann die Interpretation der für α gewonnenen Werte im Rahmen eines geeigneten Wahrscheinlichkeitsmodells kennen. <?page no="240"?> 240 7 Optimierungsaufgaben 7.1.4 Numerische Optimierung mit dem Gradientenabstiegsverfahren Die notwendige Bedingung für ein lokales Extremum einer Funktion, ∇ f(x) = ¯0 ist oft nicht explizit lösbar. Dann müssen numerische Verfahren zur Annäherung des Optimums verwendet werden. Für Minimierungsaufgaben verwendet man oft das Gradientenabstiegsverfahren bzw. kurz: Gradientenverfahren: Mit einem Startwert x (0) ∈ D : [1] Bestimme die Richtung d = −∇ f(x (0) ) des steilsten Abstiegs. [2] Berechne die Minimalstelle t 0 der Funktion t → g(t) = f(x (0) + t · d). [3] Ersetze x (0) durch x (1) = x (0) + t 0 · d und fahre mit dem ersten Schritt fort. Die Optimierung in Schritt [2] ist die so genannte „line search“, eine Suche entlang einer Geraden. Hierfür werden spezielle Optimierungsverfahren für eine Variable verwendet, z.B. das Newton-Verfahren. Das Gradientenabstiegsverfahren bricht von selbst erst dann ab, wenn ∇ f(x (0) ) = ¯0 (denn dann findet keine Veränderung von x (0) mehr statt), was aber in der Regel nicht der Fall ist. Der Abbruch muss also „von außen“ gesteuert werden: Es wird daher geprüft, ob beispielsweise ‖∇ f(x (0) ) ‖ ausreichend nahe bei Null liegt, oder die Änderung | f(x (0) ) − f(x (1) ) | vernachlässigbar klein ist. Für beide Kriterien oder auch nur eines der beiden werden Schwellenwerte vorgegeben, bei deren Unterschreitung das Verfahren abgebrochen wird. Oft gibt man auch eine maximale Anzahl von Iterationen vor, nach der das Verfahren spätestens stoppt. Der zuletzt gefundene Punkt x (0) wird schließlich als Näherung eines lokalen Minimums verwendet. Wie jedes numerische Verfahren, so wird auch das Gradientenabstiegsverfahren eigentlich nicht (mehr) durch Hand-Rechnungen realisiert, sondern ist Bestandteil einer Implementierung als Computerprogramm. Zur Illustration wollen wir aber doch an einem einfachen Beispiel die Vorgehensweise „zu Fuß“ vorführen: Beispiel 7.14 Wir betrachten die Funktion f(x, y) = x 2 + 1 2 y 2 und wollen ein Minimum der Funktion ermitteln. Dass dieses für x = y = 0 gegeben ist, sollte sofort klar sein. Zur Illustration des Gradientenabstiegsverfahrens wollen wir aber einige Schritte, beginnend mit dem Startwert x 0 = 1 2 , y 0 = 1 ausführen. Dabei verwenden wir den Gradienten (d 1 , d 2 ) T = ∇ f(x, y) = (2x, y) Schritt x 0 y 0 ∇ f(x 0 , y 0 ) g(t) = f(x 0 − td 1 , y 0 − td 2 ) t 0 x 0 − t 0 d 1 y 1 − t 0 d 2 1 1 2 1 1 1 3 4 − 2t + 3 t 2 2 2 3 − 1 6 1 3 2 − 1 6 1 3 − 1 3 1 3 1 12 − 2 t 9 + t 2 6 2 3 1 18 1 9 3 1 18 1 9 1 9 1 9 1 108 − 2 t 81 + t 2 54 2 3 − 1 54 1 27 4 − 1 54 1 27 − 1 27 1 27 1 972 − 2 t 729 + t 2 486 2 3 1 162 1 81 Hier ist die Funktion g(t) stets quadratisch in t, und t 0 = 2/ 3 ist immer die Scheitelstelle der betreffenden Parabel. Dies liegt aber an der speziellen Wahl des Startpunktes. Der Fortschritt des Verfahrens ist auch im Konturdiagramm von f dargestellt vgl. Abbildung 7.4 . Sie sehen, dass die nach vier Schritten gefundene Näherung der Minimalstelle (0, 0) T schon recht gut ist, aber auch, dass das Verfahren in eine Art Zickzack-Bewegung verfällt. <?page no="241"?> 7.1 Optimierungsaufgaben ohne Nebenbedingungen 241 1.0 0.5 0.0 0.5 1.0 1.0 0.5 0.0 0.5 1.0 Abbildung 7.4: Gradientenabstiegsverfahren in Beispiel 7.14 7.1.5 Numerische Optimierung mit dem Newton-Verfahren Kann man zusätzlich noch auf die Hesse-Matrix H f (x) einer Funktion zurückgreifen, so ist mit dem Newton-Verfahren ein weiteres numerisches Minimierungsverfahren gegeben, welches bei geeignetem Startwert x (0) schneller zur Lösung führt als das Gradientenabstiegsverfahren. Die Idee des Newton-Verfahrens besteht darin, die quadratische Approximation einer zweimal stetig partiell-differenzierbaren Funktion als Ersatz zur Optimierung zu verwenden. Diese hat die Gestalt g(x) = f(x (0) ) + 〈∇ f(x (0) ), x − x (0) 〉 + 1 2 · 〈 x − x (0) , H f (x (0) )(x − x (0) ) 〉 Für diese quadratische Funktion wird nun ein Minimum x (1) bestimmt: Der Gradient von g lautet ∇ g(x) = ∇ f(x (0) ) + H f (x (0) )(x − x (0) ) In einem lokalen Minimum von g gilt ∇ g(x) = ¯0 ⇔ H f (x (0) )(x − x (0) ) = −∇ f(x (0) ). Liegt x (0) nahe eines strikten lokalen Minimums von f, so ist H f (x (0) ) positiv definit und deshalb auch invertierbar! Die FOC kann dann nach x aufgelöst werden. Dies ergibt die Grundvorgehensweise des Newton-Verfahrens: Mit einem geeigneten Startwert x (0) ∈ D : [1] Bestimme x (1) = x (0) − H f (x (0) ) − 1 · ∇ f(x (0) ) [2] Ersetze x (0) durch x (1) und beginne von vorn. Die solchermaßen erklärte Punktfolge x (0) , x (1) , x (2) , . . . konvergiert unter bestimmten Voraussetzungen gegen ein lokales Minimum von f. Zu diesem Voraussetzungen gehört, dass der Startwert schon in ausreichender Nähe zu dem Minimum liegt. Das Newton-Verfahren wählt wie das Gradientenverfahren eine Abstiegsrichtung, nämlich d = − H f (x 0 ) − 1 ∇ f(x 0 ), denn die Richtungsableitung D f (x (0) , d) hat den Wert 〈 d, ∇ f(x (0) ) 〉 = −〈 d, H f (x (0) )(H f (x (0) )) − 1 ∇ f(x (0) )) 〉 = −〈 d, H f (x (0) )d 〉 ≤ 0 Man könnte vermuten, dass das Newton-Verfahren, weil ja nicht die Richtung des steilsten Abstiegs verwendet wird, langsamer gegen eine Extremstelle strebt als das <?page no="242"?> 242 7 Optimierungsaufgaben 0.4 0.2 0.0 0.2 0.4 0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.4 0.2 0.0 0.2 0.4 x 0.0 0.2 0.4 y 0.0 0.2 0.4 0.6 0.8 Abbildung 7.5: Vergleich von Newton-Verfahren (blau) und Gradientenabstiegsverfahren (schwarz) Gradientenabstiegsverfahren. Liegt der Startwert aber schon in ausreichender Nähe zum Extremum, so ist das Gegenteil der Fall, weil der Zickzackkurs des Gradientenabstiegsverfahrens vermieden wird. Verdeutlichen wollen wir dies an einem Beispiel mit einer Zielfunktion, deren Minimum leicht abgelesen werden kann, so dass der Rückstand des Gradientenverfahrens ablesbar wird. Beispiel 7.15 Die Funktion f(x, y) = (x − y) 2 + (y − 1/ 2) 4 hat das globale Minimum (1/ 2, 1/ 2) T . Mit dem Startpunkt ( − 4/ 5, 0) T wird das Gradientenabstiegsverfahren und das Newton- Verfahren durchgeführt. Die ersten neun Schritte ergeben die Punkte in der folgenden Tabelle (Gradientenverfahren links, Newton-Verfahren rechts): x y 1 − 0, 4 0 2 − 0, 186514 − 0, 0800574 3 − 0, 121427 0, 0935079 4 − 0, 00160404 0, 0485744 5 0, 0414759 0, 163454 x y 6 0, 111257 0, 137286 7 0, 140261 0, 214628 8 0, 183466 0, 198426 9 0, 203669 0, 252301 x y 1 − 0, 4 0 2 0, 166667 0, 166667 3 0, 277778 0, 277778 4 0, 351852 0, 351852 5 0, 401235 0, 401235 x y 6 0, 434156 0, 434156 7 0, 456104 0, 456104 8 0, 470736 0, 470736 9 0, 480491 0, 480491 Die Punkte sind zusätzlich im Konturdiagramm in Abbildung 7.5 angegeben. Durch die starke Funktionskrümmung im Bereich des Startpunktes verfällt das Gradientenabstiegsverfahren sofort in einen Zickzack-Kurs und erreicht das Optimum nur sehr langsam, während das Newton-Verfahren nach neun Schritten schon fast am Optimalpunkt angekommen ist. Im letzten Punkt des Gradientenabstiegsverfahrens gilt f(0, 2036 , 0, 2523) ≈ 0, 0046, beim Newton-Verfahren f(0, 4805 , 0, 4805) ≈ 0, 0000000286. Der zu erreichende Minimalwert ist f(1/ 2, 1/ 2) = 0. Der Vorsprung des Newton-Verfahrens ist offensichtlich. Bei Funktionen mit stärker gekrümmten Niveaulinien ist das Gradientenverfahren oft recht langsam, die Annäherung an das Minimum erfolgt in einem Zickzack-Kurs der Gradienten, bei dem zwei aufeinander folgende Abstiegsrichtungen fast senkrecht aufeinander stehen. Das Newton-Verfahren vermeidet dies, hat aber andererseits den Nachteil, dass man einen Startwert in ausreichender Nähe zum gesuchten Minimum benötigt. Andere Verfahren verbinden daher Gradientabstiegs- und Newton-Verfahren adaptiv miteinander. So arbeitet das Levenberg-Marquardt-Verfahren, wenn man es <?page no="243"?> 7.2 Optimierung unter Nebenbedingungen 243 etwas lax ausdrückt, bei größerer Distanz zum Optimum eher wie das genannte Gradientenabstiegsverfahren und wird, je näher man dem Optimum kommt, dem Newton- Verfahren immer ähnlicher. In jedem Fall geht mit einem modifizierten Verfahren meist eine deutliche Beschleunigung der Annäherung an das Minimum einher. In Anwendungen muss man immer auch wissen, wie zuverlässig die Näherung durch das Gradientenabstiegsverfahren bzw. Newton-Verfahren ist (wobei man die Optimallösung eben nicht kennt). Eine genauere Untersuchung, unter welchen Voraussetzungen und wie schnell dann das Verfahren gegen eine Minimalstelle konvergiert, kann an dieser Stelle nicht erfolgen. Wer sich tiefer in die Thematik einarbeiten möchte, sei auf [ Luenberger , 2003] und [ Bazaraa/ Sherali/ Shetty , 2006] verwiesen. Übungen zu Abschnitt 7.1 ? 1. Prüfen Sie auf lokale/ globale Extrema und Krümmungsverhalten: a) f(x, y) = − 2x 2 + 2xy − 3 2 y 2 b) g(x, y) = 2x 2 + 3xy − y 2 , c) h(x, y, z) = − 4x 2 − 2y 2 − 1 2 x 2 + 4xy + yz + 100z 2. Bestimmen Sie die Extrema der Funktion f(x, y) = 2(x − 1) 2 − y 3 − y 2 . 3. Zeigen Sie mit a)f(x, y) = x 4 + y 2 , b)f(x, y) = − 2y 2 , c)f(x, y) = x 2 + y 3 : Bei semidefiniter Matrix H f (x 0 , y 0 ) kann man nicht auf Vorliegen eines Extremums im kritischen Punkt (x 0 , y 0 ) schließen. 4. Aus Rohstoffen x, y > 0 mit Stückpreisen a, b > 0 werden z = f(x, y) = x α y β Einheiten eines Produktes mit Stückpreis c hergestellt, wobei α, β > 0, α + β < 1. a) Bestimmen Sie den Deckungsbeitrag. b) Berechnen Sie einen kritischen Punkt des Deckungsbeitrags. c) Weshalb wird im kritischen Punkt der höchste Deckungsbeitrag erzielt? 5. Für a)f(x, y) = 2(x + 1) 4 + y 2 und b)f(x, y) = x 4 + 2xy + y 2 ist ein Minimum gesucht. Wie lautet zu einem Startpunkt (x 0 , y 0 ) T der nächste vom Newton- Verfahren berechnete Punkt (x 1 , y 1 ) T ? 7.2 Optimierung unter Nebenbedingungen Eine der wichtigsten ökonomischen Anwendungen der Mathematik ist die Optimierung unter Restriktionen. Aus dem Sachzusammenhang wird eine Funktion f(x 1 , . . . , x n ) von n Entscheidungsvariablen, die so genannte Zielfunktion modelliert, die zu maximieren bzw. zu minimieren ist. Die Variablen stellen zumeist ökonomische Inputs dar, d.h. es wird beispielsweise von x i ≥ 0 oder x i > 0 ausgegangen. In aller Regel sind aber die Inputs auch noch aneinander gebunden; diese Bindungen bzw. Restriktionen werden mathematisch als Gleichungen bzw. Ungleichungen der Form g(x 1 , . . . , x n ) = 0 bzw. h(x 1 , . . . , x n ) ≤ 0 oder h(x 1 , . . . , x n ) ≥ 0 erfasst. Es sei angenommen, dass alle auftretenden Funktionen differenzierbar auf dem Definitionsbereich D ⊆ R n sind. Beispiel 7.16 Aus der Schule kennen Sie sicher noch diese oder eine ähnliche Fragestellung: Durch Umzäunung soll eine rechteckige Nutzfläche der Seitenlängen x, y > 0 so festgelegt werden, dass bei gegebenem Budget B und Kosten c > 0 je Meter Zaun der Flächeninhalt <?page no="244"?> 244 7 Optimierungsaufgaben maximal wird. Hier ist die Fläche A(x, y) = xy zu maximieren unter einer Nebenbedingung c(2x + 2y) = B. Das hierzu „duale“ Problem besteht darin, die Gesamtkosten c(2x + 2y) für x, y > 0 zu minimieren unter einer Vorgabe an die Fläche. Beispiel 7.17 Ebenfalls vermutlich aus der Schulzeit bekannt: Eine zylindrische Konservendose soll bei 500 Kubikzentimeter Mindestvolumen mit minimalem Materialbedarf (d.h. minimaler Oberfläche) hergestellt werden. Gesucht sind in diesem Verpackungsproblem derjenige Radius r > 0 der Grundfläche und diejenige Höhe h der Mantelfläche der Dose, so dass die gesamte Oberfläche O(r, h) = 2πr 2 + 2πrh minimal wird. Dabei ist die Restriktion V (r, h) = πr 2 h ≥ 500 einzuhalten. Auch hier gibt es eine „duale“ Problemstellung, bei welcher das Volumen V (r, h) für r, h > 0 unter einer Vorgabe an die Oberfläche maximiert werden soll. Beispiel 7.18 (Fortsetzung von Beispiel 7.4 vgl. S. 234 ) Von einem Produkt mit der Produktionsfunktion f(x 1 , . . . , x n ) sollen mindestens y > 0 Einheiten hergestellt werden, wobei die Herstellungskosten minimal sein sollen. Nimmt man wie in Beispiel 7.4 eine lineare Kostenfunktion k(x 1 , . . . , x n ) = p 1 x 1 + · · · + p n x n an, so ist diese Funktion unter der Nebenbedingung f(x 1 , . . . , x n ) ≥ y zu minimieren. Das hierzu „duale“ Optimierungsproblem ist ebenfalls von Interesse: die Ausbringung f(x 1 , . . . , x n ) soll maximiert werden unter der Vorgabe einer Obergrenze für die Produktionskosten, d.h. k(x 1 , . . . , x n ) ≤ c (mit einem vorgegebenen Wert c > 0). Sie erkennen an den vorliegenden Beispielen, dass im Sachkontext Restriktionen sowohl in Gleichungsals auch in Ungleichungsform vorliegen können. Anders als bei den linearen Optimierungsproblemen (vgl. Kapitel 2) werden Ungleichungen bei nichtlinearen Optimierungsaufgaben aber nicht durch Schlupfvariablen aufgelöst. Zur systematischen Darstellung ist es dennoch hilfreich, eine standardisierte Form des Optimierungsproblems aufzustellen: Maximierungsprobleme mit der Zielfunktion f werden als Minimierungsprobleme mit der Zielfunktion − f formuliert. Gleichungsrestriktionen werden in die „= 0“-Form gebracht. Ungleichungsrestriktionen werden in die „ ≤ 0“-Form“ gebracht. Beispiel 7.19 (Fortsetzung von Beispiel 7.16) Statt den Flächeninhalt A(x, y) = xy zu maximieren, wird die Funktion f(x, y) = − A(x, y) = − xy minimiert. Die Budget-Restriktion c(2x + 2y) = B wird in die Form 2cx + 2cy − B = 0 gebracht. Beispiel 7.20 (Fortsetzung von Beispiel 7.17) Die Volumen-Restriktion πr 2 h ≥ 500 bei der Optimierung der Konservendose kann in die Form 500 − πr 2 h ≤ 0 gebracht werden. Beispiel 7.21 (Fortsetzung von Beispiel 7.18) Die Produktions-Restriktion f(x 1 , . . . , x n ) ≥ y wird in die Form y − f(x 1 , . . . , x n ) ≤ 0 gebracht. Insgesamt kann man ein Optimierungsproblem unter Nebenbedingungen stets in die standardisierte Form, d.h. in f(x 1 , . . . , x n ) ! = min x ∈D unter { g 1 (x 1 , . . . , x n ) = 0, . . . , g m (x 1 , . . . , x n ) = 0 h 1 (x 1 , . . . , x n ) ≤ 0, . . . , h k (x 1 , . . . , x n ) ≤ 0 <?page no="245"?> 7.2 Optimierung unter Nebenbedingungen 245 überführen. Diese Standardform ermöglicht es uns später, die notwendigen Bedingungen relativ einheitlich zu formulieren und uns nicht in endlosen Fallunterscheidungen zu verlieren - insbesondere bei der Erläuterung von Lagrange-Multiplikatoren. Bei der Behandlung dieser Probleme sind einige Sprechweisen hilfreich. Zunächst nennt man Punkte des Definitionsbereiches, welche alle gegebenen Nebenbedingungen erfüllen, zulässig. Weiter sucht man auch unter Restriktionen nach global optimalen Lösungen, indem zunächst lokal optimale Lösungen ermittelt werden. Definition 7.2 ! [1] Man sagt, dass f in x ∈ D ein globales Minimum unter den Nebenbedingungen g 1 (x) = 0, . . . , g m (x) = 0, h 1 (x) ≤ 0, . . . , h k (x) ≤ 0 hat, wenn x zulässig ist und für alle zulässigen y ∈ D gilt: f(y) ≥ f(x). [2] Man sagt, dass f in x ∈ D ein lokales Minimum unter den Nebenbedingungen g 1 (x) = 0, . . . , g m (x) = 0, h 1 (x) ≤ 0, . . . , h k (x) ≤ 0 hat, wenn x zulässig ist und es ein ε > 0 gibt, so dass für alle zulässigen y ∈ D mit ‖ y − x ‖ < ε gilt: f(y) ≥ f(x). Entsprechend lassen sich globale Maxima unter Nebenbedingungen erklären. Aufgrund der Definition sind globale Extrema unter Nebenbedingungen zugleich lokale Extrema unter Nebenbedingungen. Die Suche nach globalen restringierten Extrema lässt sich daher analog zu unrestringierten Problemen in folgende Teilaufgaben zerlegen: [1] Zunächst werden kritische Punkte ermittelt (Kandidaten für lokale Extrema). [2] Die berechneten Punkte werden auf lokale Optimalität untersucht. Unter den lokalen Extrema wird das mit dem größten bzw. kleinsten Funktionswert gesucht. [3] Schließlich werden die berechneten Punkte noch mit „zulässigen“ Randpunkten des Definitionsbereiches verglichen, ggf. unter Einsatz von Grenzwertberechnungen. Die Technik zur Lösung der ersten Teilaufgabe heißt Lagrange-Methode und wird schrittweise behandelt. Funktionen werden erst unter einer einzelnen Gleichungsrestriktion minimiert, anschließend unter mehreren Gleichungsrestriktionen vgl. S. 251 , ehe Ungleichungs-Restriktionen berücksichtigt werden vgl. S. 253 , S. 255 . Lineare Optimierungsproblemen (vgl. Kapitel 2) lassen sich mit den nachfolgend beschriebenen Techniken nicht lösen. Der Grund hierfür ist schon am einfachsten Fall, nämlich der Optimierung einer linearen Funktion f(x) = a 0 + a 1 x einer Variablen zu mit a 1 = 0 erkennen. Die Funktion hat entweder kein Optimum oder bei Definitionsbereich [a; b] ein Optimum in einer der Intervallgrenzen. Mit Nullstellengleichungen auf Grundlage von Ableitungen, wie hier und im vorigen Abschnitt beschrieben, kommt man nicht zu dieser Lösung. Die Nichtanwendbarkeit der Lagrange-Methode für LOP werden wir noch einmal in Beispiel 7.25 vgl. S. 250 erläutern. 7.2.1 Optimierung bei einer Nebenbedingung in Gleichungsform Behandelt wird zunächst das Minimierungsproblem in zwei Variablen unter einer Nebenbedingung in Gleichungsform. Aus der Schule bekannt ist: Substitutionsmethode Die Nebenbedingung wird nach einer Variablen aufgelöst und diese damit in der Zielfunktion ersetzt. Letztere wird in der verbleibenden Variable optimiert. Auch für mehr als zwei Variablen und/ oder Nebenbedingungen ist die Substitutionsmethode anwendbar, wenngleich meist nicht empfehlenswert: <?page no="246"?> 246 7 Optimierungsaufgaben x y z y x y Abbildung 7.6: Optimierungsproblem f(x, y) ! = min (x,y) T ∈D unter g(x, y) = 0 nicht immer sind Nebenbedingungen auflösbar. die Rechnung ist bei mehreren Nebenbedingungen oft unübersichtlich. Selbst bei Optimierungsprobleme in zwei Variablen ist die im folgenden beschriebene Lagrange-Methode zu bevorzugen, denn sie liefert eine weitere ökonomische Kennzahl, den Lagrange-Multiplikator. Satz 7.7 (Lagrange-Methode bei zwei Variablen) Für zwei differenzierbare Funktionen f, g : D ⊆ R 2 → R sei (x 0 , y 0 ) ∈ D lokales Minimum von f unter der Nebenbedingung g(x, y) = 0. Weiter sei ∇ g(x 0 , y 0 ) = ¯0. Dann gibt es einen Skalar λ ∈ R mit ∇ f(x 0 , y 0 ) + λ · ∇ g(x 0 , y 0 ) = ¯0, d.h. ∂ ∂x f(x 0 , y 0 ) + λ · ∂ ∂x g(x 0 , y 0 ) = 0 ∂ ∂y f(x 0 , y 0 ) + λ · ∂ ∂y g(x 0 , y 0 ) = 0 Dieser Skalar wird Lagrange-Multiplikator genannt. Zur Begründung: In Abbildung 7.6 sind Zielfunktion und Nebenbedingung drei- und zweidimensional dargestellt. Eingezeichnet sind Niveaulinien von f und die Niveaulinie g(x, y) = 0 sowie die Funktionswerte der Zielfunktion f über dieser Niveaulinie. Wo immer die Niveaulinie g(x, y) = 0 eine Niveaulinie von f „kreuzt“, kann der Zielwert noch unter Einhaltung der Zulässigkeitsbedingung verringert werden und somit nicht minimal sein. Liegt umgekehrt in einem zulässigen, d.h. insbesondere auf der Niveaulinie g(x, y) = 0 gelegenen Punkt (x 0 , y 0 ) T ein lokales Minimum vor, so müssen die beiden Niveaulinien durch diesen Punkt, d.h. die zu g(x, y) = 0 und die Niveaulinie von f zum Niveau f(x 0 , y 0 ) dort tangential verlaufen. Tangenten in (x 0 , y 0 ) an diese Kurven liegen also kollinear. Berücksichtigt man, dass die beiden Gradienten ∇ f(x 0 , y 0 ) und ∇ g(x 0 , y 0 ) senkrecht auf den jeweiligen Niveaulinien verlaufen vgl. Satz 6.9, S. 201 , so müssen auch diese <?page no="247"?> 7.2 Optimierung unter Nebenbedingungen 247 kollinear zueinander, d.h. linear abhängig sein. Es gibt also α, β ∈ R , nicht beide gleichzeitig Null, so dass α ∇ f(x 0 , y 0 ) + β ∇ g(x 0 , y 0 ) = ¯0 Diese Vektorgleichung wird auch Fritz-John-Bedingung genannt. Falls aber noch zusätzlich ∇ g(x 0 , y 0 ) = ¯0, so muss α = 0 sein. Die Vektorgleichung darf dann durch α dividiert werden. Mit λ : = β α folgt ∇ f(x 0 , y 0 ) + λ · ∇ g(x 0 , y 0 ) = ¯0. Dieses Gleichungssystem nennt man auch Kuhn-Tucker-Bedingungen. Wegen der zentralen Bedeutung dieses Satzes in der Optimierung soll neben der geometrischen noch eine weitere Begründung skizziert werden, die sich auf den Fall der Optimierung bei mehr als zwei Variablen und mehr als einer Nebenbedingung übertragen lässt. Dabei wird die anfangs erwähnte Substitutionsmethode und die bereits früher besprochene Substitutionsgrenzrate instrumentalisiert. Sei etwa angenommen, dass D 2 g(x 0 , y 0 ) = 0. Für den zulässigen Punkt (x 0 , y 0 ) ∈ D gibt es dann nach den Erläuterungen im Unterabschnitt 6.4.3 vgl. S. 204f. eine implizit erkärte Funktion h : I =]x 0 − δ, x 0 + δ[ → R (δ > 0 ausreichend klein) mit (x, h(x)) ∈ D sowie g(x, h(x)) = 0 ∀ x ∈ I und h ′ (x 0 ) = − D 1 g(x 0 , y 0 )/ D 2 g(x 0 , y 0 ). Wegen der Minimaleigenschaft von (x 0 , y 0 ) ist x 0 ein lokales Minimum der Funktion F : I → R , F (x) = f(x, h(x)). Demnach muss nach der Kettenregel 6.6 vgl. S. 195 die Gleichung 0 = F ′ (x 0 ) = D 1 f(x 0 , y 0 ) + D 2 f(x 0 , y 0 )h ′ (x 0 ) gelten. Setzt man den o.a. Wert von h ′ (x 0 ) hier ein, so folgt 0 = F ′ (x 0 ) = D 1 f(x 0 , y 0 ) − D 2 f(x 0 , y 0 ) D 1 g(x 0 ,y 0 ) D 2 f(x 0 ,y 0 ) . Mit λ = − D 2 f(x 0 ,y 0 ) D 2 g(x 0 ,y 0 ) gilt daher D 1 f(x 0 , y 0 ) + λD 1 g(x 0 , y 0 ) = 0. Die andere zu zeigende Gleichung D 2 f(x 0 , y 0 ) + λD 2 g(x 0 , y 0 ) = 0 folgt schon aufgrund der speziellen Gestalt von λ. Lagrange-Methode bei zwei Variablen und einer Gleichungsrestriktion Das folgende Gleichungssystem in den Unbekannten x, y und λ ist zu lösen: ∂ ∂x f(x, y) + λ · ∂ ∂x g(x, y) = 0 ∂ ∂y f(x, y) + λ · ∂ ∂y g(x, y) = 0 g(x, y) = 0 Beispiel 7.22 Gesucht sind alle Maxima und Minima von f(x, y) = x · y für (x, y) T ∈ R 2 unter der Nebenbedingung x 2 + y 2 = 1, d.h. g(x, y) = x 2 + y 2 − 1 = 0. Die Situation ist in Abbildung 7.7 dargestellt. f und g sind auf R 2 stetig partiell differenzierbar mit ∇ f(x, y) = (y, x) T , ∇ g(x, y) = (2x, 2y) T Nach der Lagrange-Methode ist folgendes Gleichungssystem zu lösen: { ∇ f(x, y) + λ ∇ g(x, y) = 0 g(x, y) = 0 } ⇔ ⎧ ⎨ ⎩ y + 2λx = 0 x + 2λy = 0 x 2 + y 2 = 1 ⎫ ⎬ ⎭ ⇔ ⎧ ⎨ ⎩ y 2 + 2λxy = 0 x 2 + 2λxy = 0 x 2 + y 2 = 1 ⎫ ⎬ ⎭ Die letzte Umformung (Multiplikation der ersten beiden Gleichungen mit y bzw. x) ist unter der dem Gleichungssystem impliziten Annahme x = 0, y = 0 tatsächlich eine Äquivalenzumformung. Wenn man nun die ersten beiden Gleichungen voneinander subtrahiert, führt das unter Berücksichtigung der dritten Gleichung zu x 2 = y 2 ⇒ x 2 = 1/ 2 = y 2 ⇔ x = ± √ 1/ 2 = y <?page no="248"?> 248 7 Optimierungsaufgaben 1.0 0.5 0.0 0.5 1.0 x 1.0 0.5 0.0 0.5 1.0 y 0.5 0.0 0.5 Abbildung 7.7: Funktion und durch Nebenbedingung eingeschränkte Funktion (blau) aus Beispiel 7.22 Also erhält man die vier Punkte ( ± √ 1/ 2, ± √ 1/ 2) T , als kritische Punkte, d.h. Kandidaten für lokale Extrema. Das Beispiel trägt bereits alle typischen Züge einer Rechnung auf Basis der Lagrange- Methode. Zunächst hat man sich durch den Lagrange-Ansatz eine zusätzliche Variable „aufgehalst“, den Lagrange-Multiplikator. Oft wird das Lagrange-Gleichungssystem zunächst so umgeformt, dass dieser sofort wieder eliminiert wird. Die sich ergebende Gleichung führt zu einer geänderten Sichtweise für die Nebenbedingung, welche im letzten Beispiel ohne die Kenntnis von x 2 = y 2 anders hätte umgeformt werden müssen. Selbst in Situationen, wo die Nebenbedingung nicht explizierbar ist, kann man so noch auf eine konkrete Lösung hoffen. Beispiel 7.23 (Kostenminimierung unter Produktionsrestriktion) Es sollen die Produktionskosten k(x, y) = ax + by (mit a, b > 0) beim Einsatz zweier Faktoren für ein Produkt mit der Ausbringung x α y 1 − α minimiert werden (0 < α < 1). Dabei sollen genau w Einheiten produziert werden (w > 0). Eine derartige parametrische Darstellung mit allgemein gehaltenen a, b, α, w ist vielleicht ungewohnt, aber aufgrund der Skalierbarkeit der Lösung vielseitiger verwendbar und zudem regelmäßig Gegenstand von Sensitivitätsanalysen im Rahmen der komparativen Statik vgl. Unterabschnitt 7.4, S. 274 . Die auf D =]0; ∞ [ 2 zu minimierende Zielfunktion ist also k(x, y). Dazu ist die Nebenbedingung g(x, y) = x α y 1 − α − w = 0 einzuhalten. Aus den partiellen Ableitungen ergibt sich das Lagrange-Gleichungssystem a + λαx α − 1 y 1 − α = 0 ⇔ ax α + λx α y 1 − α = 0 b + λ1 − αx α y 1 − α − 1 = 0 ⇔ by 1 − α + λx α y 1 − α = 0 x α y 1 − α = w <?page no="249"?> 7.2 Optimierung unter Nebenbedingungen 249 z x y Abbildung 7.8: Bezeichnungen im Verpackungsproblem 7.24 Auch hier wird zunächst wieder aus den ersten beiden Gleichungen der Lagrange- Multiplikator eliminiert, diesmal durch Gleichsetzen über λx α y 1 − α . Dann erhält man ax α = by 1 − α ⇐⇒ x = α a b 1 − α y Eingesetzt in die Nebenbedingung ergibt sich ( α a b 1 − α y ) α y 1 − α = w ⇐⇒ y = w ( a(1 − α) bα ) α Völlig entsprechend erhält man x = w ( bα a (1 − α ) ) 1 − α . Der Lagrange-Multiplikator ergibt sich aus ax α + λx α y 1 − α = 0 und x α y 1 − α = w zu λ = − ax αw = − ( a α ) α ( b 1 − α ) 1 − α Seine Bedeutung werden wir später allgemein besprechen vgl. Abschnitt 7.4, S. 274 . Die Lagrange-Methode bei einer Nebenbedingung ist auf Probleme mit mehr als zwei Variablen übertragbar. Mit einem Lagrange-Multiplikator λ wird für jede Variable x i des Optimierungsproblems folgende Gleichung angesetzt: ∂ ∂x i (f(x 1 , . . . , x i , . . . , x n ) + λ · g(x 1 , . . . , x i , . . . , x n )) = 0 Beispiel 7.24 (Verpackungsproblem) Es soll ein Karton gemäß Abbildung 7.8 mit gegebenem Volumen xyz = 1 (Kubikmeter) so hergestellt werden, dass der Materialbedarf minimal wird. Zu beachten ist hierbei, dass Boden und Deckel des Kartons doppelten Materialbedarf haben. Die Zielfunktion ist hier (gemessen durch die Oberfläche f(x, y, z) = 2xy+2xz+4yz. Die Volumenrestriktion wird zur Nebenbedingung g(x, y, z) = xyz − 1 = 0. f, g werden als Funktionen mit Definitionsbereich D = [0; ∞ [ 3 behandelt, aber aufgrund der Nebenbedingung sind insbesondere nur x, y, z > 0 zulässig. Es wird der kritische Punkt mittels Lagrange-Methode ermittelt. Die benötigten Gradienten lauten ∇ f(x, y, z) = (2y + 2z, 2x + 4z, 2x + 4y) T , ∇ g(x, y, z) = (yz, xz, xy) T <?page no="250"?> 250 7 Optimierungsaufgaben Das Lagrange-Gleichungssystem lautet daher 2y + 2z + λyz = 0 2x + 4z + λxz = 0 2x + 4y + λxy = 0 xyz = 1 Multipliziert man die ersten drei Gleichungen jeweils mit x, y bzw. z, so folgt 2xy + 2xz + λxyz = 0 2xy + 4yz + λxyz = 0 2xz + 4yz + λxyz = 0 xyz = 1 Die ersten drei Gleichungen können über den gemeinsamen Term λxyz gleichgesetzt werden, wobei zwei Gleichungen ohne Lagrange-Multiplikator entstehen: 2xy + 2xz = 2xy + 4yz ⇐⇒ x = 2y 2xy + 4yz = 2xz + 4yz ⇐⇒ y = z Setzt man dies in die vierte Gleichung ein, so erhält man xyz = 1 ⇐⇒ 2y 3 = v ⇐⇒ y = 3 √ 1/ 2 Der kritische Punkt lautet also x = 2 3 √ 1/ 2 ≈ 1.59, y = z = 3 √ 1/ 2 ≈ 0.79, λ = − 2 z − 4 y − 4/ 3 √ 1/ 2 ≈ 5.04 Der Materialverbrauch hierzu ist f(x, y, z) = 4 · 3 √ 1/ 4 ≈ 2.52. Die Lagrange-Methode erweist sich in zahlreichen Anwendungssituationen als erste Wahl bei der Optimierung unter Nebenbedingungen, allerdings nicht bei linearer Zielfunktion und gleichzeitig linearen Restriktionen. Beispiel 7.25 Es ist f(x, y) = 2x + 3y zu minimieren auf D = [0; ∞ [ × [0; ∞ [ unter der Nebenbedingung x+y = 1. Substitutiert man die Nebenbedingung als y = 1 − x in die Zielfunktion, so ergibt sich f(x, 1 − x) = 2x + 3(1 − x) = 3 − x und dieser Ausdruck wird minimal für maximales x, wobei x ≤ 1 gelten muss wegen y = 1 − x ≥ 0. Die Optimallösung findet sich also für x = 1, y = 0, d.h. auf einem Randpunkt des Definitionsbereiches. Das ist typisch für lineare Optimierungsprobleme. Es sollte nicht verwundern, dass die Lagrange-Methode in diesem Beispiel auch keinen kritischen inneren Punkt findet. Die Kuhn-Tucker-Gleichungen lauten nämlich 2 + λ = 0, 3 + λ = 0, x + y = 1 und sind nicht lösbar. Das Optimum liegt in diesem Fall auf dem Rand des Definitionsbereiches, genauer gesagt in einer „Ecke“ des zulässigen Bereiches. Für lineare Optimierungsprobleme verwendet man statt dessen den in Kapitel 2 beschriebenen Simplex-Algorithmus. <?page no="251"?> 7.2 Optimierung unter Nebenbedingungen 251 1 0.5 00.51 x 1 0.5 0 0.5 1 y 1 0 1 2 z 1 0.5 0 1 0.5 00.51 x 1 0.5 0 0.5 1 y 1 0 1 2 z 1 0.5 0 1 0.5 00.51 x 1 0.5 0 0.5 1 y 1 0 1 2 z 1 0.5 0 Abbildung 7.9: Zulässiger Bereich und Zielfunktion in Beispiel 7.26 7.2.2 Optimierung bei m Gleichungs-Nebenbedingungen Liegt mehr als eine Nebenbedingung vor, so ist die Verfahrensweise von Satz 7.7 vgl. S. 246 ebenfalls anwendbar. Allerdings benötigt man für jede Nebenbedingung g i (x) = 0 einen eigenen Lagrange-Multiplikator λ i und die Lagrange-Vektorgleichung ist um den Summanden λ i ∇ g i (x) zu erweitern. Satz 7.8 Seien f, g 1 , . . ., g m : D ⊆ R n → R differenzierbare Funktionen. Ein innerer Punkt x (0) = (x (0) 1 , . . . , x (0) n ) T ∈ D sei lokales Extremum von f unter g 1 (x 1 , . . . , x n ) = 0, . . ., g m (x 1 , . . . , x n ) = 0. Weiter seien ∇ g 1 (x (0) ), . . ., ∇ g m (x (0) ) linear unabhängig. Dann gibt es λ 1 , . . ., λ m ∈ R , so dass ∇ f(x (0) ) + λ 1 ∇ g 1 (x (0) ) + . . . + λ m ∇ g m (x (0) ) = ¯0 Die λ 1 , . . . , λ m heißen Lagrange-Multiplikatoren. Ein ausführlicher Beweis findet sich in der Literatur [ Heuser , 2008, S. 341 f.]. Er folgt den Leitlinien des zweiten Nachweises von Satz 7.7 vgl. S. 247 , wobei das Theorem über implizite Funktionen in Form von Satz 7.19 vgl. S. 282 benötigt wird. Die Vektorgleichung der Lagrange-Methode wird Kuhn-Tucker-Bedingung genannt. Die Forderung, dass die Gradienten ∇ g 1 (x (0) ), . . ., ∇ g m (x (0) ) der Restriktionen l.u. sind, ist unmittelbare Verallgemeinerung von ∇ g(x 0 , y 0 ) = ¯0 aus Satz 7.7 vgl. S. 246 ; ein Vektor ist für sich allein linear unabhängig genau dann, wenn er nicht ¯0 ist. Beispiel 7.26 Gesucht sind alle Extrema von f(x, y, z) = x − y unter den Nebenbedingungen g 1 (x, y, z) = x + y + z = 0 g 2 (x, y, z) = x 2 + y 2 + z 2 − 1 = 0 Im Übrigen dürfen x, y, z beliebige reelle Zahlen sein. Zur grafischen Veranschaulichung des Problems kann die Variable z „eliminiert“ werden: Der zulässige Bereich und die Zielfunktion sind in Abbildung 7.9 dargestellt. Die erste Nebenbedingung besagt, dass zulässige Punkte auf der Ebene x + y + z = 0 durch den Ursprung <?page no="252"?> 252 7 Optimierungsaufgaben liegen, während nach der zweiten Nebenbedingung x 2 + y 2 + z 2 = 1 die Punkte gleichzeitig auf einer Kugeloberfläche liegen. Beide geometrischen Gebilde sind in Abbildung 7.9 links skizziert. Als Schnittmenge ergibt sich eine Kreislinie im Raum, die im mittleren Graph skizziert ist. Von den drei Komponenten x, y, z werden in der Zielfunktion jedoch nur x und y benötigt. Daher ist z für die Optimierung nicht von Belang und kann auf einen angemessenen Wert gesetzt werden, etwa z = 0. Die Kreislinie als zulässiger Bereich wird also auf die Ebene der x- und y-Koordinaten „projiziert“, was in der mittleren sowie der rechten Abbildung geschieht. Rechts kann nun der Graph der Funktion f(x, y) = x − y über dieser projizierten Kreislinie dargestellt werden. Man erkennt - auch ohne explizite Rechnung - dass die Funktion ein globales Minimum und Maximum haben muss. Partielle Ableitungen sind ∇ f(x, y, z) = (1, − 1, 0) T und ∇ g 1 (x, y, z) = (1, 1, 1) T , ∇ g 2 (x, y, z) = (2x, 2y, 2z) T . Das Lagrange-Gleichungssystem lautet daher 1 + λ 1 + λ 2 2x = 0 − 1 + λ 1 + λ 2 2y = 0 λ 1 + λ 2 2z = 0 x + y + z = 0 x 2 + y 2 + z 2 = 1 Es gilt λ 2 = 0. Anderenfalls lauteten die ersten beiden Gleichungen 1 + λ 1 = 0 und − 1 + λ 1 = 0, wären also nicht vereinbar. Subtraktion der ersten von der zweiten Gleichung und der zweiten von der dritten Gleichung ergibt die beiden Gleichungen λ 2 (2x − 2y) = − 2 ⇐⇒ λ 2 (y − x) = 1 λ 2 (2y − 2z) = 1 Da λ 2 = 0, folgt hieraus y − x = 2y − 2z ⇐⇒ x + y − 2z = 0. Aus dieser Gleichung und der Nebenbedingung x + y + z = 0 folgt sofort z = 0. Die dritte Ausgangsgleichung lässt dann auf λ 1 = 0 schließen. Übrig bleibt x + y = 0, x 2 + y 2 = 1 und ergibt durch Einsetzungsverfahren zwei kritische Punkte: x = 1/ √ 2, y = − 1/ √ 2, z = 0 mit λ 1 = 0 und λ 2 = − 1/ √ 2 x = − 1/ √ 2, y = 1/ √ 2, z = 0 mit λ 1 = 0 und λ 2 = 1/ √ 2 Die Lagrange-Methode für Nebenbedingungen in Gleichungsform lässt sich auch als nichtrestringierter Optimierungsansatz auffassen: Lagrange-Ansatz bei Nebenbedingungen in Gleichungsform Man bilde die Lagrange-Funktion: L(x 1 , . . . , x n , λ 1 , . . . , λ m ) : = f(x 1 , . . . , x n ) + m ∑ i =1 λ i g i (x 1 , . . . , x n ) und löse das Gleichungssystem ∇ L(x, λ) = ¯0. <?page no="253"?> 7.2 Optimierung unter Nebenbedingungen 253 Denn hierzu ist das Gleichungssystem der Lagrange-Methode ∇ f(x 1 , . . . , x n ) + m ∑ i =1 λ i ∇ g i (x 1 , . . . , x n ) = ¯0 g 1 (x 1 , . . . , x n ) = 0 ... g m (x 1 , . . . , x n ) = 0 ⎫ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎭ gleichwertig. Man kann sich die Lagrange-Methode also auch so vorstellen, dass die Nebenbedingungen in Form von „Straftermen“ der Zielfunktion zugeschlagen werden, wodurch scheinbar ein Optimierungsproblem ohne Nebenbedingungen entsteht. Beispiel 7.27 (Fortsetzung von Beispiel 7.18 vgl. S. 244 ) Es sollen y Einheiten des Produktes kostenminimal hergestellt werden, d.h. zu minimieren ist k(x 1 , . . . , x n ) = p 1 x 1 + · · · + p n x n unter f(x 1 , . . . , x n ) = y. Die Lagrange- Funktion lautet L(x 1 , . . . , x n , λ) : = k(x 1 , . . . , x n ) + λ(f(x 1 , . . . , x n ) − y) Im Kostenminimum muss der Gradient der Lagrange-Funktion gleich dem Nullvektor gesetzt werden, d.h. ∇ L(x 1 , . . . , x n , λ) = ¯0. Dies ist ausgeschrieben ein Gleichungssystem mit n + 1 Gleichungen und n + 1 Unbekannten: Ableiten nach λ ergibt wieder die Nebenbedingung f(x 1 , . . . , x n ) = y. und Ableiten nach x i für i = 1, . . . , n ergibt p i + λ · ∂ ∂x i f(x 1 , . . . , x n ) = 0 ⇐⇒ λ = − p i ∂ ∂x i f(x 1 , . . . , x n ) Diese Gleichungen lassen eine ökonomische Interpretation zu: In einem stationären Punkt ist das Verhältnis von Grenzkosten zu Grenzproduktivität konstant. Eine weitere Bestimmung der Produktionsfaktoren erfordert genauere Kenntnis der Produktionsfunktion. Für zwei Produktionsfaktoren und eine CD-Produktionsfunktion haben wir dies bereits untersucht vgl. Beispiel 7.23, S. 248 . 7.2.3 Optimierung unter einer Ungleichungsrestriktion Auch bei Nebenbedingungen in Ungleichungsform ist die Lagrange-Methode anwendbar. Man darf dann aber solche Nebenbedingungen nicht ohne Weiteres ausschöpfen, d.h. das Ungleichungszeichen mit einem Gleichheitszeichen ersetzen. Eine durch einen zulässigen Punkt x (0) nicht ausgeschöpfte Nebenbedingung heißt inaktiv für x (0) . Wird die Nebenbedingung ausgeschöpft, so heißt sie aktiv. Grundsätzlich löst man Optimierungsproblemen mit Ungleichungsrestriktionen wie folgt: es werden einige Nebenbedingungen als inaktiv „ gesetzt“ und zunächst ignoriert. Mit den übrigen (aktiven) Nebenbedingungen rechnet man die Lagrange-Methode. Für die gefunden kritischen Punkte prüft man anschließend, ob auch die jeweils inaktiv gesetzten Nebenbedingungen erfüllt sind. Weil von vorneherein nicht bekannt ist, ob in einem lokalen Minimum eine Nebenbedingung aktiv sein muss, sind bei Optimierungsproblemen unter Nebenbedingungen in Ungleichungsform Fallunterscheidungen erforderlich. Am wenigsten aufwändig sind <?page no="254"?> 254 7 Optimierungsaufgaben x y B h 0 h 0 h 0 x y h f h 0 h 0 h 0 inaktive Nebenbedingung aktive Nebenbedingung Abbildung 7.10: Optimierungsproblem f(x, y) ! = min unter h(x, y) ≤ 0 diese bei nur einer Nebenbedingung. Wir werden daher diesen Fall jetzt erst besprechen und uns dabei anfangs wieder auf zwei Variablen beschränken. Satz 7.9 (Lokale Minima unter einer Ungleichungsrestriktion) Für zwei differenzierbar Funktionen f, h : D ⊆ R 2 → R sei (x 0 , y 0 ) ∈ D ein Punkt mit ∇ h(x 0 , y 0 ) = ¯0 und ein lokales Minimum von f unter der Nebenbedingung h(x 0 , y 0 ) ≤ 0. Dann gibt es ein μ ≥ 0, so dass ∇ f(x 0 , y 0 ) + μ ∇ h(x 0 , y 0 ) = ¯0, und es gilt μ = 0 oder h(x 0 , y 0 ) = 0 bzw. gleichwertig μh(x 0 , y 0 ) = 0. Diese Gleichung wird Bedingung vom komplementären Schlupf genannt. Zur Begründung: Es sind zwei Fälle zu unterscheiden,vgl. Abbildung 7.10: Die Nebenbedingung ist inaktiv, d.h. h(x 0 , y 0 ) < 0. Dargestellt ist in der Abbildung links ein Kontur-Diagramm von h, in dem die Niveaulinie h(x, y) = 0 hervorgehoben ist. Diese teilt den Definitionsbereich in zwei Bereiche: im linken Teil liegen alle Punkte (x, y) ∈ D mit h(x, y) < 0, also auch der Punkt (x 0 , y 0 ), im rechten Teil entsprechend die Punkte (x, y) mit h(x, y) > 0. Um den Punkt (x 0 , y 0 ) sind zusätzlich die Niveaulinien von f skizziert, die darstellen, dass in (x 0 , y 0 ) tatsächlich ein lokales Minimum liegt. Unter geeigneter Verkleinerung des betrachteten Bereiches findet sich um den Punkt (x 0 , y 0 ) eine ganze Umgebung B = B r (x 0 , y 0 ) mit r > 0 (begrenzt von der in Abbildung 7.10 links dargestellten Kreislinie), innerhalb derer die Nebenbedingung - sogar inaktiv - erfüllt ist und die Funktion den Minimalwert f(x 0 , y 0 ) hat. (x 0 , y 0 ) ist somit schon Stelle eines lokalen Minimums von f ohne Nebenbedingungen und hat daher die notwendige Eigenschaft ∇ f(x 0 , y 0 ) = ¯0. Setzt man aber μ = 0, so gilt auch ∇ f(x 0 , y 0 ) + μ ∇ h(x 0 , y 0 ) = ¯0, d.h. es gilt wieder die Kuhn-Tucker-Bedingung. Bei inaktiver Nebenbedingung ist der Lagrange-Multiplikator μ = 0, denn es ist ∇ h(x 0 , y 0 ) = ¯0 vorausgesetzt und ∇ f(x 0 , y 0 ) = ¯0 geschlussfolgert, was μ = 0 unmöglich macht. Die Nebenbedingung ist aktiv, d.h. h(x 0 , y 0 ) = 0. Damit verschiebt sich die Lage des lokalen Minimums auf die oben angesprochene Begrenzungslinie h(x, y) = 0, wie in <?page no="255"?> 7.2 Optimierung unter Nebenbedingungen 255 Abbildung 7.10 rechts, skizziert. Es ist dann (x 0 , y 0 ) auch lokale Minimalstelle unter der Nebenbedingung h(x, y) = 0 und nach den Überlegungen zur Optimierung unter Gleichungsrestriktionen müssen die Kuhn-Tucker-Bedingungen erfüllt sein, d.h. es gibt ein μ ∈ R mit ∇ f(x 0 , y 0 ) + μ ∇ h(x 0 , y 0 ) = ¯0. Zusätzlich kann man schließen, dass μ ≥ 0 ist, mithin ∇ f(x 0 , y 0 ) und ∇ h(x 0 , y 0 ) in entgegengesetzte Richtungen zeigen (also nicht wie in Abbildung 7.10 rechts, der gestrichelte Pfeil). Anderenfalls hätten f und g die gemeinsame Abstiegsrichtung −∇ f(x 0 , y 0 ) = μ ∇ h(x 0 , y 0 ). Dann könnte (x 0 , y 0 ) zulässig verbessert werden, wäre also keine lokale Minimalstelle, was aber im Widerspruch zur Annahme steht. Das Verfahren wird anhand des bereits früher erwähnten Problems der Verpackungsminimierung einer Konservendose illustriert. Beispiel 7.28 Es soll die Oberfläche O(r, h) = 2πr 2 + 2πrh ! = min einer zylindrischen Konservendose minimiert werden. Das Mindestvolumen der Dose soll πr 2 h ≥ 500 betragen. Dabei stellt r den Radius und h die Höhe des Zylinders dar. Als Nebenbedingung erhält man also g(r, h) = 500 − πr 2 h ≤ 0. Die Funktionen O, g sind stetig partiell differenzierbar in D = { (r, h) T ∈ R 2 : r > 0, h > 0 } mit ∇ O(r, h) = (4πr + 2πh, 2πr) T , ∇ g(r, h) = ( − 2πrh − πr 2 ) T Bei einem lokalen Minimum von f in (r, h) gibt es nach Satz 7.9 ein μ ≥ 0 derart, dass ∇ O(r, h) + μ · ∇ g(r, h) = 0 g(r, h) ≤ 0 μ = 0 oder g(r, h) = 0 d.h. 4πr + 2πh − 2μπrh = 0 und 2πr − μπr 2 = 0 πr 2 h ≥ 500 μ = 0 oder πr 2 h = 500 Aufgrund der zweiten Gleichung folgt μ = 0 und die Nebenbedingung ist aktiv. Teilt man zudem die erste Gleichung durch 2π und die zweite Gleichung durch πr, was wegen r > 0 erlaubt ist, so ergibt sich das äquivalente System 2r + h − μrh = 0, μr = 2, πr 2 h = 500 Substituiert man μr = 2 in die erste Gleichung, so ergibt sich h = 2r. Mit der dritten Gleichung folgt r = 3 √ 500 2 π ≈ 4, 30, h = 2 3 √ 500 2 π ≈ 8, 60 und μ = 2/ 3 √ 500 2 π ≥ 0. Sie haben an diesem Beispiel gesehen, wie sich die Ungleichungsrestriktion während der Rechnung in eine aktive Restriktion, d.h. eine Gleichungsrestriktion wandelt. Dies kommt bei Optimierungsproblemen mit einer Nebenbedingung ziemlich häufig vor. 7.2.4 Optimierung unter k Ungleichungsbedingungen Bei mehreren Ungleichungsrestriktionen bekommt jede von ihnen wieder einen eigenen Lagrange-Multiplikator zugewiesen, der zusammen mit dem Gradienten dieser <?page no="256"?> 256 7 Optimierungsaufgaben Nebenbedingung Aufnahme in die Kuhn-Tucker-Gleichungen findet. Die Bedingung vom komplementären Schlupf gilt dann für jede Nebenbedingung, kann aber zu einer einzigen Gleichung zusammengefasst werden: Satz 7.10 (FOC für lokale Minima unter Ungleichungen) Seien f, h 1 , . . ., h k : D ⊆ R n → R differenzierbare Funktionen. Ein innerer Punkt x (0) = (x (0) 1 , . . . , x (0) n ) T ∈ D sei lokales Minimum von f(x 1 , . . . , x n ) unter den Nebenbedingungen h 1 (x 1 , . . . , x n ) ≤ 0, . . ., h k (x 1 , . . . , x n ) ≤ 0. Weiter seien ∇ h 1 (x (0) ), . . ., ∇ h k (x (0) ) linear unabhängig. Dann gibt es μ 1 , . . ., μ k ≥ 0, so dass ∇ f(x (0) ) + μ 1 ∇ h 1 (x (0) ) + · · · + μ k ∇ h k (x (0) ) = ¯0 μ 1 h 1 (x (0) ) + · · · + μ k h k (x (0) ) = 0 Auch hier spricht man von den Kuhn-Tucker-Bedingungen. Beachten Sie die Vorzeichenbeschränkung μ j ≥ 0 der Lagrange-Multiplikatoren. Ist in einem kritischen Punkt einer der Lagrange-Multiplikatoren negativ, so kann kein lokales Minimum vorliegen. Die Vorzeichenbedingungen können also ggf. zum Ausschluss von Punkten aus der weiteren Diskussion führen. Soll andererseits ein lokales Maximum bestimmt werden, so überführt man entweder das Problem durch Übergang von f zu − f in die Minimierungsform nebst Anwendung des vorstehenden Satzes oder akzeptiert im obigen Lagrange-Ansatz nur diejenigen kritischen Punkte mit μ j ≤ 0. Dass die Bedingung vom komplementären Schlupf für jede Nebenbedingung erfüllt sein muss, besagt die Gleichung μ 1 h 1 (x 0 ) + · · · + μ k h k (x 0 ) = 0. Die darin auftretende Summe ist stets kleiner oder gleich Null, denn die Lagrange-Multiplikatoren μ 1 , . . . , μ k sind nichtnegativ und die Werte h 1 (x), . . . , h k (x) sind stets kleiner oder gleich Null, mithin sind alle Summanden kleiner oder gleich Null. Der Wert Null für die Summe bedeutet dann, dass jeder Summand μ i h i (x) (und damit jeweils wenigstens einer seiner Faktoren) gleich Null ist. Also muss jeweils entweder der Multiplikator Null sein, oder die betreffende Nebenbedingung wird voll ausgeschöpft, d.h. ist aktiv. Selten sind auch beide Eigenschaften gleichzeitig erfüllt Umsetzung der Bedingung vom komplementären Schlupf Es werden auf alle möglichen Arten Nebenbedingungen ausgewählt und als aktiv festlegt und dann abhängig von dieser Festlegung [1] die Lagrange-Multiplikatoren der übrigen inaktiven Nebenbedingungen gleich Null gesetzt, [2] die inaktiven Nebenbedingungen erst ignoriert und mit der Lagrange-Methode kritische Punkte zu den aktiven Nebenbedingungen ermittelt, [3] geprüft, ob die kritischen Punkte nichtnegative Lagrange-Multiplikatoren haben und die inaktiven Nebenbedingungen erfüllen. Die Zielwerte aller gefundenen kritischen Punkte werden abschließend verglichen. Weil für jede Nebenbedingung zwei Entscheidungen „aktiv“ oder „inaktiv“ möglich sind und die Entscheidungen für verschiedene Nebenbedingungen unabhängig voneinander getroffen werden können, gibt es bei k Nebenbedingungen in Ungleichungsform prinzipiell 2 k grundsätzlich verschiedene Optimierungs-Teil-Probleme zu lösen. Manchmal kann durch eine Zusatzüberlegung sofort klar gestellt werden kann, welche <?page no="257"?> 7.2 Optimierung unter Nebenbedingungen 257 Nebenbedingungen in einem kritischen Punkt überhaupt aktiv sein müssen, damit dieser Aussicht darauf hat, ein globales Extremum zu werden: Beispiel 7.29 Der Ertrag aus der Veräußerung dreier Produkte in den Quantitäten x, y, z ≥ 0 von der Form f(x, y, z) = 2xy + 3yz soll maximiert werden. Die dabei eingesetzten Rohstoffe sollen sich aus der Materialverflechtung zu x + y ≤ 6 ⇔ h 1 (x, y, z) = x + y − 6 ≤ 0 3y + z ≤ 18 ⇔ h 2 (x, y, z) = 3y + z − 18 ≤ 0 ergeben. Die Bestimmungsgrößen der Lagrange-Methode sind nun ∇ f(x, y, z) = (2y, 2x + 3z, 3y) T , ∇ h 1 (x, y, z) = (1, 1, 0) T , ∇ h 2 (x, y, z) = (0, 3, 1) T Kritische Punkte erfüllen demnach das Gleichungs/ Ungleichungssystem 2y + μ 1 = 0 ⇐⇒ μ 1 = − 2y 2x + 3z + μ 1 + 3μ 2 = 0 3y + μ 2 = 0 ⇐⇒ μ 2 = − 3y x + y ≤ 6 3y + z ≤ 18 μ 1 (x + y − 6) + μ 2 (3y + z − 18) = 0 Weiter müssen beide Nebenbedingungen in einem lokalen Maximum aktiv sein. Das kann man hier gleich auf zwei verschiedene Arten sehen: Gilt z.B. x 0 + y 0 < 6 und 3y 0 + z 0 ≤ 18, so kann man durch Vergrößerung von x 0 den Output noch zulässig erhöhen, ohne dass die zweite Nebenbedingung verletzt wird. Entsprechend lässt sich für die zweite Nebenbedingung argumentieren. Auch die Kuhn-Tucker-Bedingungen selbst implizieren, dass beide Nebenbedingungen aktiv sind. Wäre z.B. die erste Nebenbedingung inaktiv, so bedeutete dies μ 1 = 0 und damit wegen der ersten Kuhn-Tucker-Bedingung auch y = 0. Wegen der dritten Nebenbedingung wäre dann auch μ 2 = 0. Die zweite Kuhn-Tucker- Bedingung würde dann zu 2x + 3z = 0, was wegen x, z ≥ 0 sofort x = z = 0 bedeutet. Es lassen sich aber bessere zulässige Punkte finden, d.h. x = y = z = 0 kann kein lokales Maximum sein. Substituiert man mit Hilfe der ersten und dritten Gleichung die Multiplikatoren in der zweiten Gleichung, so ergibt sich das lineare Gleichungssystem 2x − 11y + 3z = 0, x + y = 6, 3y + z = 18 Einzige Lösung ist der kritische Punkt x = 3, y = 3, z = 9 mit λ 1 = − 6, λ 2 = − 9. Eine derartige Argumentation, nach der alle Nebenbedingungen im lokalen Extremum aktiv sind, ist jedoch nur in Ausnahmefällen möglich. In der Regel müssen alle Möglichkeiten, Nebenbedingungen zu aktivieren oder inaktiv zu lassen, „ausprobiert“ werden: <?page no="258"?> 258 7 Optimierungsaufgaben Beispiel 7.30 Betrachtet werde das Optimierungsproblem 2x 2 + 4y 2 ! = min unter x 2 + y 2 − 2 ≤ 0 und 1 − x − y ≤ 0 Dabei sei D = R 2 . Die Kuhn-Tucker-Bedingungen lauten mit μ 1 ≥ 0, μ 2 ≥ 0 4x + μ 1 2x − μ 2 = 0 8y + μ 1 2y − μ 2 = 0 x 2 + y 2 ≤ 2 x + y ≥ 1 μ 1 (x 2 + y 2 − 2) + μ 2 (1 − x − y) = 0 Aus den ersten beiden Gleichungen folgt 4x + μ 1 2x = 8y + μ 1 2y ⇔ μ 1 (y − x) = 2(x − 2y) ⇔ μ 1 = 2(x − 2y)/ (y − x) wobei μ 1 , μ 2 ≥ 0. Nun müssen vier Fälle überprüft werden: Keine aktive Nebenbedingung: Das Gleichungs-Ungleichungssystem vereinfacht sich zu 4x = 0, 8y = 0. Der hieraus berechnete kritische Punkt x = y = 0 ist jedoch nicht zulässig, da die zweite Nebenbedingung x + y ≥ 1 verletzt ist. Beide Nebenbedingungen sind aktiv: Das bedeutet x 2 + y 2 = 2, x + y = 1 ⇒ x 2 + (1 − x) 2 = 2. Lösungen sind (x 1 , y 1 ) = ( 1 2 + √ 3 2 , 1 2 − √ 3 2 ) und (x 2 , y 2 ) = ( 1 2 − √ 3 2 , 1 2 + √ 3 2 ). In beiden Fällen liegt aber kein lokales Minimum vor, denn der Lagrange-Multiplikator μ 1 = 2( x − 2 y ) y − x ist jeweils negativ: μ 1 = ( − 1 + 3 √ 3)/ ( − √ 3) < 0 bzw. μ 1 = ( − 1 − 3 √ 3)/ √ 3 < 0 Nur die erste Nebenbedingung ist aktiv (d.h. x 2 + y 2 = 2 und die zweite Nebenbedingung ist inaktiv, d.h. μ 2 = 0): Die übrigen Gleichungen lauten dann 4x + μ 1 2x = 0 ⇔ x(4 + 2μ 1 ) = 0 und 8y + μ 1 2y = 0 ⇔ y(8 + 2μ 1 ) = 0 Dieser Fall liefert aber keinen kritischen Punkt, denn aus μ 1 ≥ 0 und den beiden letztgenannten Gleichungen folgt x = y = 0, was mit der aktiven Nebenbedingung x 2 + y 2 = 2 unvereinbar ist. Es ergibt sich auch hier kein lokales Minimum. Nur die zweite Nebenbedingung ist aktiv (d.h. die erste Nebenbedingung ist inaktiv, d.h. μ 1 = 0): Das Gleichungs-Ungleichungssystem vereinfacht sich zu 4x − μ 2 = 0, 8y − μ 2 = 0 x + y = 1 Hieraus folgt 4x = 8y ⇔ x = 2y und x = 2 3 , y = 1 3 sowie μ 2 = 4x = 8 3 > 0. Der ermittelte Punkt erfüllt die erste Nebenbedingung, denn x 2 + y 2 = 4 9 + 1 9 = 5 9 ≤ 2. Nur dieser Fall führt also zu einem Kandidaten für ein lokales Minimum. In diesem Beispiel waren alle vier Fälle zu prüfen, da sonst ein kritischer Punkt hätte übersehen werden können, der beim Wertevergleich am Ende möglicherweise gefehlt <?page no="259"?> 7.2 Optimierung unter Nebenbedingungen 259 hätte. Das vorliegende Optimierungsproblem erfüllt aber die Voraussetzungen des weiter unten stehenden Satzes 7.16 von Kuhn-Tucker vgl. S. 271 . Nach deren Überprüfung reicht es, einen kritischen Punkt zu finden. Der Vollständigkeit halber sei noch die eher seltene Situation behandelt, dass sowohl Gleichungen als auch Ungleichungen als Nebenbedingungen auftreten. In diesem Fall sind die Kuhn-Tucker-Bedingungen über alle Nebenbedingungsgradienten aufzustellen. Für die Lagrange-Multiplikatoren der Ungleichungsrestriktionen müssen die Bedingungen vom komplementären Schlupf erfüllt sein. Satz 7.11 (Allgemeine Lagrange-Methode, FOC) Seien f, g 1 , . . . , g m , h 1 , . . ., h k : D ⊆ R n → R differenzierbare Funktionen. Es sei x (0) = (x (0) 1 , . . . , x (0) n ) T ∈ D innerer Punkt und lokales Minimum von f(x 1 , . . . , x n ) unter den Nebenbedingungen g 1 (x 1 , . . . , x n ) = 0, . . . , g m (x 1 , . . . , x n ) = 0, h 1 (x 1 , . . . , x n ) ≤ 0, . . ., h k (x 1 , . . . , x n ) ≤ 0. Weiter seien ∇ g 1 (x (0) ),. . . , ∇ g m (x (0) ), ∇ h 1 (x (0) ), . . ., ∇ h k (x (0) ) linear unabhängig. Dann gibt es λ 1 , . . . , λ m ∈ R und μ 1 , . . ., μ k ≥ 0, so dass ∇ f(x (0) ) + m ∑ j=1 λ j ∇ g j (x (0) ) + k ∑ i=1 μ i ∇ h i (x (0) ) = ¯0 μ 1 h 1 (x (0) ) + · · · + μ k h k (x (0) ) = 0 Diese Gleichungen werden Kuhn-Tucker-Bedingungen genannt. Übungen zu Abschnitt 7.2 ? 6. Berechnen Sie kritische Punkte von a) x 2 + y 2 unter xy = 4, b) x 2 + y 2 unter x − 2y = 5t (mit t > 0), c) x − 2y unter x 2 + y 2 = 5t 2 (mit t > 0). 7. Die Absatzwirkung f(x, y) = 10 √ x + 20 ln(y + 1) + 50 eines Produkts in Abhängigkeit zweier Werbebudgets x, y ≥ 0 soll maximal werden unter der Bedingung 10x+20y = 30. Bestimmen Sie einen kritischen Punkt mit der Lagrange-Methode. 8. Gesucht werden Extrema von x − 2y + z unter der Nebenbedingung x 2 + y 2 + z 2 = 6. Berechnen Sie mit der Lagrange- Methode alle kritischen Punkte. 9. Maximieren Sie x α 1 1 x α 2 2 · · · x α n n für x 1 , . . . , x n ≥ 0 unter der Nebenbedingung x 1 + · · · +x n = 1. Dabei seien alle α i > 0. 10. Eine Bankkundin möchte ihr Geld so auf drei zur Auswahl stehenden Kapitalanlagen verteilen, dass ihr dabei eingegangenes Risiko f(x, y, z) = 2x 2 +y 2 + 3 2 z 2 minimal wird, wobei die Variablen x, y, z ∈ [0; 1] den Anteil am jeweiligen Portfolio angeben und die Renditen der einzelnen Anlagemöglichkeiten mit 9%, 7% und 8% veranschlagt werden. Insgesamt soll eine Rendite von 8.5% erreicht werden. Berechnen Sie mit der Lagrange-Methode einen kritischen Punkt. 11. Überprüfen Sie f(x, y) = 4x 2 − 3xy a) auf lokale Extrema, b) auf kritische Punkte unter x 2 + y 2 ≤ 1 12. Die wiwinesische Kokonata-AG verkauft Kokosfaser für den Gebäude-Innenausbau auf den Nachbarinseln Costania und Pescadora. Die Jahresproduktion beträgt höchstens 240 Tonnen Faser. z = x + y Tonnen Faser kosten in der Herstellung K(z) = 1 4 z 2 + 400z + 9200, wobei ein Preis je Tonne p(x) = 1000 − x in Costania und q(y) = 1600 − 2y in Pescadora erzielt wird. Maximieren Sie den Jahresgewinn G(x, y) = xp(x) + yq(y) − K(x + y) (bestimmen Sie nur einen kritischen Punkt). <?page no="260"?> 260 7 Optimierungsaufgaben 2 1 0 1 2 x 2 1 0 1 2 y 50 0 50 1.5 1.0 0.5 0.0 0.5 1.0 1.5 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Abbildung 7.11: Graph und Konturdiagramm in Beispiel 7.31 13. Finden Sie kritische Punkte x, y > 0 zu x 2 − 20x + 130 + y 2 − 10y unter a)2x + 3y ≤ 22, b)2x + 3y ≤ 48. 14. Finden Sie kritische Punkte zu 4z − x 2 − y 2 − z 2 unter xy ≥ z und x 2 + y 2 + z 2 ≤ 3. 7.3 Hinreichende Bedingungen für Extrema In diesem Abschnitt wollen wir verschiedene Ansätze besprechen, wie man den zuvor mit der Lagrange-Methode berechneten kritischen Punkten ansehen kann, dass sie bereits optimal sind. Eine solche Argumentation ist oft unerlässlich, denn auch bei Restriktionen können (nicht optimale) Sattelpunkte von Zielfunktionen auftreten: Beispiel 7.31 Gesucht ist ein Extremum von f(x, y) = (x − y) 3 + (x − y) unter der Nebenbedingung g(x, y) = x − y − y 3 = 0. Über den Lagrange-Ansatz bekommt man die Kuhn-Tucker- Bedingungen 3(x − y) 2 + 1 + λ = 0, − (3(x − y) 2 + 1) + λ( − 1 − 3y 2 ) = 0. Substitution von λ aus der ersten Gleichung in der zweiten ergibt (9(x − y) 2 +1)3y 2 = 0, d.h. y = 0 und damit aus der Nebenbedingung auch x = 0. Der Punkt x = y = 0 ist also einziger kritischer Punkt. Substituiert man aber x − y − y 3 = 0, d.h. x − y = y 3 in der Zielfunktion, so erhält man f(x, y) = y 9 + y 3 und diese Funktion hat für y = 0 kein Extremum, sondern einen Sattelpunkt. Die Situation ist auch noch einmal in Abbildung 7.11 dargestellt. Die Kontur zur Nebenbedingung hat im kritischen Punkt der Lagrange-Methode eine Wendestelle, daher kann dort kein lokales Extremum vorliegen. Wir werden im folgenden drei Ansätze behandeln, wie man auf globale bzw. lokale Extrema schließen kann. Zunächst besprechen wir hinreichende Bedingungen für lokale Extrema unter Nebenbedingungen auf Basis der Hesse-Matrix und gehen dann auf den Randwertvergleich ein, welcher die Untersuchung der Hesse-Matrix ggf. überflüssig macht. Der Satz von Kuhn-Tucker schließlich gibt bei Nebenbedingungen in Ungleichungsform eine Möglichkeit, konvexe Funktionen zu optimieren. <?page no="261"?> 7.3 Hinreichende Bedingungen für Extrema 261 7.3.1 Hinreichende Bedingungen für lokale Extrema unter Nebenbedingungen In diesem Abschnitt sollen - analog den bisher behandelten Klassen von Optimierungsproblemen - hinreichende Bedingungen für lokale Extrema unter Nebenbedingungen genannt und diskutiert werden. Es ist nicht überraschend, dass die hinreichenden Bedingungen auf der Hesse-Matrix aufbauen, allerdings wird nicht die pauschale Definitheit der Hesse-Matrix zur Zielfunktion benötigt. Diese ist oft auch gar nicht gegeben: Beispiel 7.32 Es sei die Funktion f(x, y) = x 2 − y 2 in D = R 2 unter der Nebenbedingung g(x, y) = y = 0 zu minimieren. Ein unrestringiertes Minimum hat die Funktion nicht; das ist schon an der Indefinitheit der Hesse-Matrix von f, H f (x, y) = ( 2 0 0 − 2 ) zu erkennen. Betrachtet man allerdings die Funktion längs der Nebenbedingung y = 0, so lautet die Zielfunktion auf dieser Linie f(x, 0) = x 2 und hat dort sehr wohl ein globales Minimum für x = 0. Dies kann man auch in Abbildung 7.2 vgl. S. 235 sehen. f ist auf der Nebenbedingungslinie y = 0 konvex gekrümmt und hat daher in x = y = 0 ein Minimum unter der Nebenbedingung y = 0. Formal kann man diese Richtungskrümmung wie folgt berechnen: Die Richtung der Nebenbedingung (d.h. die Tangente an die Nebenbedingung g(x, y) = 0) steht gemäß Satz 6.9 vgl. S. 201 senkrecht auf ∇ g(0, 0) = (0, 1) T , kann also gleich (1, 0) T gewählt werden. Damit ist die Richtungskrümmung von f in (0, 0) T in Richtung (1, 0) T , d.h. der Richtung der Nebenbedingungslinie gleich 〈 ( 1 0 ) , ( 2 0 0 − 2 )( 1 0 ) 〉 = 2 > 0. Deshalb wird man in restringierten Problemen nicht mehr die Definitheit von H f , sondern nur noch eine „eingeschränkte“ Definitheit in Richtungen fordern, welche im kritischen Punkt tangential zu den Niveaulinien, d.h. senkrecht zu den Nebenbedingungsgradienten liegen. Um die betreffenden Richtungen zu ermitteln, wird den Nebenbedingungen des Optimierungsproblems ein lineares Gleichungssystem Gx = ¯0 zugeordnet, wobei die Zeilen von G mit den (transponierten) Gradienten der Nebenbedingungsfunktionen in den kritischen Punkten übereinstimmen. Definition 7.3 (Definitheit unter Nebenbedingungen) ! Gegeben seien eine symmetrische n × n-Matrix H und eine n × r-Matrix G. [1] Die Matrix H heißt positiv definit unter Gx = 0 (bzw. negativ definit unter Gx = ¯0), wenn für alle x = ¯0 mit Gx = ¯0 gilt: 〈 x, Hx 〉 > 0 (bzw. 〈 ax, Hx 〉 < 0). [2] Die Matrix H heißt positiv semidefinit (bzw. negativ semidefinit) unter Gx = ¯0, wenn für die oben genannten x gilt: 〈 x, Hx 〉 ≥ 0 (bzw. 〈 x, Hx 〉 ≤ 0). Wie bei der „pauschalen“ Definitheit gibt es verschiedene Möglichkeiten, Definitheit unter Nebenbedingungen zu überprüfen. Eine Methode verwendet eine Basis der Lösungsmenge des linearen Gleichungssystems Gx = ¯0 gemäß Satz 3.7 vgl. S. 79 , eine andere arbeitet mit Minoren einer aus H und G zusammengesetzten Blockmatrix. Satz 7.12 (Reduktionskriterium für Definitheit unter Nebenbedingungen) Mit dem nachstehenden Verfahren kann nachgewiesen werden, dass eine symmetrische Matrix H ∈ R n × n definit unter der Nebenbedingung Gx = ¯0 ist: [1] Setze die Vektoren einer Basis von Kern(G) zu einer n × -Matrix A zusammen. [2] Üüberprüfe mit den herkömmlichen Methoden, dass die Matrix A T HA definit ist. <?page no="262"?> 262 7 Optimierungsaufgaben Denn nehmen wir beispielsweise an, dass A T HA positiv definit ist. Sei jetzt x ∈ Kern(G) mit x = ¯0. Es gilt dann auch 〈 x, Hx 〉 > 0, denn x ist LK einer Basis von Kern(A) und lässt sich in der Form x = Ab mit b ∈ R , b = ¯0, schreiben vgl. S. 103 . Dann gilt aber 〈 x, Hx 〉 = x T Hx = (Ab) T H(Ab) = (b T A T )H(Ab) = b T (A T HA)b = 〈 b, (A T HA)b 〉 Der zuletzt erhaltene Ausdruck ist aber größer als Null, weil A T HA als positiv definit vorausgesetzt und b = 0 ist. Also ist auch 〈 x, Hx 〉 > 0. Beispiel 7.33 Es soll die Definitheit von H = ⎛ ⎝ 2 3 1 3 1 0 1 0 1 ⎞ ⎠ unter der Nebenbedingung Gx = ¯0 mit G = ( 0, 1, 1 2 ) geprüft werden. Eine Basis von Kern(G) ist (1, 0, 0) T und (0, 1, − 2) T . Damit ergibt sich die positiv definite Matrix ( 1 0 0 0 1 − 2 ) ⎛ ⎝ 2 3 1 3 1 0 1 0 1 ⎞ ⎠ ⎛ ⎝ 1 0 0 1 0 − 2 ⎞ ⎠ = ( 2 1 1 5 ) . Es soll die Definitheit derselben Matrix H unter der Nebenbedingung Gx = ¯0 mit G = ( 1 1 0 0 1 1 2 ) geprüft werden. G hat die Zeilenstufenform ( 1 0 − 1 2 0 1 1 2 ) . Eine Basis von Kern(G) ist also z.B. (1, − 1, 2) T . Damit ergibt sich die positiv definite Matrix ( 1 − 1 2 ) ⎛ ⎝ 2 3 1 3 1 0 1 0 1 ⎞ ⎠ ⎛ ⎝ 1 − 1 2 ⎞ ⎠ = ( 5 ) Bei der Berechnung der Basis von Kern(G) dürfen Sie die einzelnen Spaltenvektoren durch skalare Multiplikation auf eine vorteilhafte (z.B. ganzzahlige) Form bringen. Weiter gibt es auch ein Determinanten-Kriterium [ Mann , 1943]: Satz 7.13 (Kriterium der geränderten Hesse-Matrix) [1] Man bilde die geränderte Hesse-Matrix, d.h. die (r + n)-zeilige und (r + n)-spaltige Block-Matrix R H,G = [ 0 r × r G G T H ] . [2] Wenn alle Hauptminoren von R H,G zu einer Zeilen- und Spaltenzahl größer als 2r das Vorzeichen ( − 1) r haben, so ist H positiv definit unter Gx = ¯0. Beispiel 7.34 (Fortsetzung von Beispiel 7.33) Für H = ⎛ ⎝ 2 3 1 3 1 0 1 0 1 ⎞ ⎠ und G = ( 0, 1, 1 2 ) ist R H,G = ⎛ ⎜ ⎝ 0 0 1 1 2 0 2 3 1 1 3 1 0 1 2 1 0 1 ⎞ ⎟ ⎠ . Zu berechnen sind det ⎛ ⎝ 0 0 1 0 2 3 1 3 1 ⎞ ⎠ = − 2 < 0, det ⎛ ⎜ ⎝ 0 0 1 1 2 0 2 3 1 1 3 1 0 1 2 1 0 1 ⎞ ⎟ ⎠ = − 9 4 < 0. H ist positiv definit auf Gx = ¯0. Für H = ⎛ ⎝ 2 3 1 3 1 0 1 0 1 ⎞ ⎠ und G = ( 1 1 0 0 1 1 2 ) ist R H,G = ⎛ ⎜ ⎜ ⎜ ⎝ 0 0 1 1 0 0 0 0 1 1 2 1 0 2 3 1 1 1 3 1 0 0 1 2 1 0 1 ⎞ ⎟ ⎟ ⎟ ⎠ mit der (einzig zu berechnenden) Determinante 5 4 > 0. H ist positiv definit unter den Nebenbedingungen. <?page no="263"?> 7.3 Hinreichende Bedingungen für Extrema 263 Mit Definitheit unter Nebenbedingungen kann man in kritischen Punkten restringierter Probleme hinreichende Bedingungen überprüfen. Satz 7.14 (Hinreichende Bedingungen für lokale Minima) Sei D ⊆ R n und f, g 1 , . . . , g m , h 1 , . . . , h k : D → R zweimal stetig partiell differenzierbar. Sei x (0) = (x (0) 1 , . . . , x (0) n ) T ∈ D ein innerer Punkt von D mit folgenden Eigenschaften: [1] g 1 (x (0) ) = . . . = g m (x (0) ) = 0, h 1 (x (0) ) ≤ 0, . . . , h k (x (0) ) ≤ 0. [2] Mit λ 1 , . . . , λ m ∈ R und μ 1 , . . . , μ k ≥ 0 sind die Kuhn-Tucker-Bedingungen erfüllt: ∇ f(x (0) ) + m ∑ j=1 λ j ∇ g j (x (0) ) + k ∑ i=1 μ i ∇ h i (x (0) ) = ¯0 k ∑ i=1 μ i h i (x (0) ) = 0 [3] Mit den Bezeichungen J = { 1, . . . , m } , I = { i ∈ { 1, . . . , k } : h i (x 0 ) = 0, μ i > 0 } ist H L,λ,μ (x (0) ) : = H f (x (0) ) + ∑ j ∈ J λ j H g j (x (0) ) + ∑ i ∈ I μ i H h i (x (0) ) positiv definit unter Gx = ¯0, wobei die Zeilen von G aus allen Gradientenvektoren ∇ g j (x (0) ), ∇ h i (x (0) ) mit i ∈ I, j ∈ J bestehen. Dann hat f in x (0) ein lokales Minimum unter den Nebenbedingungen g 1 (x 1 , . . . , x n ) = 0, . . . , g m (x 1 , . . . , x n ) = 0, h 1 (x 1 , . . . , x n ) ≤ 0, . . . , h k (x 1 , . . . , x n ) ≤ 0. Dieses Kriterium ist aber meist nur für Optimierungsprobleme mit wenigen Nebenbedingungen handhabbar: Beispiel 7.35 (Fortsetzung von Beispiel 7.28 vgl. S. 255 ) Es soll die Zylinderoberfläche O(r, h) = 2πr 2 + 2πrh unter der Volumen-Nebenbedingung g(r, h) = 500 − πr 2 h ≤ 0 minimiert werden. In Beispiel 7.28 ergab sich der kritische Punkt r = 3 √ 500/ (2π), h = 2r, λ = 2 r = 4 h . Die Nebenbedingung ist aktiv, der Multiplikator von Null verschieden, daher lautet die Hesse-Matrix H L,λ (r, h) = H O (r, h) + λH g (r, h) = ( 4π 2π 2π 0 ) − λ ( 2πh 2πr 2πr 0 ) = 2π ( − 2 − 1 − 1 0 ) Diese Matrix ist pauschal indefinit. Es muss daher Definitheit unter Nebenbedingungen überprüft werden. Hier liegt eine aktive Nebenbedingung vor mit Gradient ∇ g(r, h) = − ( 2πrh πr 2 ) = ( 4πr 2 πr 2 ) = − πr 2 ( 4 1 ) Betrachtet werden muss hier die Definitheit unter Gx = ¯0 für G = ( 4 1 ) . Kern(G) hat den Basisvektor ( − 1, 4) T und es gilt hierfür ( − 1 4 ) ( − 2 − 1 − 1 0 )( − 1 4 ) = ( 6 ) was eine positiv definite 1 × 1-Matrix ist. Im berechneten Punkt (r, h) liegt daher ein lokales Oberflächenminimum unter der Volumenrestriktion vor. Beispiel 7.36 (Fortsetzung von Beispiel 7.24 vgl. S. 249 ) Bei der Verpackungsoptimierung aus Beispiel 7.24 ist der Materialverbrauch, d.h. f(x, y, z) = 2xy + 2xz + 4yz unter der Volumenrestriktion g(x, y, z) = xyz − 1 = 0 zu <?page no="264"?> 264 7 Optimierungsaufgaben 0 1 2 3 x 0 2 4 6 8 y 0 50 0.0 0.5 1.0 1.5 2.0 2.5 3.0 20 25 30 35 40 45 f x,9 x 2 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0 2 4 6 8 x y Abbildung 7.12: Graphischer Randwertvergleich im Beispiel 7.37 minimieren. Als kritischer Punkt ist x = 2 3 √ 1/ 2, y = z = 3 √ 1/ 2, λ = − 2/ z − 2/ y = − 4/ y = − 4/ 3 √ 1/ 2 ausgewiesen. Dafür ergibt sich die Hesse-Matrix: H L,λ (x, y, z) = ⎛ ⎝ 0 2 2 2 0 4 2 4 0 ⎞ ⎠ + λ ⎛ ⎝ 0 z y z 0 x y x 0 ⎞ ⎠ = ⎛ ⎝ 0 − 2 − 2 − 2 0 − 4 − 2 − 4 0 ⎞ ⎠ Definitheit muß unter Gx = ¯0, d.h. für solche Vektoren (a, b, c) T überprüft werden, für die 〈 ∇ g(x, y, z), (a, b, c) T 〉 = 0 gilt. Dieses homogene LGS hat die Koeffizientenmatrix ( yz xz xy ) = ( y 2 2y 2 2y 2 ) I/ y 2 −→ ( 1 2 2 ) Beachten Sie, dass wir hier die Eigenschaften des kritischen Punktes, nämlich z = y und x = 2y verwendet haben. Eine Basis von Kern(G) lautet, zu einer Matrix zusammengefasst A = ( 2 − 1 0 2 0 − 1 ) T . Hieraus ergibt sich die Matrix A T H L,λ A = ( 2 − 1 0 2 0 − 1 ) ⎛ ⎝ 0 − 2 − 2 − 2 0 − 4 − 2 − 4 0 ⎞ ⎠ ⎛ ⎝ 2 2 − 1 0 0 − 1 ⎞ ⎠ = ( 8 4 4 8 ) Diese Matrix ist, wie man anhand der Haupt-Unterdeterminanten 8 bzw. 48 erkennt, positiv definit, d.h. H L,λ ist positiv definit auf K . Im kritischen Punkt liegt ein lokales Minimum der Oberflächenfunktion unter der Volumenrestriktion vor. 7.3.2 Nachweis der Optimalität durch Randwertvergleich Wie bei Optimierungsaufgaben ohne Nebenbedingung müssen lokale Extrema in der Regel noch durch einen Randwertvergleich geprüft werden, ob sie global optimal sind. Wenn man weiß, dass ein Extremum existiert, so kann man sich in der gesamten Vorgehensweise oft noch die Überprüfung der hinreichenden Bedingungen für lokale Extrema anhand der Hesse-Matrix sparen. Die grundsätzliche Vorgehensweise sei an folgendem Beispiel vorgeführt. <?page no="265"?> 7.3 Hinreichende Bedingungen für Extrema 265 Beispiel 7.37 Gesucht sind alle Extrema der Funktion f : [0; ∞ [ 2 → R , f(x, y) = xy + 15x + 3y − 7 unter der Nebenbedingung g(x, y) = x 2 + y − 9 = 0. In Abbildung 7.12, links ist der Graph von f dargestellt, blau hervorgehoben ist auch die Kurve der zulässigen Punkte auf dem Graph von f. Wir wollen zunächst alle kritischen Punkte bestimmen (FOC). Mit dem Lagrange- Ansatz erhalten wir die Kuhn-Tucker-Bedingungen y + 15 + λ2x = 0 und x + 3 + λ = 0. Substituiert man die zweite, d.h. λ = − 3 − x in der ersten dieser Gleichungen, so erhält man y + 15 − 6x − 2x 2 = 0 und durch Substitution der Nebenbedingung y = 9 − x 2 in diese Gleichung kommt man zur quadratischen Gleichung x 2 + 2x − 8 = 0. Von den beiden Lösungen führt nur x = 2 in den Definitionsbereich. Hierzu gehört y = 9 − x 2 = 5. Im gefundenen kritischen Punkt liegt der Zielwert f(2, 5) = 48 vor. Um die Extrema von f zu erkennen, substituieren wir die Nebenbedingung in die Zielfunktion und betrachten das Ergebnis als Funktion h einer Variablen: h(x) = f(x, 9 − x 2 ) = x(9 − x 2 ) + 15x + 3(3 − x 2 ) − 7 = − x 3 − 3x 2 + 24x + 20. Die Variable x muss aufgrund der Nebenbedingung x 2 + y = 9 zwischen 0 und 3 verlaufen. Am Graph der Funktion h in Abbildung 7.12, rechts oben, erkennen Sie, dass für x = 2 der Maximalwert 48 und für x = 0 der Minimalwert 20 angenommen wird. Als Extremstellen kommen auch nur x = 0, 2 und 3 in Frage, dazu gehören genau der kritische Punkt (2, 5) T und die Randpunkte (0, 9) T und (3, 0) T im Definitionsbereich. Neben dem Punkt (2, 5) T sind das die Stellen im Konturdiagramm von f gemäß Abbildung 7.12 rechts unten, wo die Nebenbedingungskurve den Definitionsbereich „verlässt“. Die zuletzt benannten Punkte werden auch als zulässige Randpunkte des Definitionsbereiches bezeichnet. Sie müssen beim Randwertvergleich mit den kritischen Punkten verglichen werden. Kann man davon ausgehen, dass mit diesen Punkten alle Kandidaten für ein Extremum gefunden wurden? Die Antwort lautet ja und liegt in einem grundlegenden mathematischen Satz über die Existenz von Extrema bei stetigen Funktionen begründet, auf den wir hier in einer Spezialfassung eingehen wollen. Wir betrachten das folgende allgemeine Optimierungsproblem: Minimiere/ maximiere f(x 1 , . . . , x n ) unter Nebenbedingungen g 1 (x 1 , . . . , g n ) = 0, . . . , g m (x 1 , . . . , g n ) = 0, h 1 (x 1 , . . . , x n ) ≤ 0,. . . ,h k (x 1 , . . . , x n ) ≤ 0. Mit M sei die Menge der zulässigen Punkte bezeichnet. Es sei der Definitionsbereich D der Funktionen f, g 1 , . . . , g m , h 1 , . . . , h k ein Quader, d.h. eine Menge der Form D = [a 1 , b 1 ] × · · · × [a n , b n ], mit −∞ < a j < b j < ∞ für j = 1, . . . , n. Alle Funktionen seien auf D stetig. Der Quader-Definitionsbereich drückt aus, dass die Variablen x j , 1 ≤ j ≤ n, innerhalb der Intervalle [a j , b j ] frei variieren dürfen und erst durch die Nebenbedingungen Bindungen zwischen ihnen impliziert werden. Mengen, die wie D abgeschlossen und beschränkt sind, werden in der Mathematik als kompakte Mengen bezeichnet. Satz 7.15 (Satz vom Maximum/ Minimum) In der soeben genannten Situation gilt: Die Funktion f hat ein globales Maximum und ein globales Minimum unter den Nebenbedingungen g 1 (x 1 , . . . , x n ) = 0, . . . , g m (x 1 , . . . , x n ) = 0, h 1 (x 1 , . . . , x n ) ≤ 0, . . . , h k (x 1 , . . . , x n ) ≤ 0. Es gibt also x min = (x min 1 , . . . , x min n ) T ∈ M , x max = (x max 1 , . . . , x max n ) T ∈ M derart, dass für alle x ∈ M gilt f(x min ) ≤ f(x) ≤ f(x max ). <?page no="266"?> 266 7 Optimierungsaufgaben Auch wenn der Satz intuitiv klar sein sollte, so ist ein Beweis doch nicht ganz einfach. Wir verweisen auf [ Heuser , 2008], Satz 111.9. Falls alle zugrundeliegenden Funktionen auf ]a 1 , b 1 [ × · · · × ]a n , b n [ differenzierbar sind und x min und/ oder x max innere Punkte von D sind, so können sie über die Kuhn- Tucker-Bedingungen (Lagrange-Methode) bestimmt werden. Anderenfalls müssen es Randpunkte von D sein, d.h. Punkte, bei denen wenigstens eine der Komponenten von x min j bzw. x max j eine der Intervallgrenzen a j , b j ist. Deshalb bietet sich folgende Vorgehensweise zur Bestimmung von globalen Extrema an: Lagrange-Methode mit Randwertvergleich Unter den Voraussetzungen des obigen Satzes bestimme man bei Vorliegen differenzierbarer Funktionen [1] mittels der Kuhn-Tucker-Bedingungen alle kritischen Punkte in ]a 1 ; b 1 [ × · · · × ]a n ; b n [, [2] für jede Festlegung einer Variable x i die Extremwerte der beiden Optimierungsprobleme, welches sich durch Hinzufügen der Randbedingung x i = a i bzw. x i = b i festschreibt. Grundsätzlich sind in [2] dann 2n Optimierungsprobleme zu lösen, die sich von dem Ausgangsproblem darin unterscheiden, dass eine Variable weniger / eine Nebenbedingung mehr auftritt. Bei konkreten Beispielen müssen viele dieser Optimierungsprobleme gar nicht gerechnet werden, weil sie keine oder nur einen einzelnen zulässigen Punkt beinhalten. Im Extremfall entfällt der Randwertvergleich sogar schon völlig. Beispiel 7.38 (Fortsetzung von Beispiel 7.22 vgl. S. 247 ) Wir betrachten noch einmal die Minimierung/ Maximierung von f(x, y) = x · y für (x, y) T ∈ D = R 2 unter der Nebenbedingung x 2 + y 2 = 1. Zunächst kann man den Definitionsbereich (beispielsweise) auf den Quader D ′ = [ − 2; 2] 2 verkleinern, weil die zulässige Kreislinie vollständig darin enthalten ist. In diesem Bereich muss f unter der Nebenbedingung ein globales Maximum/ Minimum haben. Weil außerdem keiner der Randpunkte von D ′ zulässig ist, entfällt der Randwertvergleich. Durch Vergleich der Funktionswerte in den in Beispiel 7.22 berechneten kritischen Punkten erkennt man daher: In ± ( √ 1/ 2, √ 1/ 2) T liegt jeweils ein (globales) Maximum, in ± ( √ 1/ 2, − √ 1/ 2) T jeweils ein (globales) Minimum von f vor. Diese sind in Abbildung 7.7 vgl. S. 248 dargestellt. Man hätte im letzten Beispiel als verkleinerten Definitionsbereich auch D ′ = [ − 1; 1] 2 nehmen können. Allerdings hätten dann die zulässigen Punkte ( ± 1, 0) T und (0, ± 1) T auf dem Rand von D ′ gelegen und man hätte sie in den Randwertvergleich mit einbeziehen müssen. Das wäre aber unproblematisch gewesen, weil in allen vier Randpunkten der Zielwert 0 vorliegt, welcher zwischen den Zielwerten der kritischen Punkte liegt. Beispiel 7.39 (Fortsetzung von Beispiel 7.26 vgl. S. 251 ) In Beispiel 7.26 wurde f(x, y, z) = x − y auf einer Kreislinie im R 3 gemäß Abbildung 7.9 vgl. S. 251 auf Extrema untersucht. Wie auch der graphischen Illustration zu entnehmen, liegt der zulässige Bereich M als Kreislinie vollständig und ohne „Randberührung“ im Quader D ′ = [ − 1, 1] 3 . Der Definitionsbereich kann daher auf D ′ verkleinert werden, ohne dass sich die Lösbarkeit verändert. Weil wieder der Rand von D ′ nicht durch <?page no="267"?> 7.3 Hinreichende Bedingungen für Extrema 267 zulässige Punkte angenähert werden kann, ist ebenfalls kein Randwertvergleich nötig. Maximum und Minimum von f werden also durch die in Beispiel 7.26 berechneten Punkte realisiert. Im nächsten Beispiel sind sechs Optimierungsprobleme im Randwertvergleich zu lösen. Weil aber gleich zwei Nebenbedingungen vorliegen, fallen von den Randproblemen je drei zusammen und sind auch keine wirklichen Optimierungen, denn der zulässige Bereich unter der Randbedingung besteht jeweils aus nur einen Punkt. Beispiel 7.40 (Fortsetzung von Beispiel 7.29 vgl. S. 257 ) In Beispiel 7.29 war das Maximum der Funktion 2xy +3yz in D = [0; ∞ [ × [0; ∞ [ × [0; ∞ [ unter den Nebenbedingungen x + y ≤ 6, 3y + z ≤ 18 gesucht. Als kritischer Punkt wurde (3, 3, 9) T mit Zielwert f(3, 3, 9) = 99 bestimmt. Der zulässige Bereich liegt innerhalb des Quaders D ′ = [0, 6] × [0, 6] × [0, 18] (die rechten Intervallgrenzen bekommt man, wenn man bei den Nebenbedingungen immer einen Summanden weglässt). Weiter wurde in Beispiel 7.29 auch gezeigt, dass beide Nebenbedingungen in einem lokalen Maximum aktiv sein müssen. Wir können die Ungleichungen also in Gleichungen x + y = 6 und 3y + z = 18 überführen; bei den sechs möglichen Randprobleme dann jeweils alle Variablenwerte spezifizieren: x = 0: Dann ist y = 6 und z = 0: Zielwert ist f(0, 6, 0) = 0. Auf den gleichen Randpunkt kommt man bei den Fällen y = 6 und z = 0. x = 6: Dann ist y = 0 und z = 18: Zielwert ist f(6, 0, 18) = 0. Auf den gleichen Randpunkt kommt man bei den Fällen y = 0 und z = 18. Insgesamt liefert der kritische Punkt das gesuchte Maximum. Im folgenden Beispiel liegt nur eine Nebenbedingung in Gleichungsform bei drei Variablen vor. Dadurch erhöht sich der Aufwand bei den Randwertproblemen: Beispiel 7.41 Gesucht ist ein Maximum von f(x, y) = 2xy + 3yz + 2xz auf D = [0; ∞ [ 3 unter der Nebenbedingung g(x, y, z) = x + y + z − 5 = 0. Der Lagrange-Ansatz liefert die drei linearen Gleichungen 2y + 2z + λ = 0, 2x + 3z + λ = 0 und 3y + 2x + λ = 0. Löst man die erste der Gleichungen nach λ auf und substituiert in die zweite und dritte, so bekommt man 2x − 2y +z = 0 und 2x+y − 2z = 0. Zusammen mit der Nebenbedingung x+y +z = 5 hat man ein lineares Gleichungssystem mit der Lösung x = 1, y = 2, z = 2 und dem Lagrange-Multiplikator λ = − 8. Zielwert ist f(1, 2, 2) = 20. Der zulässige Bereich erlaubt es, den Definitionsbereich auf D ′ = [0; 5] 3 zu verkleinern. In diesem Bereich müssen wir die sechs Randprobleme untersuchen, bei denen eine der drei Variablen jeweils den Randwert 0 oder 5 annimmt. Man hat jeweils ein Optimierungsproblem in den zwei übrigen Variablen (vgl. Aufgabe 17 vgl. S. 274 ) x = 0: Maximiere 3yz auf D = [0; ∞ [ 2 unter der Nebenbedingung y + z = 5. Lösung ist y = z = 5 2 mit Zielwert 75 4 < 20. y = 0: Maximiere 2xz auf D = [0; ∞ [ 2 unter der Nebenbedingung x + z = 5. Lösung ist x = z = 5 2 mit Zielwert 50 4 < 20. z = 0: Maximiere 2xy auf D = [0; ∞ [ 2 unter der Nebenbedingung x+ y = 5. Lösung ist x = y = 5 2 mit Zielwert 50 4 < 20. <?page no="268"?> 268 7 Optimierungsaufgaben x = 5: Maximiere 10y + 3yz + 5z auf D = [0; ∞ [ 2 unter der Nebenbedingung y + z = 0. Hier gibt es nur einen zulässigen Punkt y = z = 0 mit Zielwert 0. y = 5: Maximiere 10x + +15z + 2xz auf D = [0; ∞ [ 2 unter der Nebenbedingung x + z = 0. Auch hier gibt es nur einen zulässigen Punkt mit Zielwert 0. z = 5: Maximiere 2xy + 15y + 10x auf D = [0; ∞ [ 2 unter der Nebenbedingung x + y = 0. Auch hier gibt es nur einen zulässigen Punkt mit Zielwert 0 Beim Vergleich mit den Randproblemen sieht man, dass im kritischen Punkt das Maximum vorliegt. Die Lösung ist also x = 1, y = z = 2. Bei unbeschränkten zulässigen Bereichen ist der Randwertvergleich etwas umfangreicher. Grundsätzlich muss man den Definitionsbereich D = [0; ∞ [ n hierbei auf einen beschränkten Quader D ′ = [a 1 ; b 1 ] × · · · × [a n ; b n ] verkleinern, wobei aber ein Teil des zulässigen Bereiches ausgeblendet wird. Indem man die Grenzen des Quaders D ′ wieder gegen Null bzw. Unendlich konvergieren bzw. divergieren lässt, erfasst man dann alle zulässigen Punkte. Bei Minimierungsproblemen beispielsweise lässt man im einfachsten Fall eine der Variablen gegen einen Randpunkt konvergieren, wodurch eine andere und damit auch der Zielwert unbeschränkt wird. Wir betrachten ein Beispiel, welches später noch als Hilfssaussage für einen weiteren Randwertvergleich verwenden wird: Beispiel 7.42 Für gegebene a, b, c > 0 soll die Funktion f(x, y) = ax + by auf D = [0; ∞ [ 2 minimiert werden unter der Nebenbedingung xy − c = 0. Der Lagrange-Ansatz hierzu ergibt die Kuhn-Tucker-Bedingungen a + λy = 0, b + λx = 0. Durch Gleichsetzen über λ erhalten wir ax = by, also y = a b x. Setzt man dies in die Restriktion xy = c ein, so folgt x = √ bc/ a. Daraus bekommen wir y = √ ac/ b. Der Zielwert im kritischen Punkt ist ax + by = a √ bc/ a + b √ ac/ b = 2 √ abc. Für den Randwertvergleich führen wir die Verkleinerung des Definitionsbereiches D = [0; ∞ [ 2 zu D ′ = [r; c/ r] 2 . Betrachten Sie hierzu Abbildung 7.13. r > 0 wird so nahe bei Null gewählt, dass sicher der berechnete kritische Punkt im Inneren von D ′ liegt. Auf D ′ hat f wegen des Satzes vom Maximum/ Minimum im zulässigen Bereich ein Minimum. Wir vergleichen den kritischen Punkt mit den Lösungen der Randprobleme, von denen es nur zwei gibt, weil die Fälle x = 0 bzw. y = 0 gar keine zulässigen Punkte liefern: x = r bedeutet y = c/ r und damit f(x, y) = ar + bc/ r ≥ bc/ r y = r bedeutet x = c/ r und damit f(x, y) = ac/ r + br ≥ ac/ r Liegt r nahe genug bei Null, so wird der Zielwert 2 √ abc des kritischen Punktes ( √ bc/ a, √ ac/ b) T sowohl durch ac/ r als auch durch bc/ r überschritten. Deshalb liegen auch die Zielwerte beider Randpunkte dann oberhalb von 2 √ abc. Dies gilt für alle r < r 0 = c/ 2 · min(a, b)/ √ abc. Daher ist der kritische Punkt auf D ′ dann eine Minimalstelle, wenn r < r 0 . Der Übergang von D ′ zu D ist nun einfach, denn jeder zulässige Punkt liegt in einem geeigneten Quader [0; r] 2 mit r < r 0 . Dann kann er nach dem oben gesagten keinen geringeren Zielwert als der kritische Punkt haben. Die Argumentation „für ausreichend kleines“ r kann man auch so führen, dass man zulässige Punkte (r, c/ r) und (c/ r, r) betrachtet und nachweist, dass diese für ausreichend kleines r > 0 stets größere Zielwerte als der des kritischen Punktes haben. Praktisch vergleicht man den Zielwert des kritischen Punktes dann mit den Grenzwerten <?page no="269"?> 7.3 Hinreichende Bedingungen für Extrema 269 r c r r c r x y Abbildung 7.13: Randwertvergleich bei unbeschränktem zulässigen Bereich. lim r → 0 f(r, c/ r) = ∞ und lim r → 0 f(c/ r, r) = ∞ . Man sagt hier, dass die Zielfunktion zum (zulässigen) Rand hin unbeschränkt ist. Eine solche Grenzwertargumentation ist oft auch bei mehr als zwei Entscheidungsvariablen möglich. Beispiel 7.43 (Fortsetzung von Beispiel 7.24 vgl. S. 249 ) In Beispiel 7.24 sollte die Kartonoberfläche 2xy +2xz +4yz bei gegebenem Kartonvolumen xyz = 1 minimiert werden. Wir hatten einen kritischen Punkt berechnet, dessen genauer Zielwert bei der folgenden Argumentation gar keine Rolle spielt, wesentlich ist nur, dass er endlich ist. Der zulässige Bereich M : = { (x, y, z) T ∈ R 3 : x, y, z > 0, xyz = 1 } ist nicht beschränkt. Die Zielfunktion zum zulässigen Rand hin zu untersuchen, bedeutet, Grenzübergänge x → 0 bzw. y → 0 bzw. z → 0 durchzuführen, wobei gleichzeitig die anderen Variablen so gehalten werden müssen, dass man nur zulässige Punkte durchläuft. In diesem Beispiel lässt sich diese Aufgabe leichter lösen als erwartet, denn für zulässige Punkte (x, y, z) T gilt xyz = 1 ⇔ xy = 1 z ⇔ xz = 1 y ⇔ yz = 1 x . Wenn man mit diesen Beziehungen in der Zielfunktion f(x, y, z) = 2xy + 2xz + 4yz jeweils xy, xz und yz substituiert, so ergibt sich f(x, y, z) = ( 2 z + 2 y + 4 x ) ≥ max ( 2 z , 2 y , 4 x ) Strebt nun (wenigstens) eine der Variablen gegen Null (z.B. x → 0) , so divergiert einer der Ausdrücke (z.B. 4 x → ∞ ). Bei zulässiger Randannäherung wird also der Zielwert unbeschränkt. Daher muss im kritischen Punkt ein globales Minimum vorliegen. Wenn der zu betrachtende zulässig annäherbare Randbereich wieder durch eine Kurve beschrieben wird. muss man hier die größten bzw. kleinsten Funktionswerte wieder mit der Lagrange-Methode bestimmen: Beispiel 7.44 Wir wollen auf D = [0; ∞ [ 3 die Funktion f(x, y, z) = 3x + y + 2z unter der Nebenbedingung xyz = 36 minimieren. Der Lagrange-Ansatz ergibt die drei Gleichungen 3 + λyz = 0, 1 + λxz = 0, 2 + λxy = 0 <?page no="270"?> 270 7 Optimierungsaufgaben Multipliziert man die erste (bzw. zweite bzw. dritte) Gleichung mit x (bzw. y bzw. z), so kann man über λxyz gleichsetzen und erhält zwei Gleichungen y = 3x und z = 3 2 x. Diese können wir jetzt in die Restriktion xyz = 36 einsetzen und erhalten x(3x)( 3 2 x) = 36 ⇒ x 3 = 8 ⇒ x = 2 Aus der Rücksubstitution folgen y = 6 und z = 3. Zielwert ist 3x + y + 2z = 18. Für den Randwertvergleich sind nun die Fälle x → ∞ bzw. y → ∞ bzw. z → ∞ bzw. x → 0 bzw. y → 0 bzw. z → 0 zu behandeln. Wenigstens einer dieser Grenzwertübergänge ist bei der Annäherung an den Rand von D erforderlich. Die ersten drei dieser Übergänge sind unproblematisch, denn hieraus kann man dann sicher eine der Ungleichungen x > 6 oder y > 18 oder z > 9 folgern. Mit jeder dieser Ungleichungen wird der Zielwert 3x + y + 2z aber größer als der Zielwert 18 im kritischen Punkt. Es verbleibt die Annäherung an 0 durch eine der Variablen. Wir führen die Rechnung exemplarisch für die Annäherung z → 0 aus (die anderen beiden Fälle lassen sich genau so rechnen). Es sei z 0 > 0 ein ausreichend nahe bei Null liegender Wert. Wir bestimmen den Minimalwert 3x + y + 2z unter xyz = 36 bei festem z = z 0 , d.h. substituieren diesen Wert für z. Dann ist also für x, y > 0 der Term 2z 0 + 3x + y unter xy = 36/ z 0 zu minimieren. In Beispiel 7.42 vgl. S. 268 haben wir dieses Problem gelöst die additive Konstante 2z 0 stört hierbei nicht. Wir erhalten als Optimalwert 2z 0 + 2 √ 3 · 1 · 36/ z 0 . Weil z 0 aber beliebig nahe bei Null liegen muss, wird dieser Wert beliebig groß, überschreitet also mit z 0 → 0 auf jeden Fall den Zielwert 18 im kritischen Punkt. Daher liegt im kritischen Punkt tatsächlich das globale Minimum vor. In zahlreichen Fällen kann man mit dem Randwertvergleich abschließend auf die Optimalität eines berechneten kritischen Punktes schließen. Wir haben in den Beispielen u.a. folgende Spezialfälle gesehen: additive Restriktionen, bei denen der zulässige Bereich geometrisch dem Teil einer Ebene entspricht. Im Randvergleich sind dann direkte Schnittpunkte dieser Ebene mit dem Rand des Definitionsbereiches zu prüfen; multiplikative Restriktionen, bei denen der zulässige Bereich die Gestalt einer Hyperbel hat. Der Randvergleich erfolgt dann durch Annäherung an den Rand per Grenzwertübergang. Auch Mischformen dieser Fälle oder völlig anders geartete Restriktionen können auftreten. Leider lässt sich daher keine über das bisher Gesagte hinaus gehende allgemeine und schematische Handlungsanweisung für den Randwertvergleich geben, vielmehr wird dieser meistens auf eine ad-hoc-Argumentation hinauslaufen. Da aber die meisten anderen Nachweismöglichkeiten für Extrema nur auf lokale Extrema abzielen, wonach ebenfalls noch der Randwertvergleich erforderlich ist, kommen Sie um den Randwertvergleich also nicht herum, wenn Sie wirklich sicher stellen wollen, dass kritische Punkte tatsächlich Extremstellen sind. Die nun noch besprochenen konvexen Optimierungsprobleme bieten in manchen Fällen eine Alternative zum Randwertvergleich. 7.3.3 Optimierung konvexer Funktionen unter Nebenbedingungen Schon in der unrestringierten Optimierung stellen konvexe bzw. konkave Zielfunktionen einen besonders günstigen Spezialfall dar; denn dort ist es möglich, für kritische <?page no="271"?> 7.3 Hinreichende Bedingungen für Extrema 271 Punkte, d.h. unter ausschließlicher Voraussetzung der notwendigen Bedingungen auf das Vorliegen eines globalen Extremums zu schließen. Auch in der restringierten Optimierung lässt sich solch eine Schlussweise verwenden. Dabei ist aber eine Beschränkung auf Optimierungsprobleme unter Ungleichungsrestriktionen erforderlich. Satz 7.16 (Satz von Kuhn-Tucker) Es soll die Funktion f : D ⊆ R n → R minimiert werden unter k Nebenbedingungen h 1 (x 1 , . . . , x n ) ≤ 0, . . . , h k (x 1 , . . . , x n ) ≤ 0. Weiter seien folgende Voraussetzungen erfüllt: [1] D ist konvex und f, h 1 , . . . , h k : D → R sind konvexe, differenzierbare Funktionen. [2] Die Slater-Bedingung ist erfüllt, d.h. es gibt ein ˜ x = (˜ x 1 , . . . , ˜ x n ) T ∈ D mit ausschließlich inaktiven Nebenbedingungen h 1 (˜ x) < 0, . . . , h k (˜ x) < 0. Dann gilt: x (0) = (x (0) 1 , . . . , x (0) n ) T ∈ D ist genau dann Lösung des Optimierungsproblems, wenn die Kuhn-Tucker-Bedingungen erfüllt sind, d.h. wenn es μ 1 , . . ., μ k ≥ 0 gibt, so dass ∇ f(x (0) ) + μ 1 ∇ h 1 (x (0) ) + · · · + μ k ∇ h k (x (0) ) = ¯0 μ 1 h 1 (x (0) ) + · · · + μ k h k (x (0) ) = 0 Es sind also lediglich zwei zusätzliche Voraussetzungen, welche die Vorgehensweise beim Satz von Kuhn-Tucker von derjenigen aus Satz 7.10 vgl. S. 256 unterscheiden: konvexe Funktionen und ein zulässiger Punkt, in dem alle Restriktionen inaktiv sind. Dann sind die Kuhn-Tucker-Bedingungen nicht nur notwendige Bedingungen für lokale Minima, sondern auch hinreichende Bedingungen für globale Minima. Der Punkt ˜ x, in dem die Slater-Bedingung erfüllt ist, muss keine Lösung des Optimierungsproblems sein. Die Slater-Bedingung besagt also nicht, dass die Optimallösung alle Nebenbedingungen inaktiv lässt. Beispiel 7.45 Gesucht sind alle Minima von f(x, y) = x + y +1 xy für x > 0, y > 0 unter der Nebenbedingung g(x, y) = x 2 + y 2 − 1 ≤ 0. f ist zweimal stetig partiell differenzierbar mit D 1 f(x, y) = xy − (x + y + 1) y x 2 y 2 = − y + 1 x 2 y , D 2 f(x, y) = − x + 1 xy 2 sowie H f (x, y) = ( 2(y + 1)/ (x 3 y) 1/ (x 2 y 2 ) 1/ (x 2 y 2 ) 2(x + 1)/ (xy 3 ) ) . Die Matrix ist für alle x, y > 0 positiv definit: ihre Hauptminoren lauten 2 y +1 x 3 y > 0 und 4 xy +4 x +4 y +3 x 4 y 4 > 0. Daher ist f konvex. Auch g ist konvex mit Gradient (2x, 2y) T und Hesse-Matrix ( 2 0 0 2 ) . Die Slater-Bedingung ist erfüllt, denn beispielsweise für x = 1 2 , y = 1 2 gilt g( 1 2 , 1 2 ) = − 1 2 < 0, d.h. die Nebenbedingung ist inaktiv. Also hat f in (x, y) genau dann ein Minimum unter g(x, y) ≤ 0, wenn es ein μ ≥ 0 gibt, so daß die Kuhn-Tucker-Bedingungen gelten: D 1 f(x, y) + μD 1 g(x, y) = 0 D 2 f(x, y) + μD 2 g(x, y) = 0 g(x, y) ≤ 0 μg(x, y) = 0 <?page no="272"?> 272 7 Optimierungsaufgaben Das bedeutet hier 2μx = y + 1 x 2 y , 2μy = x + 1 xy 2 , x 2 + y 2 ≤ 1, μ = 0 oder x 2 + y 2 = 1 Aus den ersten beiden Gleichungen folgt durch Multiplikation mit y bzw. x y + 1 x 2 = 2μxy = x + 1 y 2 = ⇒ x 2 (x + 1) − y 2 (y + 1) = 0 Daraus lässt sich aber schon x = y schließen (z.B. wegen x 2 (x + 1) − y 2 (y + 1) = x 3 − y 3 + x 2 − y 2 = (x − y)(x 2 + xy + y 2 + x + y)). Aus der ersten (und auch der zweiten) Gleichung der Kuhn-Tucker-Bedingungen folgt zudem, dass μ = 0, d.h. dass die Nebenbedingung voll ausgeschöpft wird. Es gilt also x 2 + y 2 = 1. Setzt man hier x = y ein, so bekommt man die Lösung x = y = √ 1/ 2 mit μ = 1+ √ 1 / 2 2 · 1 / 4 = 2 + √ 2 > 0. Die Kuhn-Tucker-Bedingungen sind also erfüllt. Nach dem Satz von Kuhn-Tucker liegt im kritischen Punkt ein globales Minimum vor. Beispiel 7.46 (Fortsetzung von Beispiel 7.30 vgl. S. 258 ) Im Optimierungsproblem 2x 2 + 4y 2 ! = min unter x 2 + y 2 − 2 ≤ 0 und 1 − x − y ≤ 0 sind alle auftretenden Funktionen konvex. Außerdem ist die Slater-Bedingung z.B. für x = y = 2 3 erfüllt, es gilt ( 2 3 ) 2 + ( 2 3 ) 2 − 2 = − 10 9 < 0 und 1 − 2 3 − 2 3 = − 1 3 < 0. Der in Beispiel 7.30 berechnete kritische Punkt ist also Stelle eines globalen Minimums. Wir beschließen den Abschnitt mit einer Anwendungssituation der Informatik, dem Entwurf von Netzwerken unter Kosten- und Performance-Aspekten. Beispiel 7.47 (Optimale Verbrauchspläne) In einem Unternehmen sollen die Abteilungen durch ein globales leitungsbasiertes DV- Netzwerk verbunden werden. Die insgesamt n Leitungen dieses Netzes werden mit Kapazitäten x 1 , . . . , x n > 0 ausgestattet. Die Gesamtkosten des Netzaufbaus lassen sich als lineare Funktion k(x 1 , . . . , x n ) = c 1 x 1 + c 2 x 2 + · · · + c n x n darstellen. In den Kostenkoeffizienten c 1 , . . . , c n > 0 werden Länge und Streckenführung der einzelnen Leitungen erfasst, im Übrigen sind die Kosten jeweils proportional zur Leitungskapazität. Für die Gesamtkosten ist eine Obergrenze B > 0 (Budget) vorgegeben. Das Netzwerk soll eine möglichst gute Performance aufweisen. Das lässt sich beispielsweise auf Basis der mittleren Verweildauer von Datenpaketen in diesem Netz erfassen. Nach den Prinzipien der Warteschlangentheorie kann man diese Kennzahl eines leitungsbasierten Systems in der Formel f(x 1 , . . . , x n ) = 1 x 1 − b 1 + 1 x 2 − b 2 + · · · + 1 x n − b n erfassen [ Pflug , 1986]. Die b k > 0 ergeben sich dabei aus Bestimmungsgrößen des Netzwerkes wie Nachrichtenübermittlungsdauer und -häufigkeiten sowie Leitungsrelevanzen (z.B. bei Alternativ-Verbindungen). Insbesondere ist b k die Mindest-Leitungskapazität, die für störungsfreien Nachrichtenfluss auf der k-ten Leitung angesetzt werden muss. Mit diesen Bestimmungsgrößen haben wir folgendes Optimierungsproblem: Man finde unter der Budget-Restriktion h(x 1 , . . . , x n ) = n ∑ k =1 c k x k − B ≤ 0 diejenigen Leitungskapazitäten x 1 > b 1 , . . . , x n > b n , für welche die durchschnittliche Nachrichtenübermittlungsdauer f(x 1 , . . . , x n ) = n ∑ k =1 1/ (x k − b k ) minimal wird. <?page no="273"?> 7.3 Hinreichende Bedingungen für Extrema 273 Es handelt sich hier also um ein Minimierungsproblem unter einer Nebenbedingung in ≤ -Form mit dem - konvexen - Definitionsbereich D =]b 1 ; ∞ [ × · · · × ]b n ; ∞ [, welches sich mit dem Satz von Kuhn-Tucker lösen lässt. Dazu prüfen wir, ob die Voraussetzungen des Satzes erfüllt sind. Zur Konvexität der Funktionen: Es werden die partiellen Ableitungen erster und zweiter Ordnung von f bestimmt: ∂ ∂x i n ∑ k =1 1 x k − b k = − 1 (x i − b i ) 2 , ∂ 2 ∂x 2 i n ∑ k =1 1 x k − b k = 2 (x i − b i ) 3 Die übrigen gemischten partiellen Ableitungen ∂ 2 f/ ∂x i ∂x j zweiter Ordnung von f sind gleich Null. Also ist H f (x) eine Diagonalmatrix mit positiven Hauptdiagonalelementen und nach Determinantenkriterium daher positiv definit. Also ist f konvex. Auch h ist (als affin-lineare Funktion) konvex. Zur Slater-Bedingung: Diese ist erfüllt, wenn ∑ n k =1 c k b k < B, d.h. ein Budget zur Verfügung steht, welches „etwas mehr“ als die Mindest-Leitungskapazitäten erlaubt. Dann lassen sich nämlich Leitungskapazitäten (b 1 + ε, . . . , b n + ε) T mit geeignetem ε > 0 finden, so dass n ∑ k =1 c k (b k + ε) = ( n ∑ k =1 c k b k ) + ε n ∑ k =1 c k < B Falls n ∑ k =1 c k b k ≥ B, so gibt es keine zulässige Lösung. In diesem Fall kann wenigstens eine der Mindest-Leitungskapazitäten b 1 , . . . , b n durch das Budget nicht aufgebaut werden. Diese Leitung ist dann im Betriebszustand in der Regel blockiert. Wir halten fest, dass genau unter der Voraussetzung, dass das Budget für die Minimalkonfiguration des Systems mehr als ausreicht, der Satz von Kuhn-Tucker angewendet werden kann. In diesem Fall müssen wir Leitungskapazitäten x 1 , . . . , x n und ein μ ≥ 0 finden, für welche die Kuhn-Tucker-Bedingungen gelten, d.h. ∇ f(x 1 , . . . , x n ) + μ ∇ h(x 1 , . . . , x n ) = ¯0 h(x 1 , . . . , x n ) ≤ 0 h(x 1 , . . . , x n ) = 0 oder μ = 0 Die Gradientengleichungen lauten ausgeschrieben für k = 1, . . . , n − 1/ (x k − b k ) 2 + μc k = 0 ⇐⇒ μ = 1/ (c k (x k − b k ) 2 ) Es folgt μ > 0, weshalb die Nebenbedingung aktiv sein, d.h. das Budget voll ausgeschöpft werden muss. Setzt man die Lagrange-Gleichungen über μ gleich, so gilt 1 c 1 (x 1 − b 1 ) 2 = 1 c 2 (x 2 − b 2 ) 2 = · · · = 1 c n (x n − b n ) 2 bzw. nach Wurzelziehen (wegen x k > b k eine Äquivalenzumformung) und Kehrbruchbildung √ c 1 (x 1 − b 1 ) = √ c 2 (x 2 − b 2 ) = · · · = √ c n (x n − b n ). Somit folgt x k = √ c 1 / c k (x 1 − b 1 ) + b k <?page no="274"?> 274 7 Optimierungsaufgaben für k = 1, . . . , n. Substitutiert man die x k in die Nebenbedingung, so ergibt sich B = n ∑ k =1 c k ( √ c 1 / c k (x 1 − b 1 ) + b k ) = (x 1 − b 1 ) n ∑ k =1 √ c 1 c k + n ∑ k =1 c k b k Die Kapazität der ersten Leitung beträgt demzufolge (durch Auflösen der Gleichung) x 1 = b 1 + ( B − n ∑ k =1 c k b k ) / n ∑ k =1 √ c 1 c k . Rücksubstitution ergibt für i = 1, . . . , n die Lösung x i = √ c 1 / c i (x 1 − b 1 ) + b i = b i + √ c i ∑ n k =1 √ c k × B − ∑ n k =1 c k b k c i Nach dem Satz von Kuhn-Tucker ist die optimale Verwendung des Budgets gefunden. Sie lässt sich wie folgt interpretieren: Jeder Leitung L i wird zunächst die Mindestkapazität b i zugeteilt. Es verbleibt ein Restbudget R : = B − ∑ n k =1 c k b k . Mit dem Restbudget werden die Leitungskapazitäten proportional zu √ c 1 , . . . , √ c n aufgestockt. Für die Leitung L i ergibt sich dann mit p i = √ c i / ∑ n k =1 √ c k die Gesamtkapazität b i + p i R/ c i . Übungen zu Abschnitt 7.3 ? 15. Prüfen Sie Definitheit unter Gx = ¯0 a) H = ( 1 − 3 − 3 2 ) , G = ( 1 2 ) b) H = ( 1 − 3 − 3 2 ) , G = ( 1 − 2 ) c) H = ( 1 − 3 − 3 t ) , G = ( 5 3 ) d) H = ⎛ ⎝ 0 − 3 2 − 3 1 1 2 1 4 ⎞ ⎠ , G = ( 5 3 1 2 0 − 1 ) e) H = ⎛ ⎝ 0 1 1 1 1 1 1 1 0 ⎞ ⎠ , G = ( 5 3 1 ) f) H = ⎛ ⎜ ⎝ − 5 0 − 3 2 0 1 0 1 − 3 0 1 − 1 2 1 4 2 ⎞ ⎟ ⎠ , G = ( 2 0 1 1 2 1 1 1 ) 16. Prüfen Sie die kritischen Punkte aus den Aufgaben 6, 7, 8 und 10 vgl. S. 259 auf lokale Extrema. 17. Bestimmen Sie das Maximum der Funktion f(x, y) = xy auf D = [0; ∞ [ 2 unter der Nebenbedingung ax + by = c. Dabei seien a, b, c > 0. Führen Sie einen Randwertvergleich aus. 18. Maximieren Sie x(1 − x) + 2y(1 − y) für x, y ≥ 0 unter der Nebenbedingung x + 2y ≤ 1. Führen Sie einen Randwertvergleich aus. 19. Führen Sie in den Optimierungsproblemen der Aufgaben 6, 7, 8, 9 und 10 den Randwertvergleich aus und bestimmmen Sie auf diese Weise, ob es sich bei den kritischen Punkten jeweils um globale Extrema handelt. 20. Weisen Sie mit dem Satz von Kuhn- Tucker jeweils nach, dass die kritischen Punkte in den Aufgaben 12 und 13 Lösungen der jeweiligen Optimierungsprobleme sind. 7.4 Komparative Statik In wirtschaftswissenschaftlichen Fragestellungen wird oft die Suche nach einer in einem geeigneten Sinne optimalen Lösung thematisiert. Diese Lösung ist jedoch nur in den <?page no="275"?> 7.4 Komparative Statik 275 -2 2 4 6 a 0.5 1 1.5 2 2.5 gx Abbildung 7.14: Kurvenschar g x aus Beispiel 7.48 x y Budget 1000 e (10 e / lfdm) x y Budget 1050 e (10 e / lfdm) x y (12 e / lfdm) (10 e / lfdm) Budget 1000 e x y Budget 1050 e (12 e / lfdm) (10 e / lfdm) Abbildung 7.15: Varianten des Verbrauchsproblems seltensten Fällen absolut, sondern muss sich Änderungen im Problemkontext stellen. Neben den durch das Optimierungsproblem geeignet festzulegenden Entscheidungsvariablen, die man auch endogen nennt, sind also Umweltparameter zu berücksichtigen, die exogene Variablen heißen. Beispiele solcher Variablen sind nicht unmittelbar kontrollierbar: Inflationsrate, Bruttosozialprodukt, Arbeitsmarktzahlen, Komplementärgüterpreise, Aktienkurs des Unternehmens,. . . (unmittelbar) kontrollierbar: Gesamtbudget für Investitionen Auf den Punkt gebracht wird der Zusammenhang zwischen exogenen und endogenen Variablen durch die Betrachtung von Änderungsraten, d.h. Substitutionsgrenzraten und Optimalwertveränderungen. Erstere werden mit dem Satz über implizite Funktionen, letztere mittels des Envelopetheorems behandelt. Die Bezeichnung „envelope“ (engl.: Umschlag) stammt daher, dass die im Theorem behandelte Optimalwertfunktion eine Art „Einhüllende“ der gegebenen Kurvenschar ist, wenn man Scharparameter und Funktionsargumente gegeneinander vertauscht. Beispiel 7.48 Die Funktion f a (x) = ( x − a ) 2 + ax − a 20 wird bei festem a ∈ R minimal in x a = a/ 2 mit Wertfunktion V (a) : = f a (x a ) = a (3 a − 4) 80 . Zeichnet man die Funktionenschar g x (a) : = f a (x) in Abhängigkeit von x, wie in Abbildung 7.14 dargestellt, so hüllt die Wertfunktion V die Funktionenschar von unten ein. Das Envelope-Theorem trifft eine Aussage über das Änderungsverhalten der Einhüllenden; es wird in Optimierungsproblemen unter Nebenbedingungen verwendet. 7.4.1 Ein Verbrauchsproblem Wir nehmen das Eingangsproblem aus Beispiel 7.16 auf vgl. Abbildung 7.15 links. Ein möglichst großes rechteckiges Grundstück der Fläche A(x, y) = xy soll mit einem Zaun, der 10 e je laufendem Meter kostet, bei einem Budget von b = 1000 e für den Zaun abgegrenzt werden. <?page no="276"?> 276 7 Optimierungsaufgaben [1] Mit der zugehörigen Lagrange-Funktion L(x, y, λ) = xy +λ(20x+20y − 1000) erhält man die maximale Fläche A(25, 25) = 625 mit Seiten der Länge x = y = 25. Der Lagrange-Multiplikator ist λ = − 5/ 4. [2] Wenn sich das Budget auf b = 1050 e erhöht vgl. Abbildung 7.15 zweites Bild, so ergibt sich mit der Lagrange-Funktion L(x, y, λ) = xy + λ(20x + 20y − 1000) die maximale Fläche A(26.25, 26.25) ≈ 689, 06. [3] Wird beim Budget b = 1000 e die obere Begrenzung durch eine Mauer mit Meterpreis a = 12 e ersetzt vgl. Abbildung 7.15 drittes Bild, so ist die Lagrange-Funktion L(x, y, λ) = xy + λ(22x + 20y − 1000) mit maximaler Fläche A(22.72, 25) = 568.18 [4] Wird bei der Mauer-Lösung das Budget b = 1050 e eingesetzt vgl. Abbildung 7.15 viertes Bild, so ergibt sich die Lagrange-Funktion L(x, y, λ) = xy + λ(22x + 20y − 1050) und die maximale Fläche A(23.86, 26.25) ≈ 626.42. Diese Ergebnisse lassen sich hier auch überprüfen, indem man bei allgemeinen Kosten a > 0 der oberen Begrenzung und allgemeinem Budget b > 0 die Funktion A(x, y) = xy maximiert unter der Nebenbedingung (10 + a)x + 20y − b = 0. Die Kuhn-Tucker- Bedingungen lauten y + λ(10 + a)λ = 0 = x + 20λ. Gleichsetzen über λ ergibt die Gleichung (a + 10)x = 20y, dies eingesetzt in die Nebenbedingung ergibt zum einem 2(a + 10)x = b ⇔ x = b 2( a +10) , zum anderen 2 · 20y = b ⇔ y = b 40 . Lagrange- Multiplikator ist λ = − x 20 = − y a +10 = b 40( a +10) . Die Lösung ist optimal, wie man mit dem Randwertvergleich sieht. Denn der kritische Punkt hat Zielwert A( b 2( a +10) , b 40 ) = b 2 80( a +10) > 0 und muss mit den Randpunkten (0, b 20 ) sowie ( b a +10 , 0) verglichen werden, in denen der Flächeninhalt Null ist. Der Zielwert im Optimum hängt von den Parametern a, b ab. Er wird als Optimalwert- Funktion V (a, b) bezeichnet. Hier ist V (a, b) = b 2 80( a +10) . Es ergeben sich abhängig von den Parametern a, b die oben bereits berechneten Optimalwerte b = 1000 b = 1050 a = 10 V (10, 1000) = 1000 2 80(10+10) = 625 V (10, 1050) = 1050 2 80(10+10) = 689.0625 a = 12 V (12, 1000) = 1000 2 80(12+10) = 568.18 V (12, 1050) = 1050 2 80(12+10) = 626.42 Die Optimalwertfunktion ist differenzierbar mit Gradient ∇ V (a, b) = ( − b 2 80(a + 10) 2 , b 40(a + 10) ) T z.B. ∇ V (10, 1000) = ( − 31.25, 1.25) T Sie erlaubt damit eine Linearisierung, ausgehend z.B. von Startwerten a = 10, b = 1000: V (a, b) ≈ V (10, 1000) − 31.25(a − 10) + 1.25(b − 1000) Konkret bedeutet dies, dass der Optimalwert näherungsweise mit dieser Linearisierung berechnet werden kann. Für die Szenarien [2] bis [4] ergibt das folgende Näherungen: b = 1000 b = 1050 a = 10 V (10, 1000) = 625 V (10, 1050) ≈ 687.5 a = 12 V (12, 1000) ≈ 562.5 V (12, 1050) ≈ 625 Beim Vergleich mit den exakten Werten oben stellt man fest, dass diese Näherungen relativ gut sind. Es ist also möglich, mit einem Ausgangsszenario (a = 10, b = 1000) <?page no="277"?> 7.4 Komparative Statik 277 dem so genannten Status-Quo, seinem Optimalwert und den Änderungsraten der Optimalwertfunktion für dieses Szenario eine näherungsweise Änderung zu bestimmen. Kann man Optimalwert und Änderungsraten für den Status-Quo berechnen, ohne die Optimierung in einem allgemeineren Szenario (hier für allgemeine a, b) durchführen zu müssen, so lässt sich die Bestimmung der Optimalwertänderung deutlich vereinfachen. Das leistet das Envelope-Theorem, dessen eine Aussage zum Lagrange-Multiplikator man schon im vorliegenden Beispiel erkennen kann: Die Linearisierung V (a, b) ≈ V (10, 1000) − 31.25(a − 10) + 1.25(b − 1000) beinhaltet nämlich eine Änderungsaussage für das Budget b: Bei Änderung um Δb ändert sich der Optimalwert näherungsweise um V (10, 1000 + Δb) − V (10, 1000) = 1.25 · Δb. Der Faktor 1.25 ist gemäß [1] hier aber gerade der negative Lagrange-Multiplikator für den Status-Quo. Mit anderen Worten: Der Lagrange-Multiplikator beschreibt - bis auf das Vorzeichen - die marginale Änderung des Optimalwertes aus dem Status- Quo heraus. Er stellt hier also einen Grenznutzen des Budgets b = 1000 dar und wird auch als Schattenpreis der Budget-Restriktion bezeichnet. Dieser Begrifferklärt sich besser in Situationen, bei denen Kosten minimert werden müssen; dann stellt der Lagrange-Multiplikator einen marginalen Kostenbeitrag dar, eben einen verdeckten Preis („Schattenpreis“), der für die Änderung der Restriktion durch höhere Zielkosten zu zahlen ist, wenn man das Optimierungsziel weiter einhalten will. Die Berechnung der Änderungsraten aus dem Status-Quo-Problem heraus nach dem Envelope-Theorem ist prinzipiell nicht viel schwieriger als die Lösung des Status- Quo-Problems selber. Wir erläutern die Vorgehensweise für das Verbrauchsproblem: Zunächst wird dieses für a = 10, b = 1000 gelöst, siehe [1]. Anschließend wird die Lagrange-Funktion für das „parametrisierte“ Problem aufgestellt: L(x, y, λ) = xy + λ((10 + a)x + 20y − b) Neu ist, dass L nun nach a bzw. b abgeleitet wird (und nicht mehr nach x, y, λ): ∂L ∂a = λx, ∂L ∂b = − λ Abschließend werden die Werte x = 25, y = 25, λ = − 5 4 , a = 10, b = 1000 aus dem Status-Quo [1] eingesetzt. Das ergibt ∂L ∂a = − 5 4 · 25 = − 31.25, ∂L ∂b = − λ = 1.25. Es ergeben sich die mittels Optimalwertfunktion berechneten partiellen Ableitungen. 7.4.2 Das Envelope-Theorem Hintergrund der Vorgehensweise im Verbrauchsproblem ist das Envelope-Theorem, welches gerade diese Vorgehensweise in allgemeinen Optimierungsproblemen mit oder ohne Nebenbedingungen - in Gleichungsform - thematisiert. Das Envelope-Theorem wird in folgender Situation angewandt: Es liegt eine Schar von Optimierungsproblemen f(x, α) ! = min x unter g 1 (x, α) − y 1 = 0, . . . , g K (x, α) − y K = 0 vor; alle Funktionen seien in x und α (total) differenzierbar. L(x, λ, α, y) = f(x, α) + ∑ K k =1 λ k (g k (x, α) − y k ) sei die Lagrange-Funktion. Für vorgegebene Werte α ∗ = (α ∗ 1 , . . . , α ∗ m ) T , y ∗ = (y ∗ 1 , . . . , y ∗ K ) T sei mit der Lagrange- Methode eine Lösung x ∗ (α ∗ , y ∗ ), λ ∗ (α ∗ , y ∗ ) bestimmt. Der zugehörige Optimalwert lautet: V (α ∗ , y ∗ ) = f(x ∗ (α ∗ , y ∗ ), α ∗ ). <?page no="278"?> 278 7 Optimierungsaufgaben Gesucht ist das Änderungsverhalten des Optimalwertes, d.h. ∂V ( α,y ) ∂α j bzw. ∂V ( α,y ) ∂y k in α = α ∗ und y = y ∗ . Zu erwarten wäre eigentlich, dass sich eine Änderung von α in der Wertfunktion f(x ∗ (α, y), α) additiv aus einer Änderung von α und einer Änderung von x ∗ zusammensetzt. Das so genannte Envelope-Theorem besagt aber, dass der letztere Einfluss (marginal) vernachlässigt werden kann, so dass man wieder Rückgriffauf die Lagrange- Funktion nehmen darf: Satz 7.17 (Envelope-Theorem) [1] Die marginale Änderung der Wertfunktion im exogenen Parameter α j ist gleich der Ableitung der Lagrange-Funktion nach α j , ausgewertet im Optimum x = x ∗ (α ∗ , y ∗ ), λ = λ ∗ (α ∗ , y ∗ ), in Formeln mit j ∈ { 1, . . . , m } ∂V ∂α j ∣ ∣ ∣ ∣ α=α ∗ = ∂L ∂α j ∣ ∣ ∣ ∣ α = α ∗ , y = y ∗ x = x ∗ (α ∗ , y ∗ ) λ = λ ∗ (α ∗ , y ∗ ) = ∂f ∂α j ∣ ∣ ∣ ∣ α = α ∗ , y = y ∗ x = x ∗ (α ∗ , y ∗ ) λ = λ ∗ (α ∗ , y ∗ ) + K ∑ k=1 λ ∗ k (α ∗ , y ∗ ) · ∂g k ∂α j ∣ ∣ ∣ ∣ α = α ∗ , y = y ∗ x = x ∗ (α ∗ , y ∗ ) λ = λ ∗ (α ∗ , y ∗ ) [2] Die marginale Änderung der Wertfunktion im exogenen Restriktions-Parameter y k entspricht dem negativen Lagrange-Multiplikator dieser NB im Optimum, in Formeln: ∂V ∂y k ∣ ∣ ∣ α = α ∗ y = y ∗ = − λ ∗ k (α ∗ , y ∗ ). [3] In einem Optimierungsproblem ohne Nebenbedingungen lautet die Änderungsrate ∂V ∂α j ∣ ∣ ∣ α=α ∗ = ∂f ∂α j ∣ ∣ ∣ α=α ∗ ,x=x ∗ (α ∗ ) Das Envelope-Theorem macht Aussagen über partielle Ableitungen in einzelnen exogenen Variablen. Wegen der Annahme total differenzierbarer Funktionen lassen sich aber auch Änderungsraten für Richtungsableitungen bei gleichzeitiger Veränderung mehrerer dieser Variablen oder das Differential der Wertfunktion bestimmen. Das Envelope-Theorem lässt sich in folgende Vorgehensweise umsetzen: Optimalwertveränderung bei Änderung einer exogenen Variable [1] Löse das Ausgangsproblem mit Lagrange-Methode in den endogenen Variablen. [2] Stelle die Lagrange-Funktion auf und leite sie nach der exogenen Variable ab. [3] Setze die im ersten Schritt gewonnenen Werte der endogenen Variablen und Lagrange-Multiplikatoren und die zugrundeliegenden Werte der exogenen Variablen ein. Im nächsten Beispiel nehmen wir noch einmal alle Aspekte der Optimierung unter Nebenbedingungen inklusive der Interpretation exogener Parameter auf: Beispiel 7.49 Ein Produkt wird aus zwei Rohstoffen hergestellt. Der Erlös sei E(x, y) = 150x 0 , 4 y 0 , 6 , die Kosten K(x, y) = 20x+25y. Es soll der Deckungsbeitrag G(x, y) = E(x, y) − K(x, y) für x, y ≥ 0 unter der Nebenbedingung K(x, y) = 20x + 25y = 1000 maximiert werden. Wir stellen die Lagrange-Funktion auf L(x, y, λ) = 150x 0 , 4 y 0 , 6 − 20x − 25y + λ(20x + 25y − 1000) <?page no="279"?> 7.4 Komparative Statik 279 und setzen ihre partielle Ableitungen in x, y gleich Null: 60x − 0 , 6 y 0 , 6 − 20 + 20λ = 0 ⇒ x 0 , 4 y 0 , 6 = 20(1 − λ)x 60 90x 0 , 4 y − 0 , 4 − 25 + 25λ = 0 ⇒ x 0 , 4 y 0 , 6 = 25(1 − λ)y 90 Gleichsetzen ergibt ( x 3 − 5 y 18 )(1 − λ) = 0. Der Fall λ = 1 ergibt x = 0 oder y = 0, was einerseits zu einem negativen Deckungsbeitrag führt, andererseits aber ist an dieser Stelle die Zielfunktion nicht differenzierbar Dieser Punkt ist kein kritischer Punkt im Sinne der Lagrange-Methode. Der Fall λ = 1 führt zu y = 6 5 x. Eingesetzt in die NB folgt 20x + 25 · 6 5 x = 1000 ⇒ 50x = 1000 ⇒ x = 20. Daraus folgt y = 6 5 x = 24. Der Lagrange-Multiplikator lautet x 0 , 4 y 0 , 6 = 1 3 (1 − λ)x ⇒ λ = 1 − 3 ( y x ) 0 , 6 ≈ − 2, 346. Der kritische Punkt mit G(20, 24) = 2346, 8 erweist sich durch Randwertvergleich als Maximumstelle, denn in den zulässigen Randpunkten gilt G(0, 40) = − 1000 = G(50, 0). Interpretation des Lagrange-Multiplikators λ ≈ − 2, 346: Je zusätzlich verfügbarer Geldeinheit für den Rohstoffeinsatz steigt der optimale Deckungsbeitrag um ca 2,346 Geldeinheiten (kleine bzw. marginale Änderung des Budgets vorausgesetzt). Wie wirkt sich nun eine kleine Veränderung der Produktionsfunktion (technische Modifikation der Fertigung) auf den optimalen Deckungsbeitrag aus? Angenommen sei z.B. eine Zielfunktion der Form G(x, y) = 150x 0 , 4+ a y 0 , 6 − a − 20x − 25y mit a ≈ 0. Die marginale Änderung des Optimalwertes in a = 0 errechnet sich wie folgt: Bilde Lagrange-Funktion L(x, y, λ) = 150x 0 , 4+ a y 0 , 6 − a − 20x − 25y + λ(20x + 25y − 1000) = 150e (0 , 4+ a ) ln( x )+(0 , 6 − a ) ln( y ) + λ(20x + 25y − 1000) Leite Lagrange-Funktion nach a ab: ∂ ∂a L(x, y, λ) = 150x 0 , 4+ a y 0 , 6 − a (ln(x) − ln(y)) Setze a = 0 und für diesen Fall die oben berechneten Optimalwerte x = 20, y = 24 ein. Wegen ln(x) − ln(y) = ln(20) − ln(24) < 0 folgt: Eine (marginale) Erhöhung des Produktionskoeffizienten 0, 4 (und eine entsprechende marginale Verringerung des zweiten Produktionskoeffizienten 0, 6) führt zu einer marginalen Verringerung des Deckungsbeitrags. Will man also den Deckungsbeitrag erhöhen, so sollte man eine Verringerung des Produktionskoeffizienten des ersten Rohstoffes anstreben (a < 0). Von den Aussagen des Envelope-Theorems ist die zweite die am häufigsten verwendete, weil sie die Lagrange-Multiplikatoren aus dem Lagrange-Ansatz mathematisch interpretiert und in einen Zusammenhang zu dem ökonomischen Ziel der Optimierung setzt. Den Lagrange-Multiplikator bezeichnet man aufgrund seiner Eigenschaft aus dem Envelope-Theorem auch als Schattenpreis der Restriktion. Er beschreibt den Zugewinn - oder auch Verlust - den man durch die Lockerung oder Straffung einer Restriktion erhält. <?page no="280"?> 280 7 Optimierungsaufgaben Bei mehreren Nebenbedingungen ist auch das Änderungsverhalten des Optimalwertes gegebenenfalls von der Änderung aller Nebenbedingungen abhängig. Die Optimalwertfunktion hat dann als Differential den Vektor der negativen Lagrange-Multiplikatoren, der für Simultanänderungen mehrerer Nebenbedingungen in eine spezielle Richtungsableitung übergeht. Satz 7.18 Im Optimierungsproblem f(x) ! = min x∈ D / max x∈ D unter den Nebenbedingungen g 1 (x) = 0, . . . , g m (x) = 0 seien Zielfunktion und Restriktions-Funktionen differenzierbar. Falls (x ∗1 , . . ., x ∗n ) T eine Lösung des Optimierungsproblems mit den zugehörigen Lagrange- Multiplikatoren λ ∗1 , . . ., λ ∗m ist, so ändert sich der Minimal-/ Maximalwert f(x ∗1 , . . . , x ∗n ) näherungsweise um − m ∑ i=1 λ ∗i · h i , wenn die Nebenbedingungen von g i (x 1 , . . . , x n ) = 0 auf g i (x 1 , . . . , x n ) = h i abgeändert werden. Beispiel 7.50 (Fortsetzung von Beispiel 7.27 vgl. S. 253 ) Es sollen y Einheiten des Produktes kostenminimal hergestellt werden, d.h. zu minimieren ist k(x 1 , . . . , x n ) = p 1 x 1 + · · · + p n x n unter f(x 1 , . . . , x n ) = y. Für den Lagrange-Multiplikator des kritischen Punktes (x 1 , . . . , x n ) wurde der Ausdruck λ = −p i ∂ ∂x i f(x 1 , . . . , x n ) Ändert sich die Sollproduktion zu y + ∆ y , so ändern sich die minimalen Kosten näherungsweise zu k(x 1 , . . . , x n ) − λ∆ y = k(x 1 , . . . , x n ) + p i ∆ y ∂ ∂x i f(x 1 , . . . , x n ) 7.4.3 Ein Kostenproblem Neben der Angabe der Optimalwertänderung sollen in ökonomischen Fragestellungen oft auch die Änderungen der zugehörigen endogenen Variablen in Abhängigkeit von den exogenen Größen angegeben werden. Das wichtigste mathematische Hilfsmittel stellt dabei der schon früher angesprochene Satz über implizite Funktionen dar. Im Folgenden wird hierzu ein typisches Beispiel zur Kostenminimierung im Produktionskontext ausführlicher behandelt: Ein Gut werde unter Einsatz von Arbeit und Kapital erstellt. Dabei bezeichnen x 1 ≥ 0 den Arbeitseinsatz und w 1 > 0 (exogen) den Lohn je Einheit Arbeitseinsatz sowie x 2 ≥ 0 den Kapitaleinsatz und w 2 (exogen) den Kapital-Zinssatz. Weiter sei f(x 1 , x 2 ) ≥ 0 der Output dieses Gutes, y die (exogene) Soll-Produktion. Von der Produktionsfunktion soll nur angenommen werden, dass sie zweimal stetig partiell differenzierbar und in jeder Variable monoton steigend ist. Ihr Gradient und ihre Hesse-Matrix sollen mit ∇f = ( f 1 f 2 ) und H f = ( f 11 f 12 f 21 f 22 ) abgekürzt werden, wobei f 1 , f 2 , f 11 , . . . , f 22 Funktionen von Arbeitseinsatz und Kapitaleinsatz sind. Gefragt ist nun, wie sich die kostenminimale Produktion, d.h. x ∗ 1 , x ∗ 2 und K(x ∗ 1 , x ∗ 2 ) als Minimum des Problems K(x 1 , x 2 ) = w 1 x 1 + w 2 x 2 ! = min x 1 ,x 2 ≥0 unter f(x 1 , x 2 ) − y = 0 bei einer Änderung <?page no="281"?> 7.4 Komparative Statik 281 von Lohnkosten w 1 bzw. Zins w 2 bzw. Soll-Produktion y verändert. Es handelt sich hierbei um eine typische Fragestellung der Volkswirtschaftslehre; das Problem ist - mangels weiterer Informationen - sehr unvollständig formuliert. Man kann z.B. nicht davon ausgehen, dass die Produktionsfunktion eine Cobb-Douglas-Funktion ist. Die Frage nach der Änderung der endogenen Variablen ist also losgelöst vom spezifischen Typ der Produktionsfunktion zumindest qualitativ zu beantworten, wobei Lohn, Kapitalzins und Soll-Produktion als exogene Variablen interpretiert werden müssen. Konkrete Werte dieser Größen sind nicht bekannt; vielmehr würden sie eine vollständige „What-If“-Analyse des Modells verhindern. Darüber hinaus sucht man nach qualitativen Aussagen hinsichtlich der Änderung der endogenen Variablen, wenn beispielsweise die Produktionsfunktion zwar bekannt, aber das Lagrange-Gleichungssystem weder explizit noch numerisch zu lösen ist. Allerdings ist auch für grundsätzliche Betrachtungen das Lagrange-Gleichungssystem zunächst aufzustellen und eine Bezeichnung der Optimallösungen vorzunehmen. In unserem Beispiel lauten die Lagrange- Gleichungen (FOC) w 1 + λf 1 (x 1 , x 2 ) = 0 und w 2 + λf 2 (x 1 , x 2 ) = 0. Durch Gleichsetzen ergibt sich w 2 f 1 (x 1 , x 2 ) − w 1 f 2 (x 1 , x 2 ) = 0. Angenommen, es lassen sich Lösungen x ∗ 1 = x ∗ 1 (w 1 , w 2 , y), x ∗ 2 = x ∗ 2 (w 1 , w 2 , y) des Gleichungssystems h 1 (x 1 , x 2 , w 1 , w 2 , y) : = w 2 f 1 (x 1 , x 2 ) − w 1 f 2 (x 1 , x 2 ) = 0 h 2 (x 1 , x 2 , w 1 , w 2 , y) : = f(x 1 , x 2 ) − y = 0 finden. Dann lautet der zugehörige Lagrange-Multiplikator λ ∗ = − w i / f i (x ∗ 1 , x ∗ 2 ) < 0 und die Gesamtkosten betragen K(x ∗ 1 , x ∗ 2 ) = w 1 x ∗ 1 (w 1 , w 2 , y) + w 2 x ∗ 2 (w 1 , w 2 , y). Wie verändern sich nun die endogenen Variablen bei Änderung der exogenen Variable w 1 („Stundenlohn“)? Es gilt das Gleichungssystem h 1 (x ∗ 1 , x ∗ 2 , w 1 , w 2 , y) : = w 2 f 1 (x ∗ 1 , x ∗ 2 ) − w 1 f 2 (x ∗ 1 , x ∗ 2 ) = 0 h 2 (x ∗ 1 , x ∗ 2 , w 1 , w 2 , y) : = f(x ∗ 1 , x ∗ 2 ) − y = 0 Mit der Kettenregel vgl. Satz 6.6, S. 195 ergibt sich 0 = ∂h 1 (x ∗ 1 , x ∗ 2 , w 1 , w 2 , y) ∂w 1 = ∂h 1 ∂x 1 ∂x ∗ 1 ∂w 1 + ∂h 1 ∂x 2 ∂x ∗ 2 ∂w 1 + ∂h 1 ∂w 1 0 = ∂h 2 (x ∗ 1 , x ∗ 2 , w 1 , w 2 , y) ∂w 1 = ∂h 2 ∂x 1 ∂x ∗ 1 ∂w 1 + ∂h 2 ∂x 2 ∂x ∗ 2 ∂w 1 + ∂h 2 ∂w 1 d.h. in Matrix-Schreibweise ∂h ∂x · ∂x ∗ ∂w 1 = − ∂h ∂w 1 , wobei ∂h ∂x = ( ∂h 1 ∂x 1 ∂h 1 ∂x 2 ∂h 2 ∂x 1 ∂h 2 ∂x 2 ) = ( w 2 f 11 − w 1 f 21 w 2 f 12 − w 1 f 22 f 1 f 2 ) ∂x ∗ ∂w 1 = ( ∂x ∗ 1 ∂w 1 ∂x ∗ 2 ∂w 1 ) , ∂h ∂w 1 = ( ∂h 1 ∂w 1 ∂h 2 ∂w 1 ) = ( f 2 0 ) Mit der Cramer-Regel 4.13 vgl. S. 123 erhält man (falls ∂h ∂x invertierbar ist) ∂x ∗ 1 (w 1 , w 2 , y) ∂w 1 = − ∂h 1 ∂w 1 ∂h 2 ∂x 2 − ∂h 1 ∂x 2 ∂h 2 ∂w 1 det ∂h ∂x = f 2 2 det ∂h ∂x ∂x ∗ 2 (w 1 , w 2 , y) ∂w 1 = − ∂h 1 ∂x 1 ∂h 2 ∂w 1 − ∂h 2 ∂x 1 ∂h 1 ∂w 1 det ∂h ∂x = − f 1 f 2 det ∂h ∂x <?page no="282"?> 282 7 Optimierungsaufgaben Dabei ist der Nenner wegen w i = − λ ∗ f i und für invertierbares ∂h ∂x det ∂h ∂x = (w 2 f 11 − w 1 f 21 ) f 2 − (w 2 f 12 − w 1 f 22 ) f 1 = ( − λ ∗ ) ((f 2 f 11 − f 1 f 21 ) f 2 − (f 2 f 12 − f 1 f 22 ) f 1 ) = − 〈 ( f 2 − f 1 ) , λ ∗ ( f 11 f 12 f 21 f 22 )( f 2 − f 1 ) 〉 < 0 Denn wenn tatsächlich ein Kostenminimum vorliegt, so ist die Matrix H L,λ ∗ (x ∗ 1 , x ∗ 2 ) = H K (x ∗ 1 , x ∗ 2 ) + λ ∗ H f (x ∗ 1 , x ∗ 2 ) = λ ∗ H f (x ∗ 1 , x ∗ 2 ) positiv semidefinit auf allen senkrecht zu ∇ f = (f 1 , f 2 ) T stehenden Richtungen [ Luenberger , 2003, S. 306]. Insgesamt folgt: ∂x ∗ 1 (w 1 , w 2 , y) ∂w 1 = f 2 2 / det ∂h ∂x < 0, ∂x ∗ 2 (w 1 , w 2 , y) ∂w 1 = − f 1 f 2 / det ∂h ∂x > 0 Also gilt in sehr allgemeinem Zusammenhang, dass bei Erhöhung der Lohnkosten Arbeit durch Kapital substituiert werden sollte, um die Kosten minimal zu halten. Das gilt umgekehrt auch bei Erhöhung der Kapitalzinsen. 7.4.4 Das Theorem impliziter Funktionen Im vorangegangenen Abschnitt wurden die interessierenden ökonomischen Größen - in diesem Fall die endogenen Optimalwerte - durch implizite Gleichungen festgelegt und ihre Änderungsraten mittels Kettenregel explizit gemacht. Das allgemeine technische Hilfsmittel bei solchen Rechnungen ist der Satz über implizite Funktionen, dessen Grundidee bereits bei der Bestimmung von Substitutionsgrenzraten ausgenutzt wurde. An dieser Stelle soll das zentrale Ergebnis noch einmal dargestellt werden. Hierzu benötigen wir das schon früher angesprochene Konzept der Jacobi- Matrix: einer differenzierbaren vektorwertigen Funktion f : D → R m mit D ⊆ R n , f = (f 1 , . . . , f m ) T , (d.h. die R -wertigen Funktionen f 1 , . . . , f m sind differenzierbar) der Variablen x 1 , . . . , x n . Es sei x B = (x i 1 , . . . , x i k ) T eine Auswahl von k verschiedenen dieser Variablen und ∂f ∂x B die Jacobi-Matrix ∂f ∂x B : = ⎛ ⎜ ⎜ ⎝ ∂f 1 ∂x i 1 · · · ∂f 1 ∂x ik ... ... ∂f m ∂x i 1 · · · ∂f m ∂x i k ⎞ ⎟ ⎟ ⎠ Satz 7.19 (Theorem impliziter Funktionen - Teil 1) Es sei f = (f 1 , . . . , f m ) : D ⊆ R n → R m eine differenzierbare vektorwertige Funktion von x ∈ R m , α = (α 1 , . . . , α n − m ) ∈ R n − m . Weiter g = (g 1 , . . . , g m ) : E ⊆R m → R m eine differenzierbare Funktion derart, dass ∀ i ∈ { 1, . . . , m } gilt f i (g 1 (α 1 , . . . , α n − m ), . . . , g m (α 1 , . . . , α n − m ), α 1 , . . . , α n − m ) = 0 Dann gilt: ∂f ∂α = − ∂f ∂x ∣ ∣ x=g(α) · ∂g ∂α Falls ∂f ∂x in x = g(α) invertierbar ist , so folgt: ∂g ∂α = − ( ∂f ∂x ∣ ∣ x=g(α) ) − 1 · ∂f ∂α . <?page no="283"?> 7.4 Komparative Statik 283 Grob gesagt möchte man also in einem nichtlinearen Gleichungssystem f 1 (x 1 , . . . , x m , α 1 , . . . , α n − m ) = 0, . . . ,f m (x 1 , . . . , x m , α 1 , . . . , α n − m ) = 0 die Werte x 1 , . . . , x m als von den übrigen Werten α 1 , . . . , α n − m abhängig darstellen. Von den explizierenden Funktionen x ∗ i (α) = g i (α) lassen sich mit dem implizten Funktionentheorem die partiellen Ableitungen berechnen. Es handelt sich bei der Aussage ∂f ∂α = − ∂f ∂x ∣ ∣ x = g ( α ) · ∂g ∂α um eine Folgerung aus der Kettenregel [2] vgl. Satz 6.6, S. 195 . Die Jacobi-Matrix ∂g ∂α ist eine Verallgemeinerung der Substitutionsgrenzrate. Zur Sicherstellung der (lokalen) Existenz impliziter Funktionen g i muss f differenzierbar sein, eine spezielle Lösung x ∗ 1 , . . . , x ∗ m , α ∗ 1 , . . . , α ∗ n − m existieren und die Jacobi-Matrix ∂f ∂x ∣ ∣ x = x ∗ invertierbar sein (Theorem impliziter Funktionen - Teil 2). Übungen zu Abschnitt 7.4 ? 21. Bestimmen Sie die Optimalwertänderung V ′ (1) in den Problemvarianten: a) xy ! = max x,y ∈R unter x 2 + y 2 = 1. Lösung: x = √ 1/ 2, y = 1/ 2, λ = − 1/ 2 a1) xy a ! = max x,y ∈R a2) x 2 + y 2 = a + 1. b) x 2 + y 2 ! = min x,y ≥ 0 unter x + y = 1. Lösung: x = 1/ 2, y = 1/ 2, λ = − 1 b1) x 2+ a + y 2+ a ! = min x,y ≥ 0 b2) ax + y = 1. b3) x 2+ a + y 2+ a ! = min x,y ≥ 0 , ax + y = 1. c) ln(xyz) ! = max x,y,z> 0 unter x+2y +2z = 1. Lösung: x = 1 3 , y = 1 6 , z = 1 6 , λ = − 3 c1) ln((xyz) a ) ! = max x,y,z> 0 c2) x + 2y + (1 + a)z = 1. 22. In der Weihnachts-Manufaktur am Nordpol spielen neuerdings auch Herstellungskosten eine Rolle. Bei der Fertigung von Spielzeug-Rentierschlitten mit den Produktionsfaktoren „Rentier-Wolle“ x ≥ 0 „Pythagorasbaum-Holz“ y ≥ 0 ( vgl. S. 161 ) mit z ≥ 0 „Heinzelmännchen-Montagestunden“ sollen die variablen Kosten k(x, y, z) = 2x + 4y 2 + 8z 1200 HEuro (himmlische Euro) nicht überschreiten. Die Ausbringung f(x, y, z) = 4 √ 0, 81 · xy 2 z soll maximal sein. a) Berechnen Sie optimale Einsatzmengen und maximale Ausbringung. b) Um wie viel erhöht sich die maximale Ausbringung, wenn 50 HEuro mehr für die Fertigung bereit stehen? c) Die Heinzelmännchen-Gewerkschaft setzt eine Lohnerhöhung auf 8, 5 HEuro/ h durch. Wie verändert sich jetzt die maximale Ausbringung näherungsweise (bei maximal 1200 HEuro Gesamtkosten)? d) Weil sich die Rentiere beim Scheren sträuben, muss man von der Kostenfunktion k(x, y, z) = 2x 1 , 1 + 4y 2 + 8z ausgehen. Wie verändert sich jetzt die maximale Ausbringung (bei maximal 1200 HEuro Gesamtkosten)? e) Wie ändert sich die maximale Ausbringung, wenn die Änderungen der Teilaufgaben b), c) und d) gleichzeitig eintreten? (c) bis e) mit Envelope-Theorem) <?page no="284"?> 284 7 Optimierungsaufgaben Zusammenfassung Nichtlineare Optimierungsprobleme der Ökonomie lassen sich prinzipiell mit Methoden der Differentialrechnung lösen. Notwendig für ein lokales Extremum ist die Gradientengleichung ∇ f(x) = ¯0, wenn keine Nebenbedingungen vorliegen, und ∇ f(x) + ∑ λ k ∇ g k (x) = ¯0, wenn Nebenbedingungen der Form g k (x) = / ≤ 0 vorliegen. Die Variable λ k heißt Lagrange-Multiplikator, ist im Falle einer Ungleichungsrestriktion vorzeichenbeschränkt und lässt sich allgemein als Schattenpreis der zugehörigen Restriktion interpretieren. Für jede Nebenbedingung in Ungleichungsform ist die Bedingung vom komplementären Schlupf zu prüfen, d.h. entweder ist diese Bedingung aktiv oder ihr zugeordneter Lagrange-Multiplikator ist gleich Null. Hinreichende Bedingungen für Extrema liegen etwa vor als leicht zu überprüfende Bedingungen in konvexen Optimierungsproblemen - leider nur bei Ungleichungsrestriktionen, Bedingungen für lokale Extrema unter Prüfung einer geeigneten Hesse-Matrix, Randwertvergleiche unter Verwendung des Satzes vom Maximum/ Minimum, der die Existenz des globalen Extremums sicherstellt. Unter Berücksichtigung exogener Parameter können sich die Zielwerte und Entscheidungsvariablen eines Optimierungsproblems in ihren Optimalwerten verändern. Die Untersuchung der zugehörigen Änderungsraten erfolgt mit dem Envelope-Theorem bzw. mit dem Satz über implizite Funktionen. Übungen zur Vertiefung von Kapitel 7 ? 23. Von einem Produkt werden h(x, y) = 2(x + y) Einheiten aus zwei Rohstoffen x, y > 0 hergestellt. Dabei fällt dabei ein Schadstoffin der Quantität f(x, y) = (4x + y − 86) 2 + (4x + 8y − 128) 2 + 1 an. a) Berechnen Sie Gradient und Hesse- Matrix von f und untersuchen Sie das Krümmungsverhalten von f. b) Berechnen Sie die die schadstoffminimale Produktion. c) 102 Einheiten des Hauptproduktes sollen bei minimaler Schadstoffmenge gefertigt werden. Berechnen Sie einen kritischen Punkt. d) Weshalb ist der Punkt aus c) Stelle optimal? e) Wie ändert sich die minimale Schadstoffausbringung näherungsweise bei Erhöhung der Ausbringung des Hauptproduktes um eine Einheit? <?page no="285"?> Übungsklausuren Jede Klausur ist für eine Bearbeitungszeit von 180 Minuten bzw. - bei Überspringen der mit einem Stern versehenden Aufgaben bzw. Aufgabenteile - 120 Minuten vorgesehen. Sofern nicht ausdrücklich ausgeschlossen, sollten Sie Ihre Antworten durch geeignete Rechenwege ausführen und Ergebnisse so weit wie möglich vereinfachen. Für Folgeaufgaben fehlende Zwischenergebnisse schlagen Sie bitte im Lösungsteil nach vgl. S. 303f. Klausur 1 1. Überführen Sie das folgende lineare Gleichungssystem in Zeilenstufenform und lesen Sie die zugehörige Basislösung und die Lösungsmenge ab: x 1 +3x 3 +x 5 = 8 2x 1 − x 2 +8x 3 +x 5 = 6 5x 1 − 2x 2 +19x 3 +x 4 +3x 5 = 24 2. Nachfolgend finden Sie Tableaus zu verschiedenen linearen Minimierungsproblemen. Bearbeiten Sie für jedes Tableau die folgende Liste von Aufträgen und führen Sie gegebenenfalls erforderliche Rechnungen dabei aus: [1] Liegt eine Basisform vor? Falls ja, bearbeiten Sie die nächsten drei Aufträge. [2] Geben Sie die zugehörige Basislösung an und vervollständigen Sie das Simplex- Tableau durch Angabe von δ-Werten und Zielwert zu dieser Basislösung. [3] Untersuchen Sie, ob das Simplex-Tableau bereits eine Optimallösung hat und ob das Optimierungsproblem überhaupt lösbar ist. Falls nötig, führen Sie den Wechsel zum nächsten Simplex-Tableau aus und geben Sie die zugehörige Basislösung an. [4] Beurteilen Sie begründet anhand des Ausgangstableaus und - falls zuvor berechnet - des nächsten Simplex-Tableaus die Lösbarkeit des Optimierungsproblems. a) 5 2 − 8 1 0 1 − 2 0 5 3 0 − 3 1 7 b) 3 0 2 4 − 1 0 − 1 5 2 6 1 0 5 3 c) 10 6 5 3 0 1 2 2 7 1 0 − 3 1 4 d) − 10 − 5 − 8 0 0 0 0 3 2 0 1 0 − 1/ 2 30 0 4 2 0 1 − 3 100 1 − 1 2 1 0 0 1/ 2 0 3. Für a ∈ R sei die Matrix H(a) gegeben als H(a) = ( a 1 2 1 a 0 2 0 a ) a) Für welche a ∈ R ist H(a) invertierbar? Wie lautet dann der Eintrag in der ersten Zeile, ersten Spalte von H(a) − 1 ? (Hinweis: Cramer’sche Regel.) <?page no="286"?> 286 Übungsklausuren ∗ b) Berechnen Sie die Eigenwerte von H(1) und untersuchen Sie die Matrix auf Definitheit. 4. Für die langfristige Lagerung von x ∈ ]0; 2[ Mengeneinheiten eines Gutes ergeben sich die durchschnittlichen Lagerhaltungskosten in der Form f(x) = 1 2x + 1 + x 2 + x 2 4 + x 3 8 + x 4 16 + x 5 32 + · · · a) Vereinfachen Sie f(x) und berechnen Sie f ′ (x) für x ∈ ]0; 2[. b) Untersuchen Sie das Krümmungsverhalten von f (Hinweis: Nutzen Sie ohne Nachweis aus, dass f ′′ (x) = 0 für alle x ∈ ]0; 2[.) c) Bestimmen Sie diejenige Lagermenge x ∈ ]0; 2[, für welche die durchschnittlichen Lagerhaltungskosten minimal sind. 5. Für ein Produkt, welches von zwei Herstellern A,B angeboten wird, besteht bei Hersteller A eine Nachfrage der Form f(x, y) = 100xy 2 x 3 +2 . Dabei sei x ≥ 0 der Preis des Anbieters A und y ≥ 0 der Preis des Anbieters B. a) Berechnen Sie den Gradienten von f. b) Berechnen Sie den Elastizitätsgradienten und im Falle x = 2, y = 2 die Summe der partiellen Elastizitäten. Wie ist dieser Wert zu interpretieren? ∗ c) Prüfen Sie, ob f auf [0; ∞ [ × [0; ∞ [ homogen ist, d.h. weisen Sie entweder die Homogenität nach oder begründen Sie anhand geeigneter Zahlenbeispiele, dass f nicht homogen sein kann. d) Derzeit vertreiben beide Hersteller das Produkt zum Preis von x = 2 bzw. von y = 2 mit einer Nachfrage von 80 Einheiten bei Hersteller A. Um wieviel muss sich näherungsweise der Preis x des Herstellers A ändern, damit eine Änderung des Preises y des Herstellers B um Δy Geldeinheiten zu keiner Nachfrageänderung bei Hersteller A führt? 6. Ein Produkt wird aus drei Rohstoffen, die in den Quantitäten x, y, z ≥ 0 vorliegen, hergestellt. Die Produktionsfunktion sei f(x, y, z) = x · y · z Die Herstellungsmenge soll maximiert werden unter den Nebenbedingungen x + 5y = 100 und 8y + z = 100. Diese geben die Anforderungen an die Soll-Mengen zweier Nebenprodukte an, die bei der Herstellung entstehen. a) Ermitteln Sie mit der Lagrange-Methode für die Herstellung die maximale Produktion unter den Nebenbedingungen. Weisen Sie dabei die Optimalität des kritischen Punktes mittels Randwertevergleich nach. ∗ b) Ermitteln Sie in der Problemstellung der vorangehenden Teilaufgabe die Lösung unter Verwendung der Substitutionsmethode. Welchen Vorteil hat die Lagrange- Methode gegenüber der Substitutionsmethode? c) Durch eine technische Veränderung des Produktionsprozesses kann der Output des Hauptproduktes von x · y · z zu x · (y + 2a) · z werden, wobei gleichzeitig die Nebenprodukte in den Quantitäten x + 5(y + 3a) und 8(y + a) + z anfallen. Es soll die maximal mögliche Produktion des Hauptproduktes marginal erhöht werden. Sollte hierzu a größer oder kleiner als Null sein? Argumentieren Sie mit dem Envelope-Theorem. <?page no="287"?> Klausur 2 287 Klausur 2 1. Die Brillurit-Farben-und-Lacke-GmbH stellt drei verschiedene Lacksorten L 1 , L 2 und L 3 mit Hilfe der drei Grundstoffe R 1 , R 2 und R 3 her. Dabei bestehen vier Kilogramm von L 1 aus je 1 Kilogramm R 1 und R 2 sowie 2 Kilogramm R 3 , und 6 Kilogramm L 2 setzen sich aus 2 Kilogramm R 1 und 4 Kilogramm R 3 zusammen. Schließlich werden 3 Kilogramm L 3 aus je 1 Kilogramm von R 1 , R 2 und R 3 gemischt. In den Verkauf gelangen das Endprodukt E 1 , welches mit der Lacksorte L 1 übereinstimmt, und das Endprodukt E 2 , eine Mischung der Lacksorten L 2 und L 3 im Verhältnis 2 : 3. a) Geben Sie die Verflechtungsmatrix A für die Zwischen-Produktion der drei Lacksorten aus den drei Grundstoffen und die Verflechtungsmatrix B für die Herstellung der beiden Endprodukte aus den drei Lacksorten. b) Berechnen Sie die Verflechtungsmatrix C für den Bedarf an den Grundstoffen R 1 , R 2 , R 3 auf Grundlage der Endprodukte E 1 , E 2 . ∗ c) Im Grundstoff-Lager befinden sich noch 3000 Kilogramm von R 1 , 2000 Kilogramm von R 2 und 4000 Kilogramm von R 3 . Für R 3 liegt gerade ein günstiges Angebot eines Zulieferers vor. Wieviel Kilogramm R 3 sollten bestellt werden, damit die dann insgesamt verfügbaren Grundstoffe vollständig in Endprodukte umgesetzt werden können? Wieviel Kilogramm der beiden Endprodukte werden dann hergestellt? ∗ 2. Lösen Sie mit dem Simplex-Algorithmus das folgende lineare Optimierungsproblem x 1 + 4x 2 + 2x 3 + x 4 − x 5 + x 6 + x 7 ! = max x 1 ,...,x 7 ≥ 0 − x 1 + x 2 − x 3 + 3x 5 + 7x 7 ≤ 7 − x 1 + 2x 2 + 2x 4 + x 6 + 3x 7 ≤ 3 2x 1 + x 2 + x 3 + x 4 − 6x 7 ≤ 10 Gehen Sie dabei wie folgt vor: a) Überführen Sie das Problem in die Standardform. b) Führen Sie (falls erforderlich) die Phase I und danach die Phase II aus. c) Geben Sie die Optimallösung für das Ausgangsproblem an. 3. Gegeben sei die Matrix A(t) = ( − 1 2 2t 0 2 0 t − 1 − 2 ) mit t ∈ R . ∗ a) Untersuchen Sie, für welche t ∈ R die Matrix A(t) invertierbar ist. b) Berechnen Sie einen Eigenvektor zum kleinsten Eigenwert von A(1). 4. Der Zeitschriftenmarkt für Schlangenliebhaber wird von zwei Printmedien bestimmt, den Zeitschriften Anakonda und Boah! Im Abonnemontbereich können Kunden vierteljährlich den Anbieter wechseln. Dabei hat man im vierten Quartal 2006 festgestellt, dass 1 4 der Anakonda-Abonnenten zu Boah! wechselten, während umgekehrt 1 3 der Boah! -Kunden des vierten Quartals 2006 Anfang Januar 2007 Anakonda bezogen. Die übrigen Abonnenten blieben ihrer Zeitschrift treu. Es wird angenommen, dass dieses Wechselverhalten auch in den folgenden Quartalen so bleibt. a) Bestimmen Sie die Matrix P der Quartals-Kundenwanderung. <?page no="288"?> 288 Übungsklausuren ∗ b) Bestimmen Sie die Matrix P n der n-Quartal-Kundenwanderung. Hinweis: Benutzen Sie dabei ohne besonderen Nachweis die Darstellungen P = ( 1 1 − 1 3 4 )( 5 12 0 0 1 )( 1 1 − 1 3 4 ) − 1 und ( 1 1 − 1 3 4 ) − 1 = ( 3 7 − 4 7 4 7 4 7 ) ∗ c) Anfang Januar 2007 beträgt der Marktanteil von Anakonda 25%. Wie hoch ist er nach n Quartalen? Nach wie vielen Quartalen übersteigt er erstmals die 50%-Marke? d) Kann Anakonda langfristig mindestens 60% Marktanteil erreichen? 5. Die Herstellungs-Stückkosten von x ∈ ]0; 10[ Einheiten eines Produktes betragen f(x) = x+1 ln(x+1) . a) Berechnen Sie f ′ (x) und f ′′ (x) b) Bestimmen Sie alle lokalen Extrema von f für x ∈ ]0; 10]. c) Berechnen Sie lim x → 0 f(x) und untersuchen Sie die lokalen Extrema aus Teil 5.b) darauf, ob sie globale Extrema sind. d) Untersuchen Sie das Krümmungsverhalten von f im Intervall ]0; 10]. 6. Gegeben sei die Nachfragefunktion f(x, y, z) = 3 √ yz 2 x 3 = y 1 3 z 2 3 x für die nachgefragte Menge eines Produktes P 1 mit dem Preis x > 0 bei gleichzeitiger Abhängigkeit von den Preisen y > 0 und z > 0 zweier Produkte P 2 und P 3 . a) Berechnen Sie die partiellen Ableitungen von f. b) Welchen Wert hat die Summe der partiellen Elastizitäten von f ? c) Derzeit liegen die Preise x = 2, y = 8, z = 8 vor. Der Preis von Produkt P 2 verringert sich um eine marginale Einheit. Um wieviel muss der Preis von P 1 verändert werden, damit die derzeitige Nachfrage gehalten wird. ∗ d) Die Hesse-Matrix von f lautet H f (x, y, z) = 1 f(x,y,z) ⎛ ⎜ ⎜ ⎝ 2 x 2 − 1 3xy − 2 3xz − 1 3xy − 2 9y 2 2 9yz − 2 3xz 2 9yz − 2 9z 2 ⎞ ⎟ ⎟ ⎠ . Untersuchen Sie, ob f konvex oder konkav ist. 7. Berechnen Sie mit der Lagrange-Methode alle Extrema der Funktion f(x, y) = xy − x 2 für x, y ≥ 0 unter der Nebenbedingung g(x, y) = x + y − 1 = 0. Berechnen Sie für jeden kritischen Punkt auch den zugehörigen Lagrange-Multiplikator und erläutern Sie dessen ökonomische Bedeutung. Führen Sie zur Klassifikation der Extrema einen geeigneten Randwertvergleich aus und erläutern Sie, weshalb hier der Satz vom Maximum/ Minimum zur Anwendung kommen kann. <?page no="289"?> Klausur 3 289 Klausur 3 1. In der zentralwestfälischen Metropole M. können Touristen mit drei Fahrrad-Droschken Stadtrundfahrten unternehmen. In den Osterferien 2007 wurde durch Befragung der Kunden folgendes tägliche Kundenwechselverhalten ermittelt: Von den Kunden des Fahrers A lässt sich am nächsten Tag die Hälfte nochmals chauffieren, 1 3 wechseln zu B und 1 6 zu C, einem ehemaligen Profi-Radrennfahrer; letzterer zieht alle Kunden des Fahrers B jeweils am nächsten Tag zu sich. Kunden von C bevorzugen aber - von dessen rasanter Fahrweise negativ beeindruckt - am Folgetag zu 3 5 Fahrer A und zu 2 5 Fahrer B. a) Bestimmen Sie die Übergangsmatrix A für das Kundenwechselverhalten. b) Berechnen Sie A 2 . Interpretieren Sie A 2 im Kontext der Aufgabe. ∗ c) Prüfen Sie, ob A invertierbar ist. ∗ d) Berechnen Sie, welche Aufteilung des Marktes sich nach einem Tag nicht verändert (das so genannte Marktgleichgewicht) ∗ e) Berechnen Sie die Eigenwerte von A und interpretieren Sie zwei von ihnen. Geben Sie zu mindestens einem Eigenwert auch einen Eigenvektor an. f) Berechnen Sie, welche Eigenschaften die drei Kundenanteile a, b, c eines Tages haben müssen, damit sie durch einen Marktübergang entstehen können. Wie sieht in diesem Fall die Marktaufteilung des Vortages aus? 2. Ein Unternehmen produziert zwei Güter G 1 , G 2 . Hierzu hat es Zugriffauf vier Fabriken, die gemeinsam beide Güter nach den in der folgenden Tabelle gegebenen Mengen pro Stunde produzieren: Fabrik 1 Fabrik 2 Fabrik 3 Fabrik 4 Gut G 1 10 20 20 15 Gut G 2 20 10 20 15 (d.h. z.B., Fabrik 1 fertigt in einer Betriebsstunde 10 Einheiten G 1 und 20 Einheiten G 2 ). Das Unternehmen erhält einen Auftrag für 400 Einheiten von G 1 und 500 Einheiten von G 2 . Die Betriebskosten pro Stunde für die Fabriken 1, 2, 3 bzw. 4 sind 10000, 8000, 12000 bzw. 8000 Geldeinheiten. a) Formulieren Sie die Aufgabe „Minimierung der gesamten Betriebskosten zur Erfüllung des Auftrags“ als lineares Optimierungsproblem (d.h. geben Sie insbesondere Entscheidungsvariablen, Zielfunktion und Nebenbedingungen an! ) b) Lösen Sie die Aufgabe „Minimierung der gesamten Betriebskosten zur Erfüllung des Auftrags“ mit Hilfe der Zweiphasenmethode. ∗ c) In der kostenoptimalen Lösung arbeiten Fabrik 1 insgesamt 10 Stunden und Fabrik 4 insgesamt 20 Stunden, die übrigen Fabriken arbeiten nicht. Berechnen Sie, wie hoch die Kosten je Betriebsstunde in Fabrik 4 - ceteris paribus - höchstens sein dürfen, damit diese Lösung optimal bleibt. 3. ∗ a) Untersuchen Sie die Folge mit den Gliedern a n = a4 n +b3 n 3 n +c in Abhängigkeit von den Parametern a, b, c ≥ 0 auf Konvergenz. Berechnen Sie im Falle der Konvergenz auch den Grenzwert. b) Die Tantiemen aus der ersten Auflage eines Buches stellen sich in den ersten vier Jahren wie folgt dar: 675 e , 450 e , 300 e , 200 e . Erstellen Sie ein geometrisches Bildungsgesetz, das die Zahlen sinnvoll fortsetzt und berechnen Sie die gesamten ausgezahlen Tantiemen bei i) einer 10-jährigen Laufzeit der ersten Auflage, ii) einer unbegrenzten Laufzeit der ersten Auflage. <?page no="290"?> 290 Übungsklausuren 4. Für die Zufahrt zu einer 5 Meter tief gelegenen Tiefgarage soll eine Rampe der Länge > 0 derart angeschüttet werden, dass das Längsprofil der Rampe durch eine Funktion maximal dritten Grades, d.h. f(x) = ax 3 + bx 2 + cx + d beschrieben wird und beim Auffahren auf die Rampe und beim Verlassen der Rampe die Fahrzeug-Stoßdämpfer möglichst wenig belastet werden. a) Leiten Sie aus diesen Anforderungen die Funktion f(x) her. Wie lang ist die Rampe bei einem maximalen Gefälle von 25% mindestens? b) Wie viel Kubikmeter Füllmaterial werden benötigt, um die Rampe mit 5 Meter Breite zu erstellen? 5. Zwei Güter werden gemeinsam in den Quantitäten x > 0, y > 0 mit den durchschnittlichen Produktionskosten f(x, y) = (x − 1 2 y) 2 +x+y x+y hergestellt. a) Berechnen Sie den Gradient von f(x, y). ∗ b) Ist die Funktion h(x, y) = f(x, y) − 1 linear homogen? c) Die Hesse-Matrix von f lautet H f (x, y) = ( 9 2 y 2 (x+y) 3 − 9 2 x y (x+y) 3 − 9 2 x y (x+y) 3 9 2 x 2 (x+y) 3 ) . Untersuchen Sie damit, ob f konvex oder konkav ist. d) Berechnen Sie alle Produktionsquantitäten x, y, für welche die durchschnittlichen Produktionskosten minimal sind. 6. Bei der Herstellung eines Gutes an drei verschiedenen Standorten wird ein Produktionsfaktor in den jeweiligen Quantitäten x, y, z > 0 eingesetzt. Die Gesamtkosten für den Einsatz des Produktionsfaktors belaufen sich auf f(x, y, z) = x + 2y + 3z und sollen möglichst gering sein. Die Gesamtproduktion beträgt √ x+ √ y + √ z und soll in der laufenden Produktionsperiode 11 Einheiten betragen. a) Bestimmen Sie zunächst mit der Lagrange-Methode alle kritischen Punkte für das Optimierungsproblem f(x, y, z) ! = min unter g(x, y, z) = 11 − √ x − √ y − √ z = 0, wobei x > 0, y > 0, z > 0 (d.h. an allen drei Produktionsstandorten wird auch gefertigt) b) Überprüfen Sie, dass für das Optimierungsproblem f(x, y, z) ! = min x,y,z>0 unter g(x, y, z) = 11 − √ x − √ y − √ z ≤ 0 die Voraussetzungen des Satzes von Kuhn-Tucker erfüllt sind. Schließen Sie nunmehr auf die Optimalität eines der kritischen Punkte, die Sie unter 6.a) berechnet haben ∗ c) Stellen Sie die in 6.a) und 6.b) berechnete Lösung denjenigen gegenüber, die sich ergeben, wenn wenigstens einer der Standorte nicht mehr produziert. Hinweis: Aus Zeitgründen genügt es, wenn Sie nur einen der hier eigentlich zu prüfenden drei Fälle mit zwei strikt positiven Variablen nachrechnen und dabei lediglich nach einem kritischen Punkt suchen. d) Durch Variation eines Produktionsparameters a ∈ R lässt sich die Gesamtproduktion nunmehr in der Form g a (x, y, z) = x 1 2 +a + y 1 2 +a + z 1 2 +a gestalten. Weiterhin sollen 11 Einheiten produziert werden. Sollte der Parameter a marginal vergrößert oder verkleinert werden, um die laufenden minimalen Gesamtkosten zu verringern? <?page no="291"?> Kontrollergebnisse zu den Übungsaufgaben Ausführliche Lösungen zu allen Übungsaufgaben finden Sie im Web-Service: uvk-lucius.de/ terveer Kapitel 1 1. a) a 0 + 2a 1 = 4, a 0 + 3a 1 = 0 b) a 0 + 2a 1 + 4a 2 = 4, a 0 + 3a 1 + 9a 2 = 0, a 0 + 4a 1 + 16a 2 = −6 c) a 0 = 5, a 1 + 6a 2 = 1, a 0 + 5a 1 + 25a 2 = 0 d) a 0 + 4a 1 + 16a 2 + 64a 3 = 0, a 1 + 8a 2 + 48a 3 = 4, 2a 2 + 24a 3 = 0, a 0 = 16 2. 1 5 x 1 + 1 5 x 2 + 3 5 x 3 = y 1 , 2 5 x 2 + 2 5 x 3 = y 2 3. x 1 + 2x 2 + 2x 3 = 300, 2x 1 + x 4 + x 5 = 200, x 2 + x 4 + x 6 = 200, x 3 + x 5 + x 6 = 200 4. a) − 2 5 x 1 + 1 4 x 3 = 0, 1 5 x 1 − 2 5 x 2 + 1 4 x 3 = 0, 1 5 x 1 + 2 5 x 2 − 1 2 x 3 = 0, x 1 + x 2 + x 3 = 820 b) x 1 = 200, x 2 = 300, x 3 = 320 5. a) x = 1 11 , y = 37 11 b) x = − 1 2 , y = 1 2 c) keine Lösung d) x = 3, y = −7, z = −5 e) x = 2b−2, y = 2−b f) Für a = b = − 1 2 gibt es unendlich viele Lösungen x = b−ay. Für a = 1 2 6= b gibt es keine Lösung. Für a 6= 1 2 ist die Lösung x = b−a 2a+1 , y = 2b+1 2a+1 6. Es muss gelten ad − bc 6= 0. 7. Die Lösungsmenge besteht aus allen (x 1 , x 2 , x 3 , x 4 , x 5 ) mit x 1 = 2 + x 4 , x 2 = −2 − 2x 4 ,x 3 = −3 − 2x 4 + x 5 wobei x 4 ∈ R , x 5 ∈ R 8. a) f(x) = 12 − 4x b) f(x) = 6 + x − x 2 c) f(x) = 5 − 11x + 2x 2 d) f(x) = 16 − 20x + 6x 2 − x 3 / 2 9. a) x = − 3 4 − 1 2 y für t = − 3 2 b) unlösbar für t = −2. Anderenfalls x = −3+t 2 2(2+t) , y = 3+2t 2+t . 10. Das Einsetzungsverfahren entspricht einem geeigneten Additionsschritt. Löst man z.B. die erste Gleichung nach x auf und substituiert dies in die zweite Gleichung, so ergibt sich die Gleichung −12y + 26z = 6. Das selbe Ergebnis bekommt man durch die Zeilenumformung II → II − 3I. 11. a) maximal für x 1 = 5 2 , x 2 = 0, minimal für x 1 = 0, x 2 = 5 4 b) für t = 0 minimal/ maximal für jede Wahl von x 1 , x 2 . Für t > 0 minimal für x 1 = 3 4 , x 2 = 0, ein Maximum gibt es nicht (Zielwert nach oben unbeschränkt). Für t < 0 minimal für x 1 = 0, x 2 = − 3 t und maximal für x 1 = 3 4 , x 2 = 0 c) minimal für x 1 = 7 9 , x 2 = 8 9 , x 3 = 0, maximal für x 1 = 3 5 , x 2 = 0, x 3 = 8 5 . d) minimal für x 1 = 7 9 , x 2 = 8 9 , x 3 = 0, ein Maximum gibt es nicht, die Zielfunktion ist nach oben unbeschränkt. e) das LGS hat keine Lösung mit x i ≥ 0, es gibt daher auch keine Lösung des Optimierungsproblems. f) minimal für x 1 = 2, x 2 = 0, x 3 = 1, x 4 = 0, maximal für x 1 = 5, x 2 = 2, x 3 = 0, x 4 = 3. <?page no="292"?> Kontrollergebnisse zu den Übungsaufgaben 12. Eine Lösung ist x 1 = x 3 = x 4 = 0, x 2 = 100, x 5 = 30. 13. Spezielle Lösung auf Grundlage der ZSF: x 1 = 360, x 2 = 1080, x 3 = 600, x 4 = x 5 = x 6 = 0 mit 2040 Rollen Bedarf. Verwendet man z.B. Schnittmuster 5 bis zu 360 mal, dann verringert sich der Rollenbedarf auf 1920. Die spezielle Lösung ist noch nicht optimal. 14. x 1 = − 5a + 3b + 4c, x 2 = 10a − 5b − 7c, x 3 = 4a − 2b − 3c 15. a) x A = 100 − x E , x B , x C = 100, x D = 50 − 2x E , x E ∈ { 0, . . . , 25 } . b) Der höchste Umsatz wird mit 75 Starter-Sets (A), 450 Starter-Sets (B), 100 Ergänzungs- Sets (C), 0 Ergänzungssets D und 25 XXL-Sets (E) erzielt. Kapitel 2 1. 200x A + 200x B + 400x C ! = max unter x B + x C ≤ 100 2x A + x B + x C ≤ 120 2x A + x B ≤ 120 x A ≥ 0, x B ≥ 0, x C ≥ 0 2. 600x I + 900x II + 1350x III ! = min unter unter x I + x II + x III ≥ 12 x II + 2x III ≥ 10 2x I + x II + x III ≥ 16 x I ≥ 0, x II ≥ 0, x III ≥ 0 3. 10x 1 + 10x 2 + 20x 3 + 40x 4 ! = min unter 2x 1 − 4x 2 + 3x 3 + x 4 − x 5 = 200 2x 2 − 2x 3 + 4x 4 − x 6 = 100 − x 1 + x 2 + x 7 = 100 x 1 + x 2 + 2x 4 = 150 x 1 , x 2 , x 3 , x 4 , x 5 , x 6 , x 7 ≥ 0 4. Zu Aufgabe „Maschinenbelegung“: − 200x A − 200x B − 400x C ! = min unter x B + x C + x I = 100 2x A + x B + x C + x II = 120 2x A + x B + x III = 120 x A ≥ 0, x B ≥ 0, x C ≥ 0, x I ≥ 0, x II ≥ 0, x III ≥ 0 Die Schlupfvariablen geben an, wieviele Stunden die entsprechende Maschine bereitsteht, aber nicht genutzt wird. Zu Aufgabe „Lastwagenplanung“: 600x I +900x II +1350x III ! = min unter x I + x II + x III − x A = 12 x II + 2x III − x B = 10 2x I + x II + x III − x C = 16 x I ≥ 0, x II ≥ 0, x III ≥ 0, x A ≥ 0, x B ≥ 0, x C ≥ 0 Die Schlupfvariablen geben an, um wieviel das mindestens zur Lieferung der Maschinen der Typen A,B,C benötigte Ladevolumen (in Anzahlen der Maschinen) überschritten wird (entspricht dem während der Fahrten nicht genutzten Ladevolumen). <?page no="293"?> Kapitel 2 293 5. Gleichungsmatrix: ⎛ ⎝ 2 − 1 0 − 1 13 0 − 3 − 1 − 10 12 − 2 1 2 3 7 ⎞ ⎠ Allgemeine Lösung (daraus Basislösung mit x 4 = 0): x 4 ∈ R beliebige reelle Zahl x 1 = 17 6 − x 4 x 2 = − 22 3 − 3x 4 x 3 = 10 − x 4 Basisformen sind ⎛ ⎝ 1 0 0 1 17 6 0 1 0 3 − 22 3 0 0 1 1 10 ⎞ ⎠ , ⎛ ⎝ 1 0 − 1 0 − 43 6 0 1 − 3 0 − 112 3 0 0 1 1 10 ⎞ ⎠ , ⎛ ⎝ 1 − 1 3 0 0 95 18 0 1 3 0 1 − 22 9 0 − 1 3 1 0 112 9 ⎞ ⎠ ⎛ ⎝ 1 0 0 1 17 6 − 3 1 0 0 − 95 6 − 1 0 1 0 43 6 ⎞ ⎠ 6. Basisform zulässig? Zielwert ⎛ ⎝ − 1 1 0 − 2 − 1 0 200 1 0 1 1 1 0 200 1 0 0 − 1 1 1 600 ⎞ ⎠ ja 27000 ⎛ ⎝ 0 1 1 − 1 0 0 400 1 0 1 1 1 0 200 0 0 − 1 − 2 0 1 400 ⎞ ⎠ ja 20000 ⎛ ⎝ 0 1 1 − 1 0 0 400 1 0 1 1 1 0 200 0 0 − 1 − 2 0 1 400 ⎞ ⎠ ja 20000 ⎛ ⎝ 1 1 2 0 1 0 600 1 0 1 1 1 0 200 2 0 1 0 2 1 800 ⎞ ⎠ ja 37000 ⎛ ⎝ 1 − 1 0 2 1 0 − 200 0 1 1 − 1 0 0 400 0 1 0 − 3 0 1 800 ⎞ ⎠ nein 7. Der maximale Deckungsbeitrag von 12000 Euro wird mit 20 Regalen Bill1, 70 Regalen Bill2 und 10 Regalen Bill4 erzielt. 8. x 1 = 0, x 2 = 3 2 , x 3 = 0, x 4 = 0, x 5 = 7 2 , x 6 = 1 9. Das Problem hat keine Lösung, die Zielfunktion ist nach unten unbeschränkt. 10. Optimallösung: 10 Stück des Gutes A und 100 Stü ck des Gutes C werden hergestellt. Die Betriebsstunden der Maschine III werden dabei nicht voll ausgenutzt, sie wird nur 20 Stunden benötigt. 11. Lösung: x 1 = 150, x 2 = x 3 = x 4 = 0 mit dem Zielwert 1500 12. Es gibt keine Startlösung für Phase 2, das Problem ist unlösbar. 13. Zur Minimierung der Fahrkosten sollten 4 LKW vom Typ I, 6 LKW vom Typ II und 2 LKW vom Typ III eingesetzt werden. Die Transportflächen der LKW sind voll ausgelastet. Die minimalen Transportkosten belaufen sich auf 10500 e . <?page no="294"?> Kontrollergebnisse zu den Übungsaufgaben 14.Von 1920 Rollen der Breite 95cm werden 1440 nach Schnittmuster 1, 120 nach Schnittmuster 3 und 360 nach Schnittmuster 5 zerschnitten. 15. Ergebnisse: a) x 1 = 20, x 2 = 0, x 3 = 0, x 4 = 10, Zielwert 20 b) Das Problem hat keine Lösung. c) Problem ist unlösbar, Zielfunktion nach unten unbeschränkt. d) x 1 = 100, x 2 = 400, x 3 = 300, x 4 = 0, Zielwert 800. e) Das Ausgangsproblem hat keine Lösung. f) x 1 = 0, x 2 = 500, x 3 = 125, x 4 = 25, Zielwert − 1725 g) x 1 = 0, x 2 = 400, x 3 = 125, x 4 = 25, x 5 = 0, Zielwert − 1325. h) x 1 = 275, x 2 = 0, x 3 = 0, x 4 = 0, x 5 = 25, x 6 = 125, Zielwert 4250. 16. Nur die erste und vierte Zielfunktion passen zum Tableau. Das Folgetableau lautet 1 2 3 4 5 6 x 6 0 − 3 2 2 1 2 0 1 2 5 0 1 2 2 − 1 2 1 0 4 1 1 1 2 0 − 1 2 0 0 2 0 − 5 2 0 − 5 2 0 0 8 17. In Anlage 1 sollten 10 Mio e , in Anlage 2 sollten 20 Mio e investiert werden. Anlage 3 sollte nicht gewählt werden. Die Rendite beträgt 2 Mio e . 18. a) Die Anforderungen an die Scheinproduktionen lauten Nebenbedingung an gefertigte Werte Mindestwert 5 und 10 Duro 5(x 1 + 1) + 10(x 2 + 1) 30 10 und 20 Duro 10(x 2 + 1) + 20(x 3 + 1) 50 20 und 50 Duro 20(x 3 + 1) + 50(x 4 + 1) 200 was durch Auflösen die drei Ungleichungen der Aufgabenstellung ergibt. b) x 1 + 5x 2 + 5x 3 + 10x 4 ! = min 5x 1 + 10x 2 − x 5 = 15 10x 2 + 20x 3 − x 6 = 20 20x 3 + 50x 4 − x 7 = 130 x 1 , x 2 , x 3 , x 4 , x 5 , x 6 , x 7 ≥ 0 c) Folgetableau: 1 5 5 10 0 0 0 x 1 1 2 0 0 − 1 5 0 0 3 3 0 1 2 1 0 0 − 1 20 0 1 4 0 − 1 5 0 1 0 1 50 − 1 50 11 5 0 − 5 2 0 0 − 1 5 − 1 20 − 1 5 30 d) Gesamtherstellung von 4 Mio 5-Duro-Noten, 1 Mio 10-Duro-Noten, 2 Mio 20-Duro- Noten und 3, 2 Mio 50-Duro-Noten. <?page no="295"?> Kapitel 3 295 19. A B C D E 1 Vorgaben nach Quell-Soll 2 von 7 6 5 42 3 5 4 6 18 4 Ziel-Soll 15 25 20 5 Lösung nach Quell-Ist 6 von 0 7 von 0 8 Ziel-Ist 0 0 0 0 mit folgenden Formeln: E6=B6+C6+D , entsprechend E7 B8=B6+B7 , entsprechend C8 und D8 E8=B2*B6+C2*C6+D2*D6+B3*B7+C3*C7+D3*D7 Solver starten und wie folgt konfigurieren: Zielzelle: E8 und Zielwert-Minimum Veränderbare Zellen: B6: D7 Nebenbedingungen: B6: B7=B2: B3 und C8: D8=C4: D4 Optionen: Variable Zellen nicht negativ Kapitel 3 1. a) ( 3 5 ) b) ( 1 1 ) c) nicht möglich d) (3, 5) e) (1, 1) f) nicht möglich g) nicht möglich h) ( 2 2 ) i) ( 9 15 ) j) ⎛ ⎝ 5 10 15 ⎞ ⎠ k) nicht möglich l) ⎛ ⎝ 9α 1 14α 1 19α 1 ⎞ ⎠ 2. 12, 03 e 3. a) ja für t = 0, nein für alle anderen t b) ja für t 2 < 1, nein für alle anderen t c) nein d) nein e) ja 4. Benötigt werden die Faktorregel (mit f ist auch αf differenzierbar) und die Summenregel (mit f, g ist auch f + g differenzierbar). 5. a) α 1 = − 11, α 2 = 7 b) Es gibt keine LK für t = 12. Anderenfalls α 1 = − t − 12+ t , α 2 = − 9+ t − 12+ t c) α 1 = − 1, α 2 = − 2, α 3 = 2 d) allgemeine Lösung: α 1 = − 1 − 4α 4 , α 2 = − 2 − 19 α 4 2 , α 3 = 2 + 7 α 4 3 6. a) 3 16 b) − 17/ 6 − (5t)/ 12 7. a) − 6x 1 + x 2 + 4x 3 = 0 b) 9x 1 − 13x 2 + x 3 = 0, − 7x 1 + 10x 2 + x 4 8. a) l.u. b) l.a. c) l.a. für t ∈ { 3 − √ 7, 3 + √ 7 } , sonst l.u. 9. a) Aus α 1 sa (1) +α 2 ta (2) = ¯0 folgt α 1 s = α 2 t = 0 b) Aus α 1 a (1) +α 2 (a (1) +a (2) ) = ¯0 folgt α 1 +α 2 = α 2 = 0. c) Aus α 1 a (1) +α 2 (sa (1) +ta (2) ) = ¯0 folgt α 1 +sα 2 = tα 2 = 0. <?page no="296"?> Kontrollergebnisse zu den Übungsaufgaben 10. a) ( 1 2 ) , ( 2 1 ) b) ⎛ ⎝ 3 0 1 ⎞ ⎠ , ⎛ ⎝ 2 1 − 2 ⎞ ⎠ , ⎛ ⎝ 1 5 4 ⎞ ⎠ c) für t = − 2 ⎛ ⎝ 3 0 − 1 ⎞ ⎠ , ⎛ ⎝ 2 1 t ⎞ ⎠ , ⎛ ⎝ 1 5 4 ⎞ ⎠ , für alle anderen t ⎛ ⎝ 3 0 − 1 ⎞ ⎠ , ⎛ ⎝ 2 1 t ⎞ ⎠ , ⎛ ⎝ 1 − 1 1 ⎞ ⎠ , 11. a) ( − 1, 2, 1) T b) ( − t, t, 1) T c) ( − 2, − 1, − 2, 1, 0, 0) T und ( − 1, − 3, − 4, 0, − 1, 1) T 12. A = ⎛ ⎝ 1 0 1/ 3 − 2 0 0 1 7/ 3 6 0 0 0 0 0 1 ⎞ ⎠ 13. a) x 1 − x 2 + 2x 3 = 0 b) x 1 − 3x 2 + 2x 4 = 0, − (3x 2 / 2) + x 3 + x 4 = 0 14. Zwei Geraden stehen genau dann senkrecht aufeinander, wenn für alle Punkte (x | y) auf der einen und (˜ x | ˜ y) auf der anderen Gerade gilt 〈 (x | y) − (x 0 | y 0 ), (˜ x | ˜ y) − (x 0 | y 0 ) 〉 = 0. Vereinfachen Sie diesen Term und führen ihn auf m 1 m 2 zurück. 15. a) für n = 5 mindestens 34, höchstens 55; für n = 6 mindestens 56, höchstens 91 b) mindestens n ( n +1)( n +2) 6 , höchstens n ( n +1)(2 n +1) 6 16. a) cos(φ) = 4 5 , also φ ≈ 0, 644 (im Bogenmaß), b) cos(φ) = 1/ √ 21, φ ≈ 1, 35 17. für t = − 1 und t = − 1 5 18. Wenden Sie Satz 3.11 vgl. S. 87 auf b ( j ) = 1 ‖ a ( j ) ‖ a ( j ) , j = 1, . . . , n, an. 19. a) z ∗ = ( − 3/ 5, − 3, − 6/ 5) T b) z ∗ = ( − 4, 1, 3, 5) T c) z ∗ = ( − 4 − 3t, − 2 − t, 3t) T 20. Die Normalgleichung lautet α ‖ a ‖ 2 = 〈 a, x 〉 21. a) Projektion von (2, 60 | 1, 80 | 2, 70 | 1, 70 | 1, 80) T auf den UVR L ⊂ R 5 , der von den Vektoren (1 | 1 | 1 | 1 | 1), (3 | 2 | 1 | 1 | 2), (2 | 1 | 0 | 1 | 1)) aufgespannt wird (ohne Berücksichtigung einer Pauschale den Erzeugenden-Vektor (1 | 1 | 1 | 1 | 1) weglassen) b) Für die Variablen p (Preis), x B (kg Bananen) x O (kg Orangen) erhält man die Gleichung p = 0, 93 + 0, 43x B + 0, 16x O (Koeffizienten gerundet). Ohne Pauschale lautet die Gleichung p = 0, 66x B + 0, 47x O c) Hubert sollte sich sich mit Pauschale auf 1,52 ägyptische Pfund und ohne Pauschale auf 1,12 ägyptische Pfund einstellen. 22. Die Normalgleichungen sind auf Seite 97 in Matrixform angegeben. Man teile die erste und die zweite Gleichung durch n und subtrahiere das ¯ x-fache der zweiten Gleichung von der ersten. Die erste Gleichung enthält dann nur noch eine Variable. Wenn man nach dieser auflöst, erhält man die Formel für die Steigung der Regressionsgerade. Die Formel für den Achsenabschnitt ist durch Auflösen der zweiten Gleichung gegeben. 23. a) Man projiziere y = (88, 95, 70, . . . , 34, 33) T ∈ R 10 auf den UVR des R 10 , der von (1, 1, . . . , 1) T , (2, 2, 18, . . . , 39, 33) T und (2 2 , 2 2 , 18 2 , . . . , 39 2 , 33 2 ) T aufgespannt wird. Lösung ist y = 102.492 − 4.606x + 0.070x 2 b) Die nach oben geöffnete Parabel hat ihren Scheitelpunkt etwa in x = 32.76 und ist rechts davon monoton wachsend. Im Preismodell, das auf der Datengrundlage berechnet wurde, ergibt sich also ab einem gewissen Alter wieder ein steigender Wert (Oldtimer-Effekt). 24. Man berechne die Projektion z ∗ von x auf L = Span(a (1) , . . . , a ( m ) ). Falls x ∈ L , so gilt z ∗ = x. Kapitel 4 1. a) ( 33 − 16 ) b) ( − st 2s 2 − t 2 ) c) ( n(n + 1)/ 2 n(n + 1)(n + 2)/ 6 ) <?page no="297"?> Kapitel 4 297 2. a) A = ⎛ ⎝ 0 0 1 0 1 0 1 0 0 ⎞ ⎠ b) A = ⎛ ⎝ 1 0 0 0 t 0 0 0 1 ⎞ ⎠ c) A = ⎛ ⎝ 1 0 0 0 1 0 t 0 1 ⎞ ⎠ 3. a) A = ( 1 − 1 1 1 ) b) es gibt keine solche Matrix. (L1.) und (L2.) gemäß Satz 4.1 vgl. S. 104 sind verletzt. c) es gibt keine solche Matrix. (L1.) ist verletzt, zudem ist f für x 3 = 0 nicht definiert. 4. a) ( 14 − 32 − 32 77 ) , ⎛ ⎝ 17 − 22 27 − 22 29 − 36 27 − 36 45 ⎞ ⎠ , n. def., ⎛ ⎝ − 7 − 1 − 10 8 − 1 11 − 9 3 − 12 ⎞ ⎠ , ( 1 − 1 9 − 21 ) , n. def., ( 1 − 4 9 − 4 10 − 18 ) , ⎛ ⎝ 1 − 4 − 4 10 9 − 18 ⎞ ⎠ , ( 7 − 10 25 − 52 ) b) ( − 7, 8, − 9) T , − 33, 39, 194, x 2 + 2y 2 + 3z 2 5. a) ⎛ ⎝ 2 6 4 8 2 6 3 3 4 2 1 0 ⎞ ⎠ , ⎛ ⎝ 1 3 2 4 10 10 5 3 4 2 1 0 ⎞ ⎠ , b) ⎛ ⎝ 1 3 2 4 4 2 1 0 2 6 3 3 ⎞ ⎠ , ⎛ ⎝ 2 6 4 8 8 14 7 6 2 6 3 3 ⎞ ⎠ , c) Durch Matrixmultiplikation mit diesen so genannten Elementarmatrizen kann man elementare Zeilenumformungen darstellen. 6. a) C = ( 14 14 3 10 ) . b) Einkaufskosten 37 für P 1 und 58 für P 2 . c) Es werden 210 bzw. 80 Stück der Bauteile benötigt. 7. a) 1 6 ⎛ ⎝ − 3 6 − 3 18 − 30 6 − 13 22 − 3 ⎞ ⎠ b) nicht invertierbar c) 1 40 ⎛ ⎝ − 5 5 5 11 − 3 5 − 3 19 − 5 ⎞ ⎠ d) 1 3 ⎛ ⎜ ⎝ 1 1 1 − 2 1 1 − 2 1 1 − 2 1 1 − 2 1 1 1 ⎞ ⎟ ⎠ 8. a) 10A = ⎛ ⎝ 10 20 0 20 60 30 0 30 50 ⎞ ⎠ , A+B = ⎛ ⎝ 3 2 0 2 9 3 0 3 10 ⎞ ⎠ , A 2 = ⎛ ⎝ 5 14 6 14 49 33 6 33 34 ⎞ ⎠ , AB = ⎛ ⎝ 2 6 0 4 18 15 0 9 25 ⎞ ⎠ , A − 1 = ⎛ ⎝ 21 − 10 6 − 10 5 − 3 6 − 3 2 ⎞ ⎠ . Ökonomisch interpretieren lassen sich 10A, AB und A − 1 . b) C = (AB) − 1 9. a = − 3 4 , b = 3 4 10. a) − 19, b) 0, c) 7, d) 16, e) − 2t + 2t 2 f) 8a 3 b 11. ( 1 − a 1 − a 2 − a 3 − a 4 x 1 x 2 x 3 x 4 ) · ( a 1 a 2 a 3 a 4 x 1 x 2 x 3 x 4 ) 12. Es gibt keine solche Matrix, ihre Determinante müsste ein Vielfaches von 28 sein. 13. a) ( − 5 2 , 5 2 ) T , b) ( − 5 2 , 5 2 , 0) T , c) ( t 2 , ( t − 1) 2 , t 2 ) T 14. a) λ 1 , 2 = 2 ± √ 5 b) λ 1 = 1 ∨ λ 2 , 3 = 3 2 ± 1 2 √ 5 c) λ 1 = 3 ∨ λ 2 = − 1 15. a) λ = 4 bzw. λ = 5 b) x = (6, − 2) T bzw. x = (9, − 6, − 9) T c) x = (1, 2, − 2) T , λ = 3 d) Hier gibt es viele Lösungen, z.B. A = 1 9 xx T = ⎛ ⎝ 1/ 9 2/ 9 − 2/ 9 2/ 9 4/ 9 − 4/ 9 − 2/ 9 − 4/ 9 4/ 9 ⎞ ⎠ <?page no="298"?> Kontrollergebnisse zu den Übungsaufgaben 16. Die Matrix hat zwei Eigenwerte für t ∈ ] − 1, 1 3 [, einen Eigenwert für t ∈ {− 1, 1 3 } und keinen Eigenwert für alle anderen t. 17. Die Eigenwerte sind λ 1 , 2 = (a + c)/ 2 ± √ (a − c) 2 / 4 + b 2 . 18. ( 29525 29524 29524 29525 ) (möglichst mit Hauptachsentransformation zu bestimmen). 19. a) A : = 1 100 ⎛ ⎜ ⎝ 80 20 15 10 65 5 10 15 80 ⎞ ⎟ ⎠ b) ⎛ ⎝ 45, 75% 25, 25% 29, 00% ⎞ ⎠ c) ⎛ ⎝ 46, 00% 22, 44 31, 56% ⎞ ⎠ d) ⎛ ⎝ 5 11 2 11 4 11 ⎞ ⎠ 20. a) A = ⎛ ⎝ 3 10 1 10 1 10 1 5 2 5 2 5 1 5 2 5 2 5 ⎞ ⎠ b) z.B. ⎛ ⎝ 100 0 0 ⎞ ⎠ , ⎛ ⎝ 0 200 0 ⎞ ⎠ , ⎛ ⎝ 0 0 200 ⎞ ⎠ , ⎛ ⎝ 200 450 240 ⎞ ⎠ Kapitel 5 1. a) arithmetrische Folge, a n = 5 4 n, monoton wachsend; nach unten beschränkt. b) geometrische Folge, b n = 27 8 · ( 2 3 ) n , monoton fallend; nach oben beschränkt. c) geometrische Folge, c n = ( − 1) n − 1 · ( 4 5 ) n , nicht monoton; nach oben und nach unten beschränkt. 2. a 1 = 200, q = 0, 8, a 5 = 81, 92 oder a 1 = − 200, q = − 0, 8, a 5 = − 81, 92 3. a n = 8n + 1, a 5 = 41, s 4 = 84 (bei Start mit a 1 ) bzw. s 4 = 85 (bei Start mit a 0 = 1). 4. Der Anfangswert betrug 62500 e . Jährlich wurden 12300 e linear abgeschrieben. 5. y n = ( 3 2 ) n 6. p n = 2 − ( 1 2 ) n 7. a) konvergent mit Grenzwert t/ (t − 1) für t = 1, divergent für t = 1. b) Nullfolge für 0 < t < 2, konvergent mit Grenzwert 1 5 für t = 2, divergent für t > 2 c) divergent für t ≥ 1, Nullfolge für 0 < t < 1. Für letzteres imitiere man die Rechnung aus Beispiel 5.9 vgl. S. 147 und behalte bei der Abschätzung von der binomischen Summe einen Summanden mehr. 8. a) Hinweis: addieren Sie jeweils auf beiden Seiten der Ungleichung √ n und quadrieren Sie die Ungleichung danach. b) Erweitern Sie den Ausdruck ähnlich wie in Beispiel 5.13 vgl. S. 149 . c) Klammern Sie √ n aus. 9. 1 2 + 1 2 √ 5 10. a) im Jahr 2036 b) bis zum Jahr 2050. 11. Speziell: a n = 2 3 (1 − ( − 1 2 ) n ) → 2 3 . Allgemein: a n = a + 2 3 (b − a)(1 − ( − 1 2 ) n ) → a + 2 3 (b − a) 12. a) 1/ (x − 1) für | x | > 1 b) x √ x/ ( √ x − 1) für x > 1 c) x 2 / (1 − x 2 ) für | x | < 1 d) 1 + 1/ x für x > 0 oder x < − 2 13. a) Etwa 149, 16 cm b) 200 cm 14. a) f ′ (x) = − sin(x), b) f ′ (x) = 1/ (1 + x), c) f ′ (x) = 1/ (1 + x 2 ) <?page no="299"?> Kapitel 6 299 15. Implizite Funktionsgleichung f(x) = x + 1 2 x 2 f(x) + 1 2 xf(x). Explizite Funktionsgleichung f(x) = x (1 − 1 2 x 2 − 1 2 x ) = ∑ ∞ n =0 ( 2 3 − 2 3 ( − 1 2 ) n ) x n 16. a) p 1 = 0, p 2 = 4, p 3 = 4/ 5, p 4 = 84/ 25 b) p n = 20 9 + 25 9 · ( − 4 5 ) n c) Grenzwert 20 9 17. K n = K 0 q n + qr q n − 1 q − 1 18. a) r ≈ 2915, 91 b) r ≈ 721, 55 c) r ≈ 239, 97 19. a) p ≈ 3, 54 b) K 0 ≈ 10001, 55 20. a) K 0 ≈ 215532, 21 b) K 0 ≈ 428571, 42 21. I = 250643, 14 Kapitel 6 1. a) D i schraffiert von links nach rechts: D 1 mit t = 1, 2, 0, − 1, D 2 mit t = 1, 2, 0, − 1: 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 b) Kreis: D 1 mit t = 1; Ellipse: D 1 mit t = 1 und t = 2; Polytop: D 1 mit t = 0 und D 2 . c) konvex sind D 1 mit t = 1, 2, 0 und D 2 . 2. a) f ist Polynom und auch quadratische Funktion. Für c = 0 ist f quadratische Form. Für a = b = 0 ist f lineare Funktion. b) f ist quadratische Funktion (Bruch kürzen! ) c) Beide Versionen sind für t = 0 lineare bzw. konstante Funktion, für andere Werte von t ist f jeweils kein Polynom. 3. a) 10, f ist stetig b) 0, f ist stetig c) Für t = 0: 1 2 , f ist stetig; für t = 0 existiert der Grenzwert nicht. f ist in (0, 0) T nicht definiert und kann auch nicht stetig dorthin fortgesetzt werden. 4. a) N g (c) = N f (c/ 2) b) N h (c) entsteht aus N f (c) durch eine Vertikalverschiebung um 1 Einheit nach unten. N u (c) entsteht aus N f (c) durch eine Verschiebung von 1 Einheit nach unten und 1 Einheit nach rechts. 5. Wenden Sie die Regel von L’Hospital auf den logarithmierten CES-Term an. 6. a) Die Iso-Quanten sind rechts dargestellt. b) Der Ertrag wird dadurch begrenzt, dass einer der Produktionsfaktoren nicht in ausreichender Quantität zur Verfügung steht (limitationale Funktion). c) f ist positiv homogen vom Grad r. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 7. a) homogen vom Grad 2 b) nicht homogen c) positiv homogen vom Grad 0 d) nicht homogen e) positiv homogen vom Grad 2 f) positiv homogen vom Grad − 2. 8. a) y und x b) − y/ x 2 und − 1 c) 1 d) x y − 1 y und x y ln(x) 9. a) 1 √ 1+2 x 2 − 3 y 2 (4x, − 6y) T b) (e x − y 2 + cos(x + y) − √ 1 + y 2 , − 2ye x − y 2 + cos(x + y) − xy √ 1+ y 2 ) T <?page no="300"?> Kontrollergebnisse zu den Übungsaufgaben c) (ln y z , x y , − x z ) T d) (y + z + yz x +ln(xyz)(y + z), x + xz y + z +ln(xyz)(x + z), xy z + x + y +ln(xyz)(x + y)) T e) x y z ( y z x − 1 , 1 z ln(x), − y z 2 ln(x)) T 10. ( − 28p + 3q + 2396, − 6q + 3p + 1197) T 11. a) Die Aussage ist falsch für f(x, y) = xy b) Ersetze „unabhängig von x“ durch „konstant in allen Variablen“. 12. g(x, y) = 8x + 6y − 8 13. a) Dg(x, y) = p(x 2 + y 2 ) p − 1 (2x, 2y) T b) Für p > 1/ 2 ist g in (0, 0) T total differenzierbar mit Dg(0, 0) = (0, 0) T . Für p ≤ 1/ 2 ist g nicht total differenzierbar in (0, 0) T . c) Dg(x 1 , . . . , x n ) = 2p(x 2 1 + · · · + x 2 n ) p − 1 (x 1 , . . . , x n ) T . g ist für p > 1/ 2 auf R n und für p ≤ 1/ 2 auf R n \ { 0 } total differenzierbar. 14. h(t) = − t 15. Es müssen für beide Faktoren je 25 Geldeinheiten aufgewendet werden. 16. a) ε f, 1 (x 1 , x 2 ) = − α, b) ε f, 2 (x 1 , x 2 ) = βx 2 17. a) ε f (100, 10) = (7/ 4, 1/ 2) T b) etwa 1, 75 Prozent. c) etwa 1, 5 Prozent. d) etwa 2, 25 Prozent. 18. a) der Produzent muß den Einsatz des ersten Faktors um etwa 7 5 Tonnen erhöhen. b) Nein, diese Aussage gilt nur bei „marginalen“ Änderungen. 19. SEL(y | x) = 7/ 3 20. positiv definit, indefinit, negativ definit, negativ definit, indefinit 21. Die Matrix ist positiv definit für 0 < a < 1 22. a) H f (x, y) = ( − 1 x 2 0 0 − 1 y 2 ) , f ist konkav. b) H f (x, y, z) = ⎛ ⎝ 1 0 0 0 − 18y 0 0 0 36z 2 ⎞ ⎠ . f ist weder konkav noch konvex. c) H f (x, y, z) = ⎛ ⎜ ⎝ 12 x 2 yz − 4 x 3 y 2 z − 4 x 3 yz 2 − 4 x 3 y 2 z 2 x 4 y 3 z x 4 y 2 z 2 − 4 x 3 yz 2 x 4 y 2 z 2 2 x 4 yz 3 ⎞ ⎟ ⎠ . f ist konvex. d) H f (x, y, z) = e xyz ⎛ ⎝ y 2 z 2 1 + xyz 1 + xyz 1 + xyz x 2 z 2 1 + xyz 1 + xyz 1 + xyz x 2 y 2 ⎞ ⎠ . f ist weder konkav noch konvex. 23. a) 2π(r − 1) b) 14 3 c) 25 6 d) π 2 + 4 e) π 2 / 2 24. 4/ 15 25. a) ∇ f(x, y, z) = ( − y 2 z ( x + y ) 2 , y 2 +2 xy z ( x + y ) 2 , − y 2 z 2 ( x + y ) ) T b) H f (x, y) = 2 z ( x + y ) 3 [ y 2 − xy − xy x 2 ] c) f ist homogen vom Grad 0. ε f (x, y, z) = ( − x x + y , y +2 x x + y , − 1) T . Summe der partiellen Elastizitäten ist 0. d) g ist konvex. Kapitel 7 1. a) globales Maximum bei (0, 0), g ist konkav. b) keine Extrema, h ist weder konkav noch konvex c) keine Extrema. Funktion ist weder konkav noch konvex <?page no="301"?> Kapitel 7 301 2. lokales (nicht globales) Minimum in (1, 0) T , Sattelpunkt in (1, − 2/ 3) 3. Jeweils in (0, 0) T liegt ein kritischer Punkt vor. a) globales Minimum b) globales aber nicht isoliert liegendes Minimum c) kein lokales Extremum 4. a) G(x, y) = cx α y β − ax − by b) x 0 = α + β− 1 √ a αc ( αb aβ ) β , y 0 = α + β− 1 √ b βc ( aβ αb ) α c) H G (x, y) = cx α y β [ α(α − 1)/ x 2 αβ/ (xy) αβ/ (xy) β(β − 1)/ y 2 ] . G ist konkav und hat daher im kritischen Punkt ein globales Maximum. 5. a) x 1 = 2 3 x 0 − 1 3 , y 1 = 0 b) x 1 = 4 x 3 0 6 x 2 0 − 1 , y 1 = − 4 x 3 0 6 x 2 0 − 1 6. a) ± (2, 2) T b) (t, − 2t) T c) ± (t, − 2t) T . 7. x = y = 1 8. (1, − 2, 1) T und ( − 1, 2, − 1) T 9. x j = α j α 1 + ··· + α n . Hinweis: Mit logarithmierter Zielfunktion ist das Ableiten leichter. 10. x = 5 9 , y = 1 18 , z = 7 18 11. a) Sattelpunkt in (0, 0) T b) ± (1/ √ 10, 3/ √ 10) T und ± (3/ √ 10, − 1/ √ 10) T 12. x = 60, y = 180 13. a) x = 8, y = 2 b) x = 10, y = 5 14. (0, 0, 0) T , (1, 1, 1) T , ( − 1, − 1, 1) T . Bei den auch noch in Frage kommenden Punkten ( − 1, 1, − 1) T und (1, − 1, − 1) T passt das Vorzeichen des Lagrange-Multiplikators nicht. 15. a) positiv definit b) negativ definit c) positiv definit für t > − 99/ 25, positiv(negativ) semidefinit für t = − 99/ 25, negativ definit sonst d) positiv definit e) negativ definit f) positiv definit 16. Aufgabe 6: erstes Problem: in ± (2, 2) T jeweils lokales Minimum; zweites Problem: in (t, 2t) T lokales Minimum; drittes Problem: in (t, − 2t) T lokales Maximum; in ( − t, 2t) T lokales Minimum; Aufgabe 7: in (1, 1) T lokales Maximum; Aufgabe 8: in ( − 1, 2, − 1) T lokales Minimum, in (1, − 2, 1) T lokales Maximum Aufgabe 10: in (5/ 9, 1/ 18, 7/ 18) T lokales Minimum. 17. x = bc/ (a(b + 1)), y = ac/ (b(a + 1)). Randwertvergleich mit x = 0, y = c/ b bzw. y = 0, x = c/ a 18. Kritischer Punkt (2/ 5, 3/ 10) T . Vergleich mit Randpunkten (x, 0), und (0, y) ergibt Randmaxima (1/ 2, 0) T und (0, 1/ 2) mit kleineren Zielwert. Also liegt im kritischen Punkt ein globales Maximum vor. 19. Aufgabe 7: erstes Optimierungsproblem; globales Minimum in beiden kritischen Punkten; zweites Optimierungsproblem: globales Minimum im kritischen Punkt; drittes Optimierungsproblem: globales Minimum in ( − t, 2t) T , globales Maximum in (t, − 2t). Aufgabe 7: globales Maximum im kritischen Punkt Aufgabe 8: globales Minimum in ( − 1, 2, − 1) T und globales Maximum in (1, − 2, 1) T Aufgabe 9: globales Maximum im kritischen Punkt. Aufgabe 10: globales Minimum im kritischen Punkt. <?page no="302"?> Kontrollergebnisse zu den Übungsaufgaben 20. Aufgabe 12: − G ist konvex, NB ist linear, also konvex, Slater-Bedingung z.B. mit (1, 1) T erfüllt. Der kritische Punkt ist nach dem Satz von Kuhn-Tucker Stelle eines globalen Minimums. Aufgabe 13: Voraussetzungen des Satzes von Kuhn-Tucker sind erfüllt (k ist konvex, g linear, also konvex,Slater-Bedingung z.B. mit (1, 1) T ). In beiden Teilaufgaben ist der kritische Punkt globale Minimalstelle. 21. a) i) − 0, 17329, ii) 1/ 2 b) i) − 0, 17329, ii) − 1/ 2, iii) − 0, 67329 c) i) − 4682131, ii) − 5, 182131 22. a) x = 200, y = 10, z = 50. Ausbringung 30 Mengeneinheiten. b) Mit dem Lagrange-Multiplikator λ = − 3/ 160 beträgt die Erhöhung etwa 0, 9375 Mengeneinheiten. c) Die maximale Ausbringung verringert sich um etwa 0, 46875 Mengeneinheiten. d) Die maximale Ausbringung verringert sich um etwa 3, 97 Mengeneinheiten. e) Die maximale Ausbringung verringert sich um etwa 3, 5 Mengeneinheiten. 23. a) ∇ f(x, y) = (64x + 72y − 1712, 72x + 130y − 2220) T , H f (x, y) = ( 64 72 72 130 ) , f ist konvex. b) x = 20, y = 6 c) x = 49, y = 2, λ = − 784 d) Betrachten Sie die Nebenbedingung zunächst als geeignete Ungleichung und prüfen Sie die Voraussetzungen des Satzes von Kuhn-Tucker. e) Erhöhung um näherungsweise 784 Einheiten. <?page no="303"?> Kontrollergebnisse zu den Übungsklausuren Klausur 1 1. Zeilenstufenform: ( 1 0 3 0 1 8 0 1 − 2 0 1 10 0 0 0 1 0 4 ) , spezielle Lösung: (8, 10, 0, 4, 0) T , allgemeine Lösung: alle (x 1 , . . . , x 5 ) T ∈ R 5 mit x 1 = 8 − 3x 3 − x 5 , x 2 = 10+2x 3 − x 5 , x 4 = 4. 2. Basisformen nur in a),c),d). a) kein Engpass zu Spalte 1, unlösbar; c) mit einem Basiswechsel optimale Lösung x 1 = 1 2 , x 2 = 0, x 3 = 0, x 4 = 7 2 mit Zielwert 31 2 ermittelt; d) mit einem Basiswechsel optimale Lösung x 1 = 10, x 2 = 20, x 3 = 0, x 4 = 0, x 5 = 20, x 6 = 0 mit Optimalwert − 200. 3. a) H(a) invertierbar ⇔ a / ∈ { 0, ± √ 5 } . Der Eintrag lautet a a 2 − 5 . b) Eigenwerte: 1, 1 + √ 5, 1 − √ 5. Die Matrix ist indefinit. 4. a) f(x) = 1 2x − 2 x − 2 = 2+3x 4x − x 2 , f ′ (x) = 1 2x 2 + 2 (x − 2) 2 = 3x 2 +4x − 4 2x 4 − 8x 3 +8x 2 b) f ist auf ]0; 2[ konvex. c) f hat in x = 2 3 ein globales Minimum. 5. a) ∇ f(x, y) = ( 200y 2 − 200x 3 y (x 3 +2) 2 , 200xy x 3 +2 ) T b) ε f (x, y) = ( 2 − 2x 2 x 3 +2 , 2). Summe ist 3 5 . c) f ist nicht homogen. d) Die Änderung muss näherungsweise 10 7 Δy sein. 6. a) x = 75, y = 5, z = 60, λ = − 300, μ = − 375. b) x = 75, y = 5, z = 60, ohne Lagrange-Multiplikatoren (Schattenpreise! ). c) Marginale Optimalwertänderung ist 1500. a sollte größer als Null sein. Klausur 2 1. a) A = ( 1 4 1 3 1 3 1 4 0 1 3 1 2 2 3 1 3 ) , B = ( 1 0 0 2 5 0 3 5 ) . b) C = ( 1 4 1 3 1 4 1 5 1 2 7 15 ) c) 500 Kilogramm R 3 , 2000 Kilogramm E 1 , 7500 Kilogramm E 2 . 2. Standardform: Minimiere − x 1 − 4x 2 − 2x 3 − x 4 + x 5 − x 6 − x 7 unter − x 1 + x 2 − x 3 + 3x 5 + 7x 7 + x 8 = 7, − x 1 + 2x 2 + 2x 4 + x 6 + 3x 7 + x 9 = 3, 2x 1 + x 2 + x 3 + x 4 − 6x 7 + x 10 = 10 und x i ≥ 0. Phase 1 ist nicht erforderlich. Optimal ist x 1 = 12, x 2 = 0, x 3 = 16, x 4 = 0, x 5 = 0, x 6 = 0, x 7 = 5. 3. a) A(t) ist invertierbar für t / ∈ {− 1, 1 } b) Kleinster Eigenwert: λ = − 3. Eigenvektor dazu ist z.B. (1, 0, − 1) T 4. a) P = ( 3 4 1 3 1 4 2 3 ) . b) P n = ( 3 7 ( 5 12 ) n + 4 7 ( − 4 7 ) ( 5 12 ) n + 4 7 ( − 3 7 ) ( 5 12 ) n + 3 7 4 7 ( 5 12 ) n + 3 7 ) . c) a n = − 9 28 ( 5 12 ) n + 4 7 , übersteigt 50% nach zwei Quartalen. d) Langfristig können nur 4 7 Marktanteil , d.h. ca 57, 1% erreicht werden. 5. a) f ′ (x) = ln(x+1) − 1 (ln(x+1)) 2 , f ′′ (x) = 2 − ln(x+1) (x+1)(ln(x+1)) 3 b) Lokales Minimum für x = e − 1, lokales Randmaximum für x = 10. <?page no="304"?> 304 Kontrollergebnisse zu den Übungsklausuren c) Globales Minimum für x = e − 1, globales Maximum für x = 10. d) f ist in [0, e 2 − 1] konvex und in [e 2 − 1, 10] konkav. 6. a) ∇ f(x, y, z) = ( − y 1 3 z 2 3 x 2 , 1 3 y − 2 3 z 2 3 x , 2 3 y 1 3 z − 1 3 x ) T . b) Die Summe hat den Wert Null. c) Der Preis muss um 1 12 marginale Einheiten geändert werden. d) f ist weder konvex noch konkav. 7. x = 1 4 , y = 3 4 , λ = − 1 4 (Schattenpreis! ). Randvergleich mit (1, 0) T und (0, 1) T . Klausur 3 1. a) A = ( 1 2 0 3 5 1 3 0 2 5 1 6 1 0 ) ; b) A 2 = ( 7 20 3 5 3 10 7 30 2 5 1 5 5 12 0 1 2 ) (2- Tages-Übergangsmatrix) c) A ist nicht invertierbar; d)Fahrer A: 2 5 , Fahrer B: 4 15 , Fahrer C: 1 3 ; e) − 1 2 , 0 (A nicht invertierbar) und 1 (Marktgleichgewicht ist Eigenvektor); f) Genau für b = 2 3 a und c = 1 − 5 3 a mit 0 ≤ a ≤ 3 5 ist dies möglich. Mögliche Vortagsmarktanteile sind 2a − 6 5 z, a − 2a+ 1 5 z und z ∈ [max(0, 10a − 5), 5 3 a]. 2. a) Standardform: Minimiere 10000x 1 + 8000x 2 + 12000x 3 + 8000x 4 unter 0x 1 + 20x 2 + 20x 3 + 15x 4 − x 5 = 400, 20x 1 + 10x 2 +20x 3 +15x 4 − x 6 = 500 und x i ≥ 0. b) Phase 1 und Phase 2 müssen durchgeführt werden. Optimal: Fabrik 1 arbeitet insgesamt 10 Stunden, Fabrik 4 arbeitet insgesamt 20 Stunden, alle anderen Fabriken arbeiten nicht. c) Die Kosten in Fabrik 4 dürfen höchstens 9000 Geldeinheiten betragen. 3. a) konvergent für a = 0 (Grenzwert b), divergent sonst. b) a n = 650 · ( 2 3 ) n . ∑ 9 n=0 a n ≈ 1916, 2 und ∑ ∞ n=0 a n = 1950. 4. a) f(x) = 10 3 x 3 − 15 2 x 2 + 5. Mindestlänge = 30 Meter. b) Volumen allgemein 25 2 . Bei = 30 sind das 375 Kubikmeter. 5. a) ∇ f(x, y) = ( (x − 1 2 y) ( x+ 5 2 y ) (x+y) 2 , (x − 1 2 y)( − 2x − 1 2 y) (x+y) 2 ) T b) h ist linear homogen. c) f ist konvex. d) globales Minimum für y = 2x. 6. a) x = 36, y = 9, z = 4, λ = 12 mit Zielwert (ZW) 66 b) Insbesondere Slater-Bedingung z.B.: g(121, 1, 1) < 0 c) (0, 1089 25 , 484 25 ) T hat ZW 145, 2. ( 1089 16 , 0, 121 16 ) T hat ZW 90, 75. ( 1936 25 , 484 25 , 0) T hat ZW 116, 1¯6. (0, 0, 121) T hat ZW 363. (0, 121, 0) T hat ZW 242. (121, 0, 0) hat ZW 121. d) a sollte marginal verkleinert werden. <?page no="305"?> Abbildungen 1.1 Gozintograph des Regal-Verpackungsproblems . . . . . . . . . . . . . . . . . . 17 1.2 Lösungsgerade einer linearen Gleichung in zwei Unbekannten . . . . . . . . . 20 1.3 Lösungsmengen für LGS mit zwei Variablen . . . . . . . . . . . . . . . . . . . 21 1.4 Grafische Darstellung der Änderungen eines LGS während des Einsetzungsverfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.5 Schematische Darstellung des GEV . . . . . . . . . . . . . . . . . . . . . . . . 26 1.6 Die Staffelform eines LGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.7 Die Zeilenstufenform eines LGS . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.1 Schematische Darstellung des Simplex-Algorithmus . . . . . . . . . . . . . . . 48 2.2 Simplextableau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.3 Verschiedene Basisformen im Regalbeispiel . . . . . . . . . . . . . . . . . . . . 51 2.4 Schematische Darstellung der Zweiphasenmethode . . . . . . . . . . . . . . . 54 2.5 Solver-Lösung des Verpackungsbeispiels . . . . . . . . . . . . . . . . . . . . . 56 3.1 Vektoraddition und Skalarmultiplikation in der Anschauungsebene . . . . . . 66 3.2 Koordinaten bei schiefen Koordinatenvektoren . . . . . . . . . . . . . . . . . 67 3.3 Eine von zwei Vektoren aufgespannte Ebene . . . . . . . . . . . . . . . . . . . 76 3.4 Schema zur Berechnung einer Basis vom Kern . . . . . . . . . . . . . . . . . . 80 3.5 Geometrische Grundbegriffe in der Anschauungsebene . . . . . . . . . . . . . 82 3.6 Winkel zwischen Vektoren in der Anschauungsebene . . . . . . . . . . . . . . 83 3.7 Beispiel einer offenen Kugel in der Anschauungsebene . . . . . . . . . . . . . 89 3.8 Darstellung der zehn Kundenprofile aus Beispiel 3.32 . . . . . . . . . . . . . . 90 3.9 Stadtplan mit Zielorten und Startpunkt aus Beispiel 3.33 . . . . . . . . . . . 91 3.10 Einheitskugeln der l p -Metrik in der Anschauungsebene . . . . . . . . . . . . . 93 3.11 Grafische Darstellung der Projektion auf eine Gerade . . . . . . . . . . . . . . 94 4.1 Falk-Schema zur Matrixmultiplikation . . . . . . . . . . . . . . . . . . . . . . 107 4.2 Die Determinante als Flächenänderungsfaktor . . . . . . . . . . . . . . . . . . 116 4.3 Grafische Darstellung der Sarrus-Regel . . . . . . . . . . . . . . . . . . . . . . 117 4.4 Zustandsgraph einer Markoff-Kette . . . . . . . . . . . . . . . . . . . . . . . . 135 5.1 Graphische Veranschaulichung des Konvergenzbegriffes . . . . . . . . . . . . . 145 5.2 Illustration des Konvergenzbegriffes für Punktfolgen . . . . . . . . . . . . . . 153 5.3 Das Pascal’sche Dreieck der Binomialkoeffizenten . . . . . . . . . . . . . . . . 155 5.4 Angebot und Nachfrage im empirischen Preisbereitschaftsbeispiel . . . . . . . 162 5.5 Stabilisierung und Destabilisierung im linearen Spinnweb-Modell . . . . . . . 163 5.6 Laufzeit eines Annuitätendarlehns in Abhängigkeit von Zins und Tilgung . . 168 6.1 Konvexe und nichtkonvexe Mengen im R 2 . . . . . . . . . . . . . . . . . . . . 174 6.2 Entwurf der grafischen Darstellung einer Funktion von zwei Variablen . . . . 176 6.3 Niveaulinien und Konturdiagramm einer Funktion von zwei Variablen . . . . 177 6.4 Graphische Darstellung einer Deckungsbeitrags-Funktion . . . . . . . . . . . . 181 6.5 Graphen verschiedener Produktionsfunktionen . . . . . . . . . . . . . . . . . . 183 6.6 Graphen verschiedener Produktionsfunktionen . . . . . . . . . . . . . . . . . . 185 6.7 Schnittfunktionen einer Funktion zweier Variablen . . . . . . . . . . . . . . . 187 <?page no="306"?> 306 Abbildungen 6.8 Polarkoordinatentransformation eines Kreisringsegmentes . . . . . . . . . . . 191 6.9 Linearisierung einer Funktion zweier Variablen . . . . . . . . . . . . . . . . . 192 6.10 Kontur-Diagramme nicht differenzierbarer Funktionen . . . . . . . . . . . . . 194 6.11 Darstellung der Bewegungsrichtung einer Funktion f(x, y) . . . . . . . . . . . 198 6.12 Kontur-Diagramm einer nicht total differenzierbaren Funktionen, die in jede Richtung differenzierbar ist . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.13 Steilster Anstieg und Niveaulinien-Richtung . . . . . . . . . . . . . . . . . . . 202 6.14 Substitution von Produktionsfaktoren . . . . . . . . . . . . . . . . . . . . . . 205 6.15 Die Substitutionsgrenzrate als Tangentensteigung . . . . . . . . . . . . . . . . 206 6.16 Approximationen durch lineare und quadratische Funktionen . . . . . . . . . 215 6.17 Bewertung der Substitutionsgrenzrate in Abhängigkeit von der Funktionskrümmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 6.18 Konvexe und konkave Funktionen in zwei Variablen . . . . . . . . . . . . . . 218 6.19 Volumenberechnung unter Funktionen zweier Variablen . . . . . . . . . . . . 224 6.20 Volumenintegral über einem Viertelkreis . . . . . . . . . . . . . . . . . . . . . 227 7.1 FOC bei Optimierung einer Funktion zweier Variablen . . . . . . . . . . . . . 233 7.2 Eine Sattelpunkt-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 7.3 Stützebeneigenschaft konvexer Funktionen . . . . . . . . . . . . . . . . . . . . 237 7.4 Verlauf des Gradientenabstiegsverfahrens . . . . . . . . . . . . . . . . . . . . 241 7.5 Vergleich von Newton-Verfahren und Gradientenabstiegsverfahren . . . . . . 242 7.6 Optimierungsproblem mit einer Gleichungsrestriktion . . . . . . . . . . . . . . 246 7.7 Funktionsgraphen aus Beispiel 7.22 . . . . . . . . . . . . . . . . . . . . . . . . 248 7.8 Skizze des Verpackungsproblems aus Beispiel 7.24 . . . . . . . . . . . . . . . . 249 7.9 Lösung des Optimierungsproblems aus Beispiel 7.26 . . . . . . . . . . . . . . 251 7.10 Optimierungsproblem unter einer Ungleichungsrestriktion . . . . . . . . . . . 254 7.11 Beispiel, in dem die Lagrange-Methode nur einen Sattelpunkt findet . . . . . 260 7.12 Randwertvergleich graphisch . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 7.13 Randwertvergleich bei unbeschränktem zulässigem Bereich, zwei Variablen . . 269 7.14 Illustration des Begriffes „Envelope-Theorem“ . . . . . . . . . . . . . . . . . . 275 7.15 Verbrauchsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 <?page no="307"?> Tabellen 1.1 Ausgangsdaten des Regal-Verpackungsproblems . . . . . . . . . . . . . . . . . 16 1.2 Schnittmöglichkeiten im Beispiel 1.2 . . . . . . . . . . . . . . . . . . . . . . . 18 3.1 Daten zum Mobilfunk-Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2 Gewinn- und Umsatzdaten zum Tankstellenbeispiel 3.9 . . . . . . . . . . . . . 68 3.3 Skalarprodukt als Maßzahl für Gleichläufigkeit . . . . . . . . . . . . . . . . . 85 3.4 Daten zu den Beispielen 3.32 und 3.33 . . . . . . . . . . . . . . . . . . . . . . 90 3.5 Distanzen im Kredit- und Routenbeispiel . . . . . . . . . . . . . . . . . . . . 91 3.6 Kurzbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.1 Leibnizregel für 3x3-Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 4.2 Darstellung der Sektorverflechtung als Input-Output-Tabelle . . . . . . . . . . 131 4.3 Gewinnplan zum Beispiel 4.40 . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 5.1 Mit dem Heron-Verfahren gewonnene Näherungswerte für √ 2 . . . . . . . . . 151 5.2 Wichtige Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 <?page no="309"?> Symbole und Abkürzungen f ′ (x) Ableitung der Funktion f an der Stelle x vgl. S. 186 | x | Absolutbetrag der reellen Zahl x B r (x) (auch B(x, r)) offener Ball um x mit Radius r vgl. S. 89 ( n k ) Binomialkoeffizient vgl. S. 155 CD Cobb-Douglas vgl. S. 182 CES Constant elasticity of substitution vgl. S. 183 Df(x) Differential der Funktion f im Punkt x vgl. S. 193 A \ B Mengentheoretische Differenz der Mengen A und B. Alle Elemente von A, die nicht in B enthalten sind I n Einheitsmatrix vgl. S. 111 e ( i ) Einheitsvektor vgl. S. 65 1 Einsvektor; Spaltenvektor mit lauter Eins-Komponenten vgl. S. 97 ∃ Kurzschreibweise „es gibt“ exp(x) bzw. e x Exponentialfunktion vgl. S. 158 n! Fakultät der Zahl n vgl. S. 155 FOC aus d. Engl.: First Order Conditions vgl. S. 232 ∀ Kurzschreibweise „für alle“ Z Menge der ganzen Zahlen GEV Gauß’sches Eliminationsverfahren vgl. S. 24 ∇ f(x) Gradient der Funktion f im Punkt x vgl. S. 188 lim n →∞ a n Grenzwert der Folge (a n ) n ∈N vgl. S. 145 lim x → x 0 Grenzwert der Funktion f(x) mit x → x 0 . Auch uneigentlich, d.h. für x 0 = ∞ verwendet vgl. S. 146 H f (x) Hesse-Matrix der Funktion f an der Stelle x vgl. S. 214 1 S (x) Indikatorfunktion der Menge S. Nimmt den Wert Eins an, wenn x ∈ S und Null sonst vgl. S. 228 [a; b] abgeschlossenes Intervall mit den Grenzen a und b ]a; b[ offenes Intervall mit den Grenzen a, b ∫ b a f(x)dx bestimmtes Integral der Funktion f in den Grenzen von a bis b ∫ f(x)dx unbestimmtes Integral (Stammfunktion) der Funktion f A − 1 Inverse der Matrix A vgl. S. 112 J f (x) Jacobi-Matrix der partiellen Ableitungen des Funktionsvektors f nach den Variablen des Vektors x, vgl. auch partielle Ableitung vgl. S. 190 ∂f ∂x Jacobi-Matrix von f nach dem Variablenvektor x vgl. S. 282 <?page no="310"?> 310 Symbole und Abkürzungen A × B kartesisches Produkt der Mengen A,B; Menge aller Paare (x, y) mit x ∈ A und y ∈ B M n n-faches kartesisches Produkt der Menge M ; Menge aller Spaltenvektoren, deren Komponenten in M liegen Kern(A) Kern der Matrix A: Lösungsmenge des homogenen LGS Ax = ¯0 vgl. S. 64 cos(x) Kosinus der reellen Zahl x vgl. S. ? ? KQ Kleinste Quadrate vgl. S. 96 A C Komplement der Menge A mit Bezug auf eine Obermenge M (meist R oder R n ). Alle Punkte, die nicht in A enthalten sind l.a. linear abhängig vgl. S. 73 l.u. linear unabhängig vgl. S. 73 LGS Lineares Gleichungssystem vgl. S. 19 LOP Lineares Optimierungsproblem vgl. S. 33 LK Linearkombination vgl. S. 70 log(x) Logarithmus der reellen Zahl x zur Basis e = 2, 71827 . . . (der Euler’schen Zahl). Andere Schreibweise ln(x). Der Logarithmus zur Basis a ∈ R wird mit log a (x) bezeichnet A n Matrixpotenz, n-faches Produkt der Matrix A mit sich selbst vgl. S. 112 AB Produkt der Matrizen A, B. Auch mit A · B bezeichnet vgl. S. 107 N Menge der natürlichen Zahlen (ohne Null). N 0 bezeichnet Menge der natürlichen Zahlen inklusive Null. ‖ x ‖ euklidische Norm des Vektors x vgl. S. 84 ¯0 Nullvektor vgl. S. 62 x ⊥ y Die Vektoren x und y sind orthogonal vgl. S. 84 D i f(x) partielle Ableitung der Funktion f nach ihrer i-ten Variablen vgl. S. 188 ∂f ∂x partielle Ableitung der Funktion f nach der Variablen x, vgl. auch Jacobi-Matrix vgl. S. 191 ∂A Rand der Menge A R Menge der reellen Zahlen Df(x, d) Richtungsableitung der Funktion f in x in Richtung d vgl. S. 199 sin(x) Sinus der reellen Zahl x vgl. S. ? ? 〈 x, y 〉 Skalarprodukt der Vektoren x und y vgl. S. 84 R n Menge d. Spaltenvektoren über R vgl. S. 60 SEL(y | x) Substitutionselastizität zwischen y und x vgl. S. 210 GRS(y | x) Substitutionsgrenzrate zwischen y und x vgl. S. 208 ∑ n i =1 a i Summe der Folgenglieder a 1 ,. . . ,a n vgl. S. 154 A T Transponierte der Matrix A vgl. S. 108 ∑ ∞ i =1 a i unendliche Reihe der a i vgl. S. 156 ZSF Zeilenstufenform vgl. S. 29 R n Menge d. Zeilenvektoren über R . Auch: geordnete n-Tupel vgl. S. 60 <?page no="311"?> Das griechische Alphabet Mathematik ist ohne Variablen undenkbar. Selbst bei vorsichtiger Nutzung lateinischer Buchstaben und Einsatz von Indizes ist aber unser herkömmliches Alphabet schnell „verbraucht“, und zusammengesetzte „sprechende“ Variablennamen führen oft zu klobigen Formeln. Als Alternative gebraucht man von jeher griechische Buchstaben, z.B. λ für den Lagrange-Multiplikator oder α, β, . . . in der Vektorrechnung für Skalare zur Unterscheidung von Vektoren. Nicht alle Buchstaben des griechischen Alphabets sind „formelgeeignet“, vor allem dann nicht, wenn sie ihren lateinischen Pendants zu sehr ähneln. Kleinbuchstabe Großbuchstabe Aussprache α A Alpha β B Beta γ Γ Gamma δ Δ Delta ε, ε E Epsilon ζ Z Zeta η H Eta θ, ϑ Θ Theta ι I Iota κ K Kappa λ Λ Lambda μ M Mü ν N Nü ξ Ξ Xi o O Omikron π Π Pi ρ, P Rho σ Σ Sigma τ T Tau υ Υ Ypsilon φ, ϕ Φ Phi χ X Chi ψ Ψ Psi ω Ω Omega <?page no="313"?> Literatur Aarts ,E./ Korst , J. [1989]: Simulated Annealing and Boltzmann Machines, Chichester. Arrow , K./ Chenery , H.B./ Minhas , B.S./ Solow , R.M [1961]: Capital-Labor Substitution and Economic Efficiency. In: Review of Economics and Statistics. Vol. 43, S. 225-250. Bazaraa , M.S./ Jarvis , J.J./ Sherali , H.D. [2010]: Linear Programming and Network Flows, 4th ed., Hoboken. Bazaraa , M.S./ Sherali , H.D./ Shetty , C.M [2006]: Nonlinear Optimization: Theory and Algorithms, Hoboken. Beale , E.M.L. [1955]: Cycling in the Dual Simplex Method, Naval Research Logistics Quarterly, 2(4), S. 269-275. Bland , R.G. [1977]: New finite pivoting rules for the simplex method, Mathematics of Operations Research. 2(2), S. 103-107 Cobb , C. W./ Douglas , P.H. [1928]: A Theory of Production, American Economic Review, March 1928 Supplement, Vol. 18 Issue 1, S. 139-165 Forster , O. [2011]: Analysis 1, 10. Aufl., Wiesbaden. Gandolfo , G. [1997]: Economic Dynamics, 3rd edition, Berlin. Grimme , C./ Bossek , J. [2018]: Einführung in die Optimierung, Wiesbaden. Heuser , H. [2009]: Lehrbuch der Analysis, Teil 1, 17. Aufl., Wiesbaden. Heuser , H. [2008]: Lehrbuch der Analysis, Teil 2, 14. Aufl., Wiesbaden. Kruschwitz , L. [2010]: Finanzmathematik, 5. Aufl., München. Leontief , W. [1954]: Domestic Production and Foreign Trade - The American Capital Position Reexamined, Economia Internazionale, (VII): S. 1. Luenberger , D.G. [2003]: Linear and Nonlinear Programming, Second Edition, Boston. Mann , H.B. [1943]: Quadratic Forms with linear constraints, American Mathematical Monthly, 50, S. 430-433. Müller-Funk , U./ Kathöfer ,U. [2017]: Operations Research, 3. Aufl., Konstanz. Nissen , V. [1997]: Einführung in Evolutionäre Algorithmen, Braunschweig. Pflug , G. [1986]: Stochastische Modelle in der Informatik, Stuttgart. Schira , J. [2003]: Statistische Methoden der VWL und BWL, München. Schneider , W. [2006]: BWL-Crash-Kurs Kosten- und Leistungsrechnung, Konstanz. Terveer , I./ Terveer , S. [2011]: Analysis-Brückenkurs für Wirtschaftswissenschaften, Konstanz. <?page no="315"?> Index Übergangsmatrix 102 Abstand zweier Vektoren 82 aktive Nebenbedingung 253 arithmetische Folge 142 Barwert 168 Basis 77 Basis-Spalte 27 Basisform 38, 40, 49 Basislösung 49 degeneriert 50 Basisspalte 49 Basisvariable 27, 40, 49 Basiswechsel 38, 43 Bedingung vom komplementären Schlupf 254, 256 beschränkte Folge 150 Bild einer Funktion 172 Binomialkoeffizient 155 Bland-Regel 46 Break-Even-Preis 164 Cauchy-Produkt unendlicher Reihen 157 Cauchy-Schwarz-Ungleichung 86 CD-Funktion 182 CES-Funktion 183 charakteristisches Polynom 126 Cobb-Douglas-Funktion 174, 182 Cramer’sche Regel 123 definite Matrix 219 Definitionsbereich 172 Delta-Wert 40, 41 Determinante 116 Determinantenkriterium für Definitheit 220 Diagonalmatrix 111 Differential 186 Differenzengleichung 143 differenzierbare Funktion 146 mehrerer Variablen 193 Dimension 78 Dimensionsformel 80 divergente Folge 145, 153 Doppelintegral 225 Dreiecksungleichung 87 Eigenvektor 125 Eigenwert 125 Einheitsball 89 Einheitskugel 89, 92 Einheitsmatrix 111 Einheitsvektor 65, 66 Elastizitätsgradient 203 Eliminationsverfahren nach Gauß 24 Ellipsoid 173 Endnachfrage 131 endogene Variable 275 Engpass 40 erzeugende Funktion einer Folge 160 euklidischer Abstand 89 Euler-Formel 203 ewige Rente 166 exogene Variablen 275 explizite Form einer Folge 142 eines LGS 31 Exponentialfunktion 158 Fakultät 155 Falk-Schema 107 Fehlstand 117 Folge 141 Folgenglied 141 Folgenindex 141 Fritz-John-Bedingung 247 Funktion 16 zweimal stetig partiell differenzierbar 213 mehrerer Variablen 172 partiell differenzierbar 188 stetig partiell differenzierbar 195 zweimal partiell differenzierbar 213 Funktionaldeterminante 228 Funktionalgleichung der Exponentialfunktion 158 Funktionsvektor 172 geometrische Folge 142 geometrische Reihe 156, 158 geometrische Summe 142 geränderte Hesse-Matrix 262 <?page no="316"?> 316 Index geschlossene Form einer Summe 142 geschlossenes Leontief-Modell 133 Gleichungsmatrix 24, 104 globales Extremum einer Funktion 232 unrestringiert 232 unter Nebendingungen 245 Gozintograph 17 Grad eines Polynoms 174 Gradient 186, 188 Gradientenabstiegsverfahren 240 Gradientenverfahren 240 Grenzwert einer Folge 145 einer Funktion 146 einer Funktion mehrerer Variablen 175 einer Punktfolge 152 Häufungspunkt 145 harmonische Reihe 156 Haupt-Unterdeterminante 220 Haupt-Untermatrix 220 Hauptachsentransformation 129 Hauptminor 220 Hauptsatz der Differential- und Integralrechnung 225 Hesse-Matrix einer Funktion 214 homogen 184 homogene Funktion 184 homogenes LGS 19 Hyperebene 173 implizite Form einer Folge 142 eines LGS 31 inaktive Nebenbedingung 253 indefinite Matrix 219 Index 141 inhomogenes LGS 19 innerer Punkt 193 Input-Matrix 132 Input-Output-Tabelle 131 interner Zinsfuß 169 inverse Matrix 112 inverses Element 62 invertierbare Matrix 112 Iso-Quante 177 Jacobi-Matrix 190, 282 künstliche Variable 52 kartesisches Produkt 172 Kern einer Matrix 64 Kettenregel 195 in einer Variablen 209 inverse 209 Koeffizient 24 Koeffizientenmatrix eines LGS 24 kompakt 265 Komplementärgüter 179 konkave Funktion 218 konkrete Form einer Folge 142 Kontur-Diagramm 177 konvergente Folge 145 Punktfolge 152 Reihe 156 konvexe Funktion mehrerer Variablen 218 Linearkombination 174 Menge 173 Koordinate 65 Koordinatenfolge 152 Koordinatenfunktion 174 Koordinatenvektor 65 kritischer Punkt eines unrestringierten Optimierungsproblems 233 eines restringierten Optimierungsproblems 245 Kuhn-Tucker-Bedingung 251 Kuhn-Tucker-Bedingungen 247, 256, 259 Länge eines Vektors 82 Lösung eines LGS 19 Lösungsmenge eines LGS 19 Lagrange-Funktion 252 Lagrange-Methode 246 Lagrange-Multiplikator 246 ökonomische Bedeutung 279 Leontief-Inverse 132 Leontief-Modell 131 Leontief-Produktionsfunktion 185 linear abhängig 73 linear homogen 184 linear unabhängig 73 lineare Differenzengleichung 143 lineare Abbildung 104 lineare Funktion 16, 174 lineare Hülle 70 lineare Regression 98 lineares Gleichungssystem 19 Lineares Optimierungsproblem 34 Linearisierung 186 Linearkombination 70 logarithmische Ableitungen 197 <?page no="317"?> Index 317 lokales Extremum unrestringiert 232 unter Nebenbedingungen 245 Majorantenkriterium 157 marginal 144 Markoff-Kette 134 Matrix 102 in Dreiecksform 120 Matrix-Produkt 106, 107 Matrix-Vektor-Produkt 101 Metrik 93 Minor 220 Mitternachtsformel 155 Monom 183 Monomfunktion 174 monotone Folge 150 Monte-Carlo-Methoden 225 negativ definite Matrix 219 negativ semidefinite Matrix 219 neutrales Element 62 neutrales Element der Vektoraddition 62 Newton-Verfahren zur Nullstellenbestimmung 186 zur Optimierung einer Funktion einer Variablen 212, 240 zur Optimierung einer Funktion mehrerer Variablen 241 Niveaulinie 177 Norm, euklidische 84 Normalgleichungen 95 Nullfolge 145 Nullvektor 62 Oberfläche 173 offene Kugel 89 offene Menge 193 offener Ball 89 orthogonale Vektoren 84 orthonormale Vektoren 84 paarweise orthonormale Vektoren 86 Partialsummenfolge 154 partiell differenzierbare Funktion 188 partielle Ableitung erster Ordnung 188 zweiter Ordnung 213 partielle Elastizitat 203 Phase 1 52 Phase 2 52 Pivoatvariable 27 Pivot-Stelle 27 Pivotelement 43 Pivotisierung 43 Pivotspalte 27, 43 Pivotzeile 43 Polarkoordinaten 190, 228 Polarkoordinatentransformation 190 Polynom 174 Polynomfunktion 158 Polytop 173 positiv definite Matrix 219 unter Nebenbedingungen 261 positiv semidefinite Matrix 219 positiv-homogen 184 Potenzreihe 157 Produktionsfunktion 182 produktives Leontief-Modell 133 Projektion 93 Quader 172 quadratische Form 174 Funktion 174 Matrix 111 Quotientenkriterium 157 Rand 173 Randbedingung 266 Randpunkt 193 Rang 27 reduzierte Zielfunktion 39, 40, 44-46 Reihe 156 rekursive Folge 142 Rentenbarwert 168 Rentenendwert 168 Restriktion 243 Richtungsableitung 199 Richtungselastizität 204 Richtungskrümmung 215 Sarrus-Regel 116 Sattelpunkt 235 Satz über implizite Funktionen 282 Schattenpreis 279 Schlupfvariable 18, 36 Schnitt durch eine Menge 227 Schnittfunktion 187 Sektor 131 Sichtbarkeitsproblem 177 Simplex 173 Simplex-Tableau 38, 40 Skalar 62 Skalarprodukt 84 Slater-Bedingung 271 Spaltenvektor 60 <?page no="318"?> 318 Index Staffelform einer Matrix 27 Stammfunktion einer Funktion einer Variablen 225 einer Funktion mehrerer Variablen 226 Standardform 36 Startverteilung einer Markoff-Kette 134 stetig differenzierbare Funktion 193 stetig partiell differenzierbare Funktion 195 stetige Funktion einer Variablen 146 mehrerer Variablen 175 stetige Verzinsung 165 stochastische Matrix 134 stochastischer Vektor 61 streng konkave Funktion 218 streng konvexe Funktion 218 Substitutionselastizität 210 Substitutionsgüter 179 Substitutionsgrenzrate 208 Substitutionsmethode 245 Substitutionsregel 228 symmetrische Matrix 111 Tautologie 21 technologische Matrix 132 Transporttableau 54 Transposition 60 trigonometrische Funktionen 158 Tschebyscheff-Distanz 92 Tupel 60 Übergangsmatrix 134 unbestimmtes Integral einer Funktion zweier Variablen 226 unendliche Reihe 156 Untervektorraum 76 Vektor 60 Vektorraum 63 Verflechtungsmatrix 101 Verpackungsproblem 244 Wertebereich 172 Zeilenstufenform 29 Zeilenumformungen 25 Zeilenvektor 60 Zielfunktion 243 Zinsfaktor 164 Zinsfuß 164 zulässige Basisform 49 zulässige Basislösung 49 zulässiger Punkt 245 Randpunkt 265 Zustandsgraph 134 Zustandsraum einer Markoff-Kette 134 Zweifachintegral 225 zweimal partiell differenzierbare Funktion 213 Zweiphasenmethode 51 Zyklenmethode 54 <?page no="319"?> Der richtige Umgang mit Menschen im Beruf und Alltag Nello Gaspardo Von harten Hunden und hyperaktiven Affen Der richtige Umgang mit Menschen im Beruf und Alltag 2017, 158 Seiten, Hardcover ISBN 978-3-86764-834-9 Jeder Mensch ist einzigartig! Das ist fraglos richtig. Dessen ungeachtet finden Sie bei Ihren Mitmenschen wiederkehrende Charaktereigenschaften, mit denen Sie im Beruf und im Alltag umgehen müssen. Denken Sie nur an den harten Hund aus der Chefetage, den cleveren Fuchs aus dem Controlling oder den zappeligen, aber vor Ideen sprühenden Affen aus der Marketingabteilung. Der Kommunikations- und Verhandlungsexperte Nello Gaspardo skizziert neun solcher Typen anhand von Tierbildern. Er zeigt deren Stärken und Schwächen auf und verrät Ihnen pointiert, was Sie im Umgang mit diesen Menschen unbedingt wissen sollten und wie Sie mit diesen Typen richtig kommunizieren. Das Buch ist ein unverzichtbarer Ratgeber für alle, die im Beruf und im Alltag gemeinsam mit anderen Menschen schnell und harmonisch Ziele erreichen möchten. www.uvk.de <?page no="320"?> www.uvk-lucius.de/ schritt-fuer-schritt Keine Angst vor Excel Wer an Excel denkt, denkt oft an komplizierte Tabellen, Formeln und Funktionen. Viele schrecken davor zurück. Doch jeder Student der Wirtschaftswissenschaften wird sich im Laufe seines Studiums mit Excel auseinandersetzen müssen - sei es im Rahmen von Seminarbzw. Bachelorarbeiten oder im Praktikum. Dieses Buch im Großformat trainiert die wichtigsten Grund- und Spezialfunktionen sowie die Darstellung von Graphiken. Zahlreiche Abbildungen, Merksätze und Beispiele helfen dabei sich in den Menüs zurechtzufinden. Durch Übungsaufgaben mit Lösungen sehen die Leser, wie mit Excel effektiv gearbeitet werden kann. Am Ende der Lernabschnitte haben sie die Gelegenheit ihr neues Wissen anzuwenden: Anhand einer Investitionsrechnung aus dem Grundstudium entwickeln sie selbstständig eine komplexe Excel-Lösung. Zur Überprüfung stehen Musterlösungen mit einer Schritt-für-Schritt-Anleitung zur Verfügung. Sebastian Prexl Excel für BWLer Schritt für Schritt Arbeitsbuch 2016, 200 Seiten, Broschur ISBN 978-3-8252-8640-8 € (D) 24,99