Gespräch zwischen Matthias Aust, Immersive Participation Lab, Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO in Stuttgart; Steffen Masik, Elbedome, Virtual Development and Training Centre des Fraunhofer-Instituts für Fabrikbetrieb und -automatisierung IFF in Magdeburg, sowie Philipp Reinfeld, geführt per Videomeeting zwischen Stuttgart, Magdeburg und Berlin am 09.12.2021.
Der Elbedome in Magdeburg und das IPLab in Stuttgart sind zwei Mixed-Reality-Projektionssysteme zur großflächigen Darstellung interaktiver Visualisierungen, die als professionelle virtuelle Arbeitsumgebungen fungieren. Wie in klassischen CAVES (Cave Automatic Virtual Environment) handelt es sich um Innenräume, auf deren Wände mittels stereoskopischer Bewegtbilder eine dreidimensionale virtuelle Realität projiziert wird, die in Echtzeit auf die Bewegungen ihrer Nutzer:innen reagiert.
***
Reinfeld: Herr Aust, Herr Masik, könnten Sie eingangs kurz etwas zu Ihrem jeweiligen beruflichen Hintergrund sagen? Welche Ausbildung haben Sie genossen und wie waren die Anfänge Ihrer Beschäftigung mit VR-Technologie bzw. Ihrer aktuellen Aufgabe im jeweiligen Fraunhofer Institut?
Aust: Ich bin über mein Studium der Computervisualistik an der Universität Koblenz zur VR gekommen. Meine Diplomarbeit habe ich bereits beim Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS in Birlinghoven bei Bonn geschrieben. Nach dem Studium habe ich dann in der Abteilung Virtual Environments des IAO in Stuttgart angefangen. Als Diplominformatiker in der Computervisualistik liegt mein Zugang zur VR stärker auf der Seite der Anwender:innen. Das Thema meiner Diplomarbeit war entsprechend auf „Software Ergonomie und Usability“ ausgerichtet. Ich bin also kein Entwickler im engeren Sinne.
Masik: Ich habe ebenfalls Computervisualistik studiert, allerdings an der Universität Magdeburg, wodurch mein Zugang zum Thema ausbildungsseitig eher aus der Sichtweise der Ingenieurwissenschaft erfolgt. Ich bin zum IFF in Magdeburg gekommen und habe anfänglich in der Abteilung Virtual Development and Training gearbeitet.
Reinfeld: Bevor wir auf die beiden virtuellen Arbeitsumgebungen, die Sie in Stuttgart bzw. Magdeburg betreiben, im Einzelnen eingehen: Können Sie uns jeweils noch etwas über die Institute bzw. Abteilungen und die dort verorteten Themen und Aufgabenbereiche sagen, in deren Kontext die Anlagen konzipiert wurden?
Aust: Das Aufgabengebiet des IAO umfasst ein sehr breites Spektrum. Es geht hierbei immer um Fragen zur Arbeit der Zukunft aus der Sichtweise der Menschen und weniger in Bezug auf zukünftige Technologieentwicklungen allein. Im Kontext des Themenfeldes Arbeitswissenschaften und Ergonomie ist 1992 auch der Schwerpunkt Virtual Environments am IAO entstanden. Es ging um die Frage, wie VR in der arbeitswissenschaftlichen Forschung eingesetzt werden kann, um Ergonomieanwendungen zu entwickeln. In Deutschland hatten wir damit eine Vorreiterrolle. Vor etwa zweieinhalb Jahren wurde das Team von „Virtual Environments“ in „Building Culture Innovation“ umbenannt. Die Namensänderung ging einher mit einer inhaltlichen Verschiebung der Forschungseinheiten des Instituts vom Schwerpunktbereich Ingenieurwissenschaften zum Forschungsbereich Stadtsystemgestaltung. Das lag nicht zuletzt an der Neubesetzung der Teamleitung durch Günter Wenzel, der von Hause aus Architekt ist und somit das Thema Virtual Architecture stark gemacht hat.
Masik: Als ich zum IFF kam hatte die Abteilung bereits eine fünfseitige CAVE, also einen würfelförmigen, betretbaren VR-Raum, bei dem die Seiten mit Echtzeitvideoprojektionen bespielt wurden. Diese CAVE kann als Vorläufer des heutigen Elbedomes gesehen werden. Einer der größten Vorteile des Elbedomes gegenüber der Vorläufer-CAVE ist seine Größe, die es erlaubt, mit mehreren Leuten im Team zu arbeiten. Der Elbedome ist dann als zentrale Dienstleistungseinheit für alle Abteilungen angelegt worden, was auch für die Außenwirkung des Fraunhofer-Standorts in Magdeburg wichtig ist. Die hier angesiedelten Bereiche wie Logistik und Fabrikplanung, Robotik, Fertigungsmesstechnik sowie Energieinfrastrukturen und Anlagenbau profitieren stark vom Elbedome und seiner Außenwirkung.
Aust: Wir hatten 2008/09, als ich am IAO anfing, ebenfalls noch eine klassische 6-Seiten-CAVE. Ich durfte einen wichtigen Teil der Planungsphase der neuen Anlage miterleben.
Reinfeld: Könnten Sie uns in Kürze darlegen, wie die beiden Anlagen jeweils technisch aufgebaut sind?
Masik: Das Konzept der Anlage in Magdeburg ähnelt grundsätzlich noch immer dem einer 6-Seiten-CAVE, also einer bildlich virtuellen Umgebung, in die die Nutzer:innen komplett integriert sind. Bei der ersten Version des Elbedomes gab es nur ein horizontales Panorama, ohne die Einbeziehung von Boden und Decke. In der jetzigen Version erstreckt sich die Projektion zusätzlich über den gesamten Bodenbereich (Abb. 5.1). Im Kontext von Fabrik- und Produktplanung, welche die Hauptanwendungsfelder des Domes sind, ist es von großem Vorteil, den gesamten Boden in die Projektion einzubeziehen, weil hierdurch dreidimensionale Objekte wie Maschinen oder Anlagen virtuell im Raum platziert und umlaufen werden können. Zudem ist es möglich, alle Bild-Projektoren unauffällig im oberen Teil des Domes zu platzieren. Wir wollten die Bilder nicht von der Rückseite auf die Wände werfen, weil das sehr viel mehr Platz beansprucht und zudem die Anlage deutlich verkompliziert hätte. Wir verwenden insgesamt 25 Projektoren, um die stereoskopischen Bilder zu erzeugen, 16 für den Boden und 9 für das Panorama. Am Boden benötigen wir mehr Projektoren, weil die Nutzer:innen hier näher an den Bildern sind und deshalb die einzelnen Pixel möglichst klein sein sollen. Zudem wird der Schattenwurf der Besucher:innen durch die vielen Lichtquellen minimiert. Die Stereoskopie ist vor allem wichtig, um virtuelle Objekte, die mitten im Elbedome stehen, echtzeitlich als dreidimensionale Objekte sichtbar machen zu können. Zum Tracken der Personen im Elbedome verwenden wir unterschiedliche Systeme. Es gibt markerlose Methoden, um Personengruppen verfolgen zu können, und mehrere markerbasierte Trackingsysteme, um einzelne Personen zu verfolgen, die die volle Stereosicht erhalten. Dabei werden sechs Freiheitsgrade registriert, um die Position und Orientierung von Kopf und Kontrollgeräten zu erfassen. Ob stereoskopische Bilder verwendet werden, hängt von der Anwendung, den Inhalten sowie der Anzahl der beteiligten Personen ab. Wenn es gewünscht ist, um ein Objekt herumgehen oder in es hineinschauen zu können, dann werden Stereobilder, die echtzeitlich auf die getrackte Kopflage reagieren, benötigt. Für die Betrachtung des Innenraums eines Gebäudes hingegen ist der Stereoeindruck weniger wichtig, und bei einer Stadtaufsicht kann auf Stereo gänzlich verzichtet werden, weil aufgrund des großen Abstands zu den virtuellen Objekten der Tiefeneindruck durch Stereoskopie eher unwesentlich ist.
Aust: Als unsere Anlage konzipiert wurde, stand das Thema Bauen und Architektur noch nicht ganz so im Vordergrund der Anwendungen wie heute. Es war vielmehr die Automobilindustrie, die damals als Hauptkundin im Fokus stand. Hieraus leitet sich auch die Ausdehnung der längsten Wand unserer Vierseiten-CAVE ab: Ein PKW der Oberklasse (in Stuttgart also eine Mercedes S-Klasse) sollte im Maßstab eins zu eins komplett in der CAVE dreidimensional platziert werden können, ohne dass das Bild über Wandecken hinweg läuft und dadurch sichtbare Knicke erscheinen. Die Vierseiten-CAVE am IAO ist nicht quadratisch angelegt, sondern hat im Grundriss die Form eines L mit einer Serife (Abb. 5.2). Aus den gleichen Gründen wie in Magdeburg haben wir uns gegen eine Decken- und für eine Bodenprojektion entschieden. Das besondere an unserer Anlage ist, dass eigentlich das gesamte Gebäude um unser Lab herum geplant wurde. Das Gebäude heißt Zentrum für virtuelles Engineering. Ursprünglich sollte die CAVE drei Stockwerke des Neubaus einnehmen, um den nötigen Platz für die Boden- und Decken-Rückprojektionen zu schaffen. Doch der Platzaufwand konnte schließlich deutlich reduziert werden, weshalb auch das Gebäude kleiner ausfallen konnte. Das von Herrn Masik angesprochene Problem mit den eigenen Körperschatten lösen wir dadurch, dass die Projektionen anstatt senkrecht von oben hier von leicht schräg-vorne erfolgen, wodurch die eigenen Schatten immer nach hinten fallen. Dadurch werden sie kaum wahrgenommen, weil der Blick meistens auf die große Projektionswand gerichtet ist. Eine Besonderheit der Anlage sind schwarze Projektionswände, die zwar etwas mehr Licht schlucken, aber dafür den Vorteil haben, dass das Licht weniger in der Projektionswand gestreut wird. Wir verwenden insgesamt elf Rechner mit jeweils zwei Grafikkarten, die elf Aktiv-Stereoprojektoren bedienen. Die Wände unserer CAVE werden von den Rückseiten bestrahlt. Durch das eingesetzte Spiegelsystem bleibt der benötigte Raum hierfür dennoch sehr kompakt. Wir verwenden nur noch ein optisches Trackingsystem, wobei das echtzeitliche Stereobild aktuell nur für eine Person berechnet wird.
Reinfeld: Können Sie noch etwas zur verwendeten Software in den beiden Anlagen sagen?
Masik: Softwareseitig sind wir recht flexibel. Um den Anforderungen von Forschungsprojekten gerecht zu werden, ist es häufig notwendig, Anwendungen auch selbst weiterentwickeln zu können. Kommerzielle Software hat oft das Problem, dass sie nicht gut erweiterbar ist für spezielle Anwendungsfelder. Um entsprechend flexibel zu sein, nutzen wir die Spiele-Engines Unreal und Unity, die beide ganz unterschiedliche Vor- und Nachteile haben. Wenn die Qualität der Visualisierung im Zentrum steht und viel Dynamik im Spiel ist, verwenden wir eher Unreal. Unity wiederum hat Vorteile, wenn in Forschungsprojekten Prototypen zu entwickeln sind. Die Lernkurve beim Arbeiten mit Unity ist unserer Erfahrung nach deutlich steiler.
Aust: Das sieht bei uns ganz ähnlich aus. Zur Zeit benutzen wir für die allermeisten Anwendungen Unity. Anfangs haben wir auch eine selbst entwickelte Software auf Basis von OpenSceneGraph zum Betrieb der Anlage verwendet. Diese wird seit 2012/13 aber nicht mehr für das IPLab verwendet und weiterentwickelt.
Masik: Eine ähnliche Eigenentwicklung hatten wir anfangs auch, sie ist seit 2015 nicht mehr im Einsatz, auch wenn sie theoretisch noch laufen würde.
Reinfeld: Mich würde interessieren, wie typische Nutzungsszenarien aussehen, für welche Anwendungsfelder die beiden Anlagen konzipiert wurden. In Ihrem Vortrag auf unserer Tagung in Hannover sagten Sie, Herr Aust, dass ein zentrales Ziel der CAVE in Stuttgart darin bestehe, komplexe dreidimensionale Geometrien besser verstehen zu können. Können Sie das etwas erläutern?
Aust: Das ist weniger eine besondere Eigenschaft unserer CAVE am IAO, als vielmehr eine allgemeine Stärke von Virtueller Realität überhaupt. Indem man in der Virtuellen Realität Objekte und Modelle auf eine natürliche Art und Weise erleben kann, ist ihr Aufbau schlichtweg einfacher zu verstehen. Zudem braucht man zur Ansicht komplexer digitaler 3D-Modelle keinerlei spezifische Software-Vorkenntnisse. Ein Kunde oder eine Endnutzerin bekommt auch ohne Fachwissen einen natürlichen Zugang zur dreidimensionalen Erscheinung von Entwicklungen. Das gilt weniger für die Fachkonstrukteure, obwohl selbst diese ihre eigenen Modelle oft besser verstehen, wenn sie sie in VR betrachten können.
Reinfeld: Es gibt bei der Anlage in Stuttgart einen starken Anwendungsschwerpunkt im Bereich Bauplanung/BIM. Komplexe dreidimensionale Sachverhalte sollen anschaulich werden, um sie mit einer Gruppe von (Fach)Planer:innen gemeinschaftlich zu betrachten und zu besprechen. Können Sie erklären, wie so eine Fachdiskussion im IPLab grundsätzlich abläuft, insbesondere mit Blick auf den in der Anlage sehr bewusst vorgesehenen Wechsel zwischen klassischer Tischbesprechung und immersiver VR-Präsentation?
Aust: Bei den Anwendungsfällen Architektur und Bauingenieurwesen werden die Strukturen und Fragestellungen schnell komplex, weil hier die verschiedenen Disziplinen und Fachplaner:innen zusammenkommen. Selbst bei einem simplen Bürogebäude, bei dem das Statikmodell alleine noch recht übersichtlich erscheint, wird es in Kombination mit der Architektur und unter Hinzunahme z.B. des Heizungs-Lüftungs-Modells und anderer technischer Gebäudeausstattung schnell kompliziert. Um sich hier gegenseitig die jeweiligen Fachdetails anschaulich erklären zu können, hilft VR ungemein. Unsere Hauptanwendungsfelder sind entsprechend Planungsbesprechungen und Nutzungsabstimmungen. Diese Zusammenkünfte der unterschiedlichen Beteiligten laufen dabei immer nach einem festen Schema ab. Die eigentliche VR-Durchführungsphase wird in ein Briefing und ein Debriefing eingerahmt. So wird gewährleistet, dass zwischen dem VR-Erlebnis und dem eigentlichen Inhalt der Besprechung klar unterschieden wird. Bei der inhaltlichen Vorbereitung des Briefings wird geklärt, was das Ziel der Entscheidungsfindung in der VR genau ist. Danach wird erst das eigentliche CAVE-System erklärt. Die ersten Erfahrungen darin werden bewusst anhand projektferner Modelle vollzogen, damit in der eigentlichen VR-Phase dann eine Konzentration auf die zur Diskussion stehenden Inhalte möglich ist und nicht mehr die Faszination für die Virtuelle Realität im Zentrum steht. Nach der eigentlichen VR-Besprechung ist der bewusste Abbau des Präsenzgefühls der Immersion herzustellen, damit im Anschluss wichtige Entscheidungen zum Projekt, die vielleicht im überwältigenden VR-Gefühl schwierig zu treffen sind, in der Realität nüchtern gefällt werden können. Beim eigentlichen Austausch zwischen den Personen in der CAVE zeigt sich, wie sehr VR als Kommunikationskatalysator fungieren kann, weil die Beteiligten sich gegenseitig und die zur Diskussion stehenden Inhalte auf diese Weise besonders gut erfassen können. Das gilt insbesondere für die fachfremden späteren Nutzer:innen, denen es oft schwerfällt, Ingenieursmodelle überhaupt zu verstehen.
Reinfeld: Zu der kommunikativen Ausrichtung des Labs trägt neben der offenen Form – durch das Fehlen einer Wand –, auch die im selben Raum, aber außerhalb der CAVE vorhandene Besprechungssituation mit einem großen Tisch für mehrere Personen bei. Hierdurch ist es möglich, die VR-Phasen zwischendurch immer wieder zu unterbrechen, um entstehende Fragen unter Zuhilfenahme weiterer Medien wie Bildprojektionen oder Planmaterial auf Papier abseits des interaktiven und immersiven 3D-Modells zu vertiefen.
Aust: Das stimmt, diese Erweiterung ist als wichtiger Aspekt der Anlagennutzung entwickelt worden. Der offene Aufbau geht auf unsere Erkenntnisse aus der vorherigen 6-Seiten-CAVE zurück. Wir hatten damals zwei Dinge festgestellt: Zum einen werden CAVEs (nicht nur bei uns, sondern ganz allgemein) häufig örtlich ausgelagert in möglichst dunkle, abgeschottete Hallen, die kein Streulicht auf die Projektionswände lassen. Zum anderen sind 6-Seiten-CAVEs mit ihrer kompletten räumlichen Umschließung aus akademischer Sicht zwar konsequent aufgebaute immersive Anlagen, aber aus praktischer Sicht zum Arbeiten in gewissem Sinne ungeeignet. Man stellt relativ schnell fest, dass die sechste Wand, durch die man die CAVE betritt, häufig offen gelassen wird, eben weil man zwischendurch doch noch einmal raus muss, um etwas zu holen, sich Notizen zu machen oder sich bei normalem Licht mit jemandem zu besprechen. Auf Grundlage dieser Erfahrungen haben wir die neue CAVE offener gestaltet und sie zentral in das Hauptgebäude integriert. Der gewollte Wechsel zwischen Virtualität und Realität kann somit auch spontan erfolgen, um Themen und Fragen, die in der VR auftauchen, außerhalb weiterzuverfolgen. Aufgrund der Nähe zur offenstehenden CAVE bleibt zudem der Blickkontakt zum zugehörigen 3D-Bild bestehen.
Reinfeld: Herr Masik, die Konzeption des Elbedome ist etwas anders gelagert. Hier begeben sich die Teilnehmer:innen bei der Benutzung der Anlage gänzlich in einen sie voll umschließenden Projektionsraum. Sie bezeichnen die Anlage selbst als „360°-Mixed-Reality-Erlebnisraum“. Das klingt etwas weiter gefasst, insbesondere wegen des Begriffs „Erlebnisraum“. Können Sie diese Begriffswahl und die dahinterstehende Idee des Labs erläutern?
Masik: Wir haben ganz verschiedene Einsatzszenarien. Im einfachsten Fall steht das pure Erleben im Mittelpunkt. Hierbei wird der Dome betreten, um ein virtuelles Modell, z.B. ein Gebäude oder eine Fabrik, in der umschließenden, stereoskopischen 3D-Ansicht zu erleben, bevor sie physisch realisiert werden. Bei dieser Anwendung werden oft Planer mit ihren Kunden zusammengebracht, um unterschiedliche, vorbereitete Varianten von Gebäuden oder Anlagenteilen zu besprechen. Die Interaktionsmöglichkeiten mit dem virtuellen Modell sind bei diesen Nutzungsszenarien bewusst eingeschränkt. Es ist üblicherweise nicht vorgesehen, live etwas am Modell zu verändern, sondern eher vorab definierte Varianten zu diskutieren und zu bewerten. Wenn es bei einer Besprechung mehr in die Tiefe gehen soll und der Planungsstand noch relativ offen ist, können Änderungen direkt am Modell vorgenommen werden. Da diese Modifikationen in der Regel eine Anpassung des zugrundeliegenden Planungsmodells nötig machen, müssen sie über das entsprechende Planungswerkzeug durchgeführt werden. Mit Hilfe von Unity Reflect können verschiedene Werkzeuge in Echtzeit an den Elbedome angebunden und die erstellten Modelländerungen direkt wieder visualisiert werden. Solche kurzfristigen Modelländerungen setzen voraus, dass die Kunden mit bestimmten Werkzeugen wie Autodesk Revit, Navisworks, SketchUp, oder Rhino arbeiten und die Modelle nicht zu komplex sind, weil sonst die Synchronisation zu lange dauern würde. Herr Aust hat es angesprochen: am Ende muss immer auch entschieden werden, ob der Aufwand wirtschaftlich ist. Entsprechend sind wir eher gewillt, die Modelle möglichst ‚einfach‘ zu halten, um auf das avisierte Problem zu fokussieren, und lieber mit Varianten zu arbeiten, über die dann gemeinsam entschieden werden kann.
Aust: Im Elbedome ist schon durch die schiere Größe der Anlage eine andere Art von Erlebnis möglich als bei uns. Weil die einzelnen Zimmer eines Wohnhauses eins zu eins in den Elbedome hineinpassen, kann ein virtuelles Gebäude dort ‚erlaufen‘ werden, ohne zusätzliche unnatürliche Navigationsmethoden anwenden zu müssen.
Reinfeld: Sie betonen beide (wenn auch mit etwas unterschiedlichen Zielrichtungen) die Wichtigkeit der zwischenmenschlichen Kommunikation in Ihren VR-Laboren. Die Möglichkeit, sein Gegenüber (und sich selbst) im virtuellen Raum mit eigenen Augen sehen und hierdurch auf natürliche Art und Weise miteinander kommunizieren zu können, stellt eine der größten Stärken der beiden CAVES im Vergleich mit HMD-gebundener VR dar. Zudem ist die sichtbare Verankerung der Personen im 3D-Bildraum bemerkenswert: Man sieht sich selbst und die anderen Beteiligten im Modell als anwesende Körper, sie wirken dadurch fast wie fleischgewordene Photoshop-Menschen, wie man sie aus traditionellen Perspektiv-Renderings kennt. Eine seltsame Umkehrung – aber auch eine großartige Belebung des Bildraums, die ein vollkommen anderes Präsenzgefühl erzeugt, als es das vereinzelte Betreten einer 3D-Welt mit HMDs ermöglicht, selbst wenn Avatare anderer Personen zugegen sind. Das abschottende und vereinzelnde Moment, das VR-Brillen mit sich bringen, kann hier also überwunden werden. Ist das in Zeiten, da auch HMD-Technik immer stärker mit Eye-Tracking, Mimikerkennung und entsprechender Avatar-Animation arbeitet, noch immer ein Alleinstellungsmerkmal der Anlagen?
Masik: Ich vermute, Herr Aust und ich sind uns einig, dass HMD-gebundene VR und unsere CAVE-Systeme nicht als Konkurrenz, sondern als gegenseitige Ergänzung verstanden werden müssen. Gerade mit AR-Brillen werden die Schwächen der Selbstwahrnehmung im Gegensatz zu VR-HMDs deutlich verbessert. Und es gibt diesen als „Uncanny Valley“ bezeichneten Effekt, der besagt, dass wir unbewusst menschenähnlichen Avataren misstrauen und dies vor allem dann, wenn sie eigentlich besonders realistisch erscheinen sollen, aber Kleinigkeiten wie Körper-, Haar- oder sogar Augenbewegungen unnatürlich sind. Das ist ein klassisches Problem der Computergrafik und auch der Robotik. Deshalb werden die Charaktere in Animationsfilmen auch häufig bewusst abstrakt und vereinfacht und nicht wie echte Menschen dargestellt. Je menschenechter animierte Wesen aussehen, desto unangenehmer und unnatürlicher wirken sie in gewisser Weise auf uns, wenn sie letztendlich doch nicht absolut perfekt sind. Auch die natürliche Kommunikation mit Mimik und Gestik ist nach wie vor schwer kopierbar, auch weil das dafür notwendige Level von Live-(Mimik-)Tracking herausfordernd ist. Einfach mit dem Finger auf etwas hindeuten zu können, es auf natürliche Weise zu zeigen, diese für die zwischenmenschliche Kommunikation wesentliche Geste ist bei uns ohne zusätzliche Technik möglich, das ist unheimlich wertvoll. Uns ist aber dennoch wichtig, dass alle für den Elbedome umgesetzten VR-Erlebnisse skalierbar sind. Das bedeutet, dass die virtuellen Modelle auch mit normalen VR-Brillen betrachtet werden können. Damit möchten wir auch Personen, die nicht live vor Ort sind, die Möglichkeit geben, sich über eine VR-Brille aus der Distanz dem Erlebnis hinzuzuschalten. Zudem können hierdurch die Inhalte, die die Kunden im Elbedome erlebt haben, auch ‚mitgenommen‘ werden, um sie im Anschluss auf mobilen Geräten nochmals zu betrachten.
Aust: Ich kann nur bestätigen, dass das Sehen des eigenen Körpers ein ganz wichtiges Moment für die Wahrnehmung insgesamt ist, insbesondere für die Einschätzung von Größenverhältnissen und die eigene Verortung im Raum. Das können Avatare derart nicht leisten. Auch wir arbeiten dennoch daran, HMDs von außerhalb in CAVE-Sessions live einbinden zu können. Aktuell bin ich an einem BMBF-Projekt beteiligt, bei dem es unter anderem um Multi-User-VR geht. In einem dort assoziierten Projekt mit dem Titel Avatar wird erforscht, wie verschiedene Personen sich remote von unterschiedlichen Orten aus zusammenschalten können und welche Rolle die Art der Avatar-Visualisierung dabei spielt. Das Aussehen und die Bewegungen von Personen sowie ihre Mimik werden mit Hilfe einer Kamera getrackt, die automatisch eine Punktewolke erzeugt. Zwei Arten der Visualisierung dieser 3D-Daten der Personen wurden verglichen: Einerseits ein möglichst realistischer Avatar, wie in einem Computerspiel, der auch das Gesicht des Gegenübers sehr wirklichkeitsgetreu inklusive Mimikerkennung und Eye-Tracking wiedergibt. Andererseits die rohe Punktewolke des freigestellten Körpers. Beim Vergleich der beiden Umsetzungen stellte sich heraus, dass die meisten Anwender:innen den einfachen Punktewolken-Charakter bevorzugten, obwohl das Freistellen vom Hintergrund nicht immer perfekt funktioniert und im Gesicht der Personen ein großes Loch klafft, weil der zentrale Gesichtsbereich aufgrund des HMDs verdeckt und damit nicht darstellbar ist. Die Teilnehmer:innen empfanden das gesichtslose und grobe Avatar-Modell als besser, weil es ihnen trotz der grafischen Defizite ‚echter‘ erschien, da es wie ein Video aus der Wirklichkeit abgegriffene Livedaten repräsentiert. Das bestätigt unsere Erfahrungen zur Kommunikation in der CAVE: Wenn man direkt neben einer realen Person steht, mit der man kommunizieren kann, dann bewirkt das eine andere Stufe von Präsenzgefühl.
Reinfeld: Gleichwohl ist die visuelle Welt bezogen auf die perspektivische Darstellung in beiden Anlagen monozentral: Nur auf den Standpunkt einer getrackten Person hin wird das dreidimensionale Bild korrekt berechnet. Wie sehr schränkt diese Tatsache die Mehrbenutzerfähigkeit der beiden Anlagen ein?
Aust: Ja, das ist tatsächlich ein Problem und man muss den Nutzer:innen vor Beginn der Anwendung diese Besonderheit des Systems auf jeden Fall erklären. Im Elbedome dürfte das Problem anlagenbedingt noch größer sein als bei uns, weil der Abstand zwischen der getrackten Person, für die das Bild berechnet wird, und weiteren in der Anlage anwesenden Personen ziemlich groß sein kann und die Projektionswand weiter entfernt ist. Die technisch einfachste Lösung des Problems besteht darin, auf mehrere getrackte Brillen zu setzen, um spontan die korrekte Perspektivberechnung zwischen verschiedenen Personen umschalten zu können. Wir arbeiten aber auch an Möglichkeiten, mehrere individuell richtige Standpunktberechnungen gleichzeitig umsetzen zu können.
Masik: Bei uns ist das Problem nicht nur wegen der Ausmaße der Anlage größer, sondern auch wegen des 360°-Aufbaus. Wenn ein:e Nutzer:in in die entgegengesetzte Richtung der getrackten Brillenträger:in blickt, wird die Verzerrung extrem stark, weil die Augenseiten invertiert erscheinen. Eine Möglichkeit, mehrere Perspektiven gleichzeitig zu berechnen, bestünde in der Aufsplittung der Projektionsbilder. Unsere Projektoren schaffen 120 Hertz, so dass man, anstatt jedes Auge einer Person mit 60 Bildern pro Sekunde zu versorgen, auch den vier Augen von zwei Personen nur 30 Bilder zuspielen könnte. 30 Hertz pro Auge sind allerdings recht wenig und es würde zudem merklich dunkler, weil auch die Lichtleistung der Projektoren entsprechend aufgeteilt und damit abgeschwächt würde. Zusätzlich wäre die Ansicht der Bilder auf den Oberflächen im Dome für die Besucher:innen ohne Stereo-Brillen völlig unverständlich. Aktuell sind diese Bilder für die nicht getrackten Personen noch gut zu erkennen. Werden aber die Bilder für zwei Personen, die an unterschiedlichen Stellen im Raum stehen und in unterschiedliche Richtungen blicken projiziert, wird man ihren Inhalt von ‚außen‘ überhaupt nicht mehr erkennen können. Eine mögliche Lösung dieser Probleme bietet die sogenannte Omni-Stereoskopie, bei der einfach ausgedrückt jeder Bildpunkt für das linke und rechte Auge so berechnet wird, als ob ein getrackter Nutzer ihn gerade direkt anschauen würde. Dafür wird der normalerweise getrackte Augpunkt in der Regel auf den Mittelpunkt des Elbedomes festgelegt. Alle Personen, die sich im Zentrum der Anlage aufhalten, können das relativ korrekte stereoskopische Bild dann in alle Blickrichtungen sehen. Die Möglichkeit des dynamischen Umlaufens von Objekten fällt dabei weg, was bei einigen Anwendungsszenarien aber auch verzichtbar ist. Dieser Stereo-Modus ist interessant, wenn virtuelle Objekte sich nicht zu nah am Mittelpunkt befinden, da sie stark verzerrt werden würden und der fokussierte Modellgegenstand etwa fünf bis zwanzig Meter entfernt ist. Bei größeren Distanzen kann auf Stereoskopie auch gänzlich verzichtet und monoskopisch projiziert werden.
Reinfeld: Das erinnert schon fast wieder an die Funktionalität eines klassischen Bildpanoramas aus dem neunzehnten Jahrhundert, bei dem sich die Zuschauer:innen ebenfalls in einem zentralen Bereich eines Baus aufhalten müssen, um von dieser Stelle eine nahezu korrekte Sicht auf die Multiperspektive des sie umschließenden Bildes zu erhalten.
Herr Aust, bei Ihrem Vortrag in Hannover sagten Sie, dass sich mit VR die Schnittstelle zwischen Mensch und Daten in gewisser Weise auflöst bzw. dass die Grenze zwischen diesen beiden Kategorien nicht mehr eindeutig bestimmbar ist. Können Sie die mit dieser Aussage verbundene Änderung der Mensch-Maschine-Schnittstelle in Virtual-Reality-Umgebungen noch einmal erklären?
Aust: Wenn man eine Gruppe von Personen auffordert einen Computer zu zeichnen, dann entstehen meistens ein Monitor, eine Tastatur und eine Maus. Wenn man diese Frage auf die Virtuelle Realität überträgt und darum bittet zu zeichnen, was diese bedeutet, dann zeichnen die Befragten zunächst eine VR-Brille. Und das, obwohl man in der Virtuellen Realität die Brille eigentlich nicht mehr wahrnimmt, sondern nur die Virtuelle Welt. Das meine ich mit dem Verschwinden der Schnittstelle. Die Controller, die ich in den Händen halte, sehe ich nicht mehr als solche, sondern Ersatzbilder hiervon, wie z.B. virtuelle Hände oder irgendeine Art von virtuellem Werkzeug. Das eröffnet die Frage, wo sich die Mensch-Maschine-Schnittstelle eigentlich befindet, weil sie als solche nicht mehr wahrnehmbar ist.
Reinfeld: Die beiden Anlagen sind nicht nur Orte der Simulation virtueller Welten, sondern auch selbst physische Orte im Hier und Jetzt mit eigenen Qualitäten. In seinem Vortrag in Hannover hatte Herr Aust die planungszentrierte Anwendung des IPLabs einer nutzerzentrierten Anwendung z.B. in Bürgerbeteiligungsverfahren gegenübergestellt. Bei letzterer scheint mir die Verwendung des Labs über die bloße Klärung von Fachfragen hinauszureichen. Die Anlage wird zu einem kommunikativen, vielleicht sogar sozialen Ort. Herr Masik hatte bei unserem Besuch in Magdeburg erwähnt, dass die CAVE auch zu psychologischen Trainingszwecken eingesetzt wird. Können Sie beide etwas zu dieser sozialen, zwischenmenschlichen Komponente in der Nutzung der VR-Anlagen sagen? Vielleicht auch im Sinne von Erfahrungen und Beobachtungen, die Sie gemacht haben, bei denen Beteiligte Verhaltensformen zeigen, wie wir sie aus der realen Welt in dieser Form nicht kennen?
Masik: Besucher verhalten sich in der Anlage vollkommen unterschiedlich. Auch wir haben, wie es Herr Aust schon für das IPLab beschrieben hat, diese verschiedenen Phasen der Benutzung eingerichtet. Zu Beginn sollen die Besucher:innen zunächst die Möglichkeit erhalten sich ein wenig auszuprobieren, um zu verstehen, wie das alles funktioniert im VR-Dome. Dabei sieht man schnell, wie unterschiedlich die Leute mit der Situation umgehen. Manche agieren sehr zögerlich, wirken ein bisschen wackelig und verunsichert. Bei anderen Teilnehmer:innen habe ich direkt Angst, dass sie gegen unsere Leinwand krachen, so stürmisch laufen sie in die virtuelle Umgebung hinein. Manche schmeißen sich auch euphorisch auf den Boden, um unter ein virtuelles Modell gucken zu können. Es gibt aber auch Personen, die eine regelrechte Blockade bekommen, wenn sie die getrackte Brille aufsetzen. Sie wollen sich dann gar nicht mehr bewegen, als wären sie zu Stein geworden. Diese Personen würden sich auch nie trauen, durch eine virtuelle Wand hindurchzugehen. Obwohl sie es intellektuell verstehen, wollen sie partout nicht wahrhaben, dass im virtuellen Raum Dinge möglich sind, die im physischen Raum nicht funktionieren.
Aust: Eine interessante Erkenntnis besteht auch darin, dass in einem VR-Modell Fachplaner, vorsichtig ausgedrückt, manchmal überrascht wirken, dass andere Beteiligte, insbesondere die zukünftigen Nutzer:innen, plötzlich mitreden und eigene Ideen beisteuern. Das ist letzteren angesichts eines Fachplans aufgrund der fehlenden Kenntnis der dort verwendeten Abstraktionen und Symbole oftmals unmöglich, weil sie sich schwer tun zu verstehen, was auf dem Plan überhaupt dargestellt ist. Wir merken aber wiederum auch, dass Planer:innen untereinander eine ganz andere Wertschätzung für die Entwürfe und Themen des Gegenübers zeigen.
Reinfeld: Ich erlebe häufig, dass Studierende, aber auch erfahrene Kolleg:innen, die erstmals Kontakt mit VR haben, zunächst überfordert sind. Auch wenn seit Jahrzehnten im digitalen 3D-Raum von CAD-Programmen gearbeitet wird, sind die antrainierten Abstraktionsverfahren in Grundriss, Schnitt und Ansichten mit ihren Symbolen und zeichenhaften Übereinkünften derart prägend für die Kommunikation über Architektur, dass sich der direkte, körperbezogene und echtzeitliche Zugang zum Eins-zu-eins-Raum in VR für sie seltsam schwierig darstellt.
Aust: Je höher die Abstraktionsverfahren in den Disziplinen sind, desto schwerer tun sich die Fachleute. Die auf reine Linien und Symbole reduzierten Plandarstellungen der Elektrotechnik sind ein gutes Beispiel hierfür.
Reinfeld: Ich frage mich, ob es im 3D-Raum der Virtual Reality eventuell neue und anders funktionierende Formen der Abstraktion braucht, um kommunikationsfähig zu bleiben. Ich möchte diesen fachplanerischen Schwerpunkt der Anlagen zum Ende unseres Gesprächs nochmal bewusst verlassen. Denn die Labore sind jenseits ihrer Nutzung zur Verständigung über komplexe dreidimensionale Sachverhalte auch räumlich-immersive Erlebniswelten. Wir haben den Elbedome bei unserem Besuch als eine faszinierende Bild-Raum-Maschine erlebt, die vollkommen neue und ungewohnte Wahrnehmungsformen ermöglicht. In der vom früheren Intendanten der Berliner Festspiele Thomas Oberender konzipierten Programmreihe The New Infinity wird seit einigen Jahren versucht, die besonderen bildräumlichen Möglichkeiten von Planetarien als künstlerische Erfahrungsorte nutzbar zu machen. Die Projektionskuppeln mit ihrer außergewöhnlichen Form werden bildenden Künstler:innen, Klangkünstler:innen, Filmemacher:innen und Game-Designer:innen zur Konzeption neuer, immersiver Ausdrucksformen zur Verfügung gestellt. Im Elbedome ergeben sich aufgrund der Umkehrung der Projektionskuppel von oben nach unten, insbesondere bezogen auf eine Einbindung des Publikums, nochmals völlig andere kreative Optionen. Uns hat die überwältigende visuelle Wirkung des Ortes sehr beeindruckt. Selbst ohne den stereoskopischen Bildeffekt erzeugt die dynamische und interaktive Bindung des 360°-Bildes an eine sich im Raum bewegende Person eine sehr ungewöhnliche Dynamik, die eine geradezu performative Kraft ausstrahlt. Wurde eine Verwendung des Elbedomes als Ort künstlerischer Experimente in der Vergangenheit in Betracht gezogen oder womöglich bereits erprobt?
Masik: So umfassend und gezielt wie Sie das hier vorstellen leider nicht. Allerdings ist uns bewusst, dass unser Tracking-System im Prinzip auch ein Motion-Capturing-System ist. Einmal konnten wir bewundern, was mit diesem System im Elbedome im künstlerisch-kreativen Bereich möglich wäre: Bei der Live-Aufführung eines Tänzers, dessen Körper mit Tracking-Markern versehen war, wurden die Bewegungen in Echtzeit auf einen im Dome projizierten Avatar in der virtuellen Welt übertragen. Besonders die Doppelung der Bewegungen zwischen realem Körper und virtuellen Bewegungen war sehr eindrücklich. Leider ist das bisher die einzige Form einer künstlerischen Nutzung des Elbedomes gewesen. Wir sind da als klassische Informatiker und Ingenieure doch eher unkreativ, würden uns aber freuen, die Anlage auch solchen Nutzungsszenarien zu öffnen. Ein weiteres Anwendungsszenario, bei dem nicht die Visualisierung eines dreidimensionalen Sachverhalts im Zentrum steht, erproben wir seit einiger Zeit. Dabei geht es darum, den Elbedome als eine Art explorierbaren, interaktiven Wissens- oder Lernraum zu nutzen, denn in dem Raum lassen sich auch soziale Interaktionen mit visuellem Feedback umsetzen. Bei diesen Anwendungen werden Projektionen auf dem Boden und den Wänden des Domes verwendet, um Verhaltensweisen von Personen in der Gruppe zu bestätigen oder zu kommentieren. So können soziale Interaktionen und gruppendynamisches Verhalten untersucht und entwickelt werden. Das sind aber Ansätze, mit denen wir gerade erst beginnen zu arbeiten.
Reinfeld: Während derartige Möglichkeiten einer erweiterten Verwendung des Ortes für darstellende und performative Formate vor allem im Elbedome vorstellbar sind, eröffnet sich beim IPLab möglicherweise eine andere interessante konzeptionelle Parallele: In der bewussten Verbindung einer kommunikativen Besprechungssituation und einer zuschaltbaren, virtuellen Raumerweiterung erinnert der Ansatz des Labs an Ideen, wie sie in Erweiterung von Mark Zuckerbergs Social-Media-Plattformen unter der Bezeichnung Metaversum diskutiert werden. Die hierbei in Aussicht gestellten virtuellen Zusammenkünfte mehrerer Nutzer:innen sind, zumindest auf den Bereich der Arbeitswelt bezogen, vom Ansatz her durchaus artverwandt zu der Konzeption des IPLabs. Würden Sie mir darin zustimmen? Wie ordnen Sie die Diskussionen zum Thema eines künftigen Metaversums in diesem Zusammenhang ein?
Aust: Wie ich bereits erwähnt habe verfolgen wir derzeit Pläne das Labor aus- und umzubauen, wobei auch der Begriff „Metaverse“ schon gefallen ist; insbesondere die Option Satelliten hinzuzuschalten, also Teilnehmer:innen einzubinden, die sich von andernorts mittels VR in die Labor-VR zuschalten. Egal, ob mit HMDs oder sogar aus einer anderen großen CAVE-Anlage heraus. Gerade eine echtzeitsynchronisierte VR-Sitzung zwischen Immersive Particpation Lab in Stuttgart und Elbedome in Magdeburg wäre ein denkbares und wirklich aufregendes Szenario. Von solchen Vorstellungen ist es zur Idee des Metaverse ein nicht mehr so weiter Weg.
Reinfeld: Und haben Sie dabei eher die Vorstellung eines fragmentierten Raums im Kopf, bei dem jede:r Teilnehmer:in, wenn man so will, einen Teil der eigenen Wirklichkeit in den kollektiven VR-Raum mit einbringt, oder bedarf es eher eines virtuellen Gemeinschaftsraums, der weitgehend vordefiniert und unabhängig von den individuellen Realitäten der Teilnehmer:innen ist?
Aust: Das ist vor allem von der Anwendung und von der Zielsetzung abhängig. Bei Gebäude- und Anlagenfragen liegt es nahe, sich direkt in virtuellen Stellvertretern der Orte und Räume zu treffen, deren Gestaltung zur Diskussion steht. Wenn es primär darum geht sich zu besprechen, unabhängig von einer baulich-räumlichen Frage, dann haben vorkonfigurierte virtuelle Besprechungsräume wahrscheinlich mehr Sinn. Aber sicher stellt auch die Möglichkeit von fragmentierten Räumen, bei denen jede:r etwas aus seiner Realität einbringt, was der Anwendung oder Zielsetzung zuträglich ist, ein interessantes Szenario dar.
Masik: Ich sehe das alles eher skeptisch. Meta und Facebook sind weder die einzigen noch die ersten, die in diese Richtung entwickeln und forschen. NVIDIAs Omniverse wäre so eine Plattform, die zugleich auf professionellere Anwendungsszenarien abzielt. Da gibt es im Industriebereich durchaus schon einiges, das tatsächlich erprobt wird. Es ist am Ende auch immer eine ökonomische Frage. Es muss schon nachhaltige Vorteile bringen und vor allem von den beteiligten Personen angenommen werden, weil der Aufwand, virtuelle Arbeitsplattformen zu produzieren und stets aktuell zu halten, nicht zu unterschätzen ist.
Reinfeld: Sehr geehrter Herr Aust, sehr geehrter Herr Masik, ich danke Ihnen sehr für das interessante Gespräch und hoffe, mich in naher Zukunft bei einem virtuellen Zusammenschluss von Elbedome und Immersive Participation Lab per VR-Brille aus Braunschweig oder Berlin hinzuschalten zu können.
Bildnachweise
Abb. 5.1: © Uwe Völkner, Fraunhofer IFF.
Abb. 5.2: Immersive Participation Lab, Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO, Stuttgart.