Autonome, auf maschinellem Lernen basierte KI-Agenten haben begonnen, Teil unseres Alltags zu werden, von selbstfahrenden Autos bis hin zu Chatbots als persönliche Assistenten. Viele dieser Agenten werden mit Hilfe von Reinforcement Learning trainiert, wobei ein System von Belohnungen oder Bestrafungen eingesetzt wird, um bestimmte Verhaltensweisen zu fördern oder zu unterbinden. In jüngster Zeit hat der rasche Fortschritt in diesen Bereichen Sicherheitsbedenken aufgeworfen, sodass manche Experten sogar einen vorübergehenden Entwicklungsstopp forderten. Wenn wir KI-Agenten in unsere Gesellschaft integrieren wollen, sollten wir sicherstellen, dass sie ethischen, rechtlichen und sozialen Normen unterliegen, ähnlich wie Menschen. Diese Arbeit befasst sich mit der Frage, wie wir sicherstellen können, dass Agenten, die mit Reinforcement Learning trainiert wurden, Normen einhalten, ohne an Nutzen zu verlieren. Unser Ansatz erweitert bestehende Techniken mit Algorithmen für lexikographische Mehrzielprobleme. Bei diesen sind die Ziele nach Priorität geordnet und werden unter der Bedingung optimiert, dass vorherige Ziele bereits optimiert wurden. Mit einem externen Theorembeweiser für deontische Logik - die Logik der Verpflichtungen und Erlaubnisse - bestrafen wir den Agenten für die Verletzung von Normen. Indem er zunächst diese normativen Strafen minimiert und dann seine anderen Ziele optimiert, lernt der Agent, sein Ziel zu erreichen und dabei eine Vielzahl von Normen einzuhalten. Wir evaluieren diesen Ansatz experimentell, indem wir ihn mit verschiedenen Agenten testen, die das Arcade-Spiel Pac-Man spielen. In einer vereinfachten Version des Spiels lernten die Agenten, die Normen nicht zu verletzen und gewannen die meisten ihrer Testspiele. Sie waren jedoch nicht in der Lage, das gleiche Leistungsniveau in einer komplexeren Umgebung zu erreichen.
Yinbo SunLintao MaYu LiuShijun Wang
Naoto HorieTohgoroh MatsuiKoichi MoriyamaAtsuko MutohNobuhiro Inuzuka
Emery A. NeufeldEzio BartocciAgata CiabattoniGuido Governatori