Für das Training generativer Sprachmodelle werden oft große Datenmengen benötigt, die allerdings nicht für alle Sprachen verfügbar sind. In-Context Learning bietet einen Ansatz, bei dem Modelle aus den im Prompt gezeigten Beispielen lernen. Das Ziel dieser Forschung war es, zu untersuchen, wie Faktoren wie Anzahl der Beispielannotationen, linguistische Diversität, Sprachähnlichkeit zwischen Quell- und Zielsprache und syntaktische Ähnlichkeit den Modelloutput beeinflussen. Hierfür wurden In-Context Learning Experimente zu POS-Tagging und Dependency Parsing mit romanischen Sprachen und Baskisch durchgeführt, wobei die romanischen Minderheitensprachen Galizisch, Katalanisch und Okzitanisch im Fokus standen. Die Ergebnisse zeigten, dass das Zeigen von Beispielen wenig Einfluss auf die Modellperformanz hat, wenn strukturelle und linguistische Constraints eingesetzt werden, da bereits 0-Shot Ergebnisse überzeugend sind. Darüber hinaus erzielen Constraints, die für eine Hochressourcensprache erstellt wurden, auch für Minderheitensprachen gute Ergebnisse. Zudem korrelieren Sprach- und syntaktische Ähnlichkeit der Beispielannotationen in manchen Fällen mit der Modellperformanz, wobei jedoch keine klaren Zusammenhänge ableitbar sind. Diese Forschung demonstriert das Potenzial computerlinguistischer Methoden in traditionellen philologischen Disziplinen, insbesondere der Romanistik, und deren Beitrag zur Optimierung von Verfahren für unterrepräsentierte Sprachen.
Xiang HuPengyu JiQingyang ZhuWei WuKewei Tu