Maschinelles Lernen wird zu einem integralen Bestandteil jeder modernen Softwareanwendung. Sein Erfolg ist direkt mit der Auswahl des richtigen Algorithmus für die verschiedenen wichtigen Lernaufgaben verbunden. Der Prozess der Algorithmenauswahl birgt jedoch seine eigenen Herausforderungen, denn das "no free lunch"-Theorem besagt, dass "jede höhere Leistung bei einer Klasse von Problemen durch die niedrigere Leistung bei einer anderen Klasse ausgeglichen wird". Mit anderen Worten, ein Algorithmus kann nicht für alle Arten von Problemen die beste Lösung sein. Ein Algorithmus kann für ein Problem eine optimale und für ein anderes eine schlechte Lösung sein.Diese Arbeit konzentriert sich auf die Kategorie des überwachten maschinellen Lernens, bei dem die Daten in Eingabe- und Ausgabevariablen aufgeteilt und dem Algorithmus übergeben werden. Das Ziel darin besteht, Muster zu erkennen, bei denen nur die Eingabevariablen die Ausgabevariable vorhersagen können. Die Notwendigkeit, optimale Lösungen für diese Art von Problemen zu finden, hat zum Aufkommen von Automated Machine Learning (AutoML) geführt. Die AutoML-Domäne befasst sich mit der Ermittlung des leistungsfähigsten Algorithmus für ein bestimmtes maschinelles Lernproblem sowie mit der Bestimmung anderer kritischer Schritte wie Vorverarbeitung, Featureextraktion und Featureauswahl.Das vorgeschlagene Framework mit dem Namen \textit{MetaheuristicSklearn} ermöglicht die Entwicklung und Reproduktion von mehrstufigen, kontrollierten Klassifizierungspipelines auf zusammenhängender Weise. Das Framework bietet eine Standardmethode zur Implementierung und Integration von Pipelineschritten und Parametern unter Verwendung verschiedener Techniken. Darüber hinaus wurden die metaheuristischen Algorithmen: (i) Simulated Annealing, (ii) Tabu Search und (iii) Iterated Local Search (ILS) im Rahmen von Solver-Algorithmen zur Ermittlung optimaler AutoML-Lösungen angewendet und evaluiert. Die drei Lösungsverfahren wurden in einer großen Datensatz-Benchmark-Sammlung eingesetzt, um das Framework zu evaluieren. Die Leistung der Algorithmen wurde bewertet und mit den modernsten AutoML-Frameworks verglichen. Darüber hinaus haben wir mehrere neighborhood operators vorgeschlagen, verschiedene Algorithmenkonfigurationen bewertet und die einzelnen Komponenten untersucht.Basierend auf unseren Experimenten mit 31 Datensätzen aus der OpenML-CC18 Benchmarking Suite, schneiden Tabu Search und ILS besser ab als Simulated Annealing. Tabu Search war der beste Algorithmus für 15 von 31 Datensätzen, ILS für 13 von 31, und Simulated Annealing war nur in 3 von 31 Datensätzen der beste Algorithmus. Der Algorithmus-Parameter-Tuning-Prozess erwies sich ebenfalls als recht effektiv, wobei die Gesamtverbesserung des F1-Score im Vergleich zu den Standardparametern durchschnittlich 7% betrug.Schließlich bietet das vorgeschlagene MetaheuristicSklearn-Framework im Vergleich zu hochmodernen AutoML-Frameworks in 9 von 31 Fällen eine leistungsfähigere Pipeline. Darüber hinaus war die Genauigkeit des MetaheuristicSklearn-Frameworks für alle Datensätze etwa 2% schlechter als die des leistungsstärksten Frameworks.
Mekala Sachith ReddyG Manjula V MaheshT. Prem Jacob
Ilyas Ahmad HuqqaniLea Tien TayJunita Mohamad–Saleh