Can We Really Trust Explanations? Evaluating the Stability of Feature Attribution Explanation Methods via Adversarial Attack

Yang Zhao; Yuanzhe Zhang; Zhongtao Jiang; Yiming Ju; Jun Zhao; Kang Liu

doi:10.1007/978-3-031-18315-7_18

ScienceGate Book Chapters

BOOK-CHAPTER

Can We Really Trust Explanations? Evaluating the Stability of Feature Attribution Explanation Methods via Adversarial Attack

Yang Zhao Yuanzhe Zhang Zhongtao Jiang Yiming Ju Jun Zhao Kang Liu

Year: 2022 Lecture notes in computer science Pages: 281-297 Publisher: Springer Science+Business Media

DOI: 10.1007/978-3-031-18315-7_18

Get Full-Text PDF Get Analytical Report

Keywords:

Adversarial system Computer science Credibility Stability (learning theory) Frame (networking) Feature (linguistics) Transparency (behavior) Trustworthiness Artificial intelligence Semantics (computer science) Attribution Machine learning Computer security Epistemology Linguistics

Metrics

Cited By

1.09

FWCI (Field Weighted Citation Impact)

Refs

0.80

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Adversarial Robustness in Machine Learning

Physical Sciences → Computer Science → Artificial Intelligence

Explainable Artificial Intelligence (XAI)

Physical Sciences → Computer Science → Artificial Intelligence

Scientific Computing and Data Management

Social Sciences → Decision Sciences → Information Systems and Management

Can We Really Trust Explanations? Evaluating the Stability of Feature Attribution Explanation Methods via Adversarial Attack

Metrics

Citation History

Topics

Related Documents

Empirical Analysis of Methods for Evaluating Faithfulness of Explanations by Feature Attribution

Explanation-Guided Minimum Adversarial Attack

XSub: Explanation-Driven Adversarial Attack against Blackbox Classifiers via Feature Substitution

A Confusion Matrix for Evaluating Feature Attribution Methods

Evaluating feature attribution methods in the image domain