Evaluating Large Language Models in Class-Level Code Generation

Xueying Du; Mingwei Liu; Kaixin Wang; Hanlin Wang; Liu Jun-wei; Yixuan Chen; Jiayi Feng; Chaofeng Sha; Xin Peng; Yiling Lou

doi:10.1145/3597503.3639219

ScienceGate Book Chapters

JOURNAL ARTICLE

Evaluating Large Language Models in Class-Level Code Generation

Xueying Du Mingwei Liu Kaixin Wang Hanlin Wang Liu Jun-wei Yixuan Chen Jiayi Feng Chaofeng Sha Xin Peng Yiling Lou

Year: 2024 Pages: 1-13

DOI: 10.1145/3597503.3639219

Get Full-Text PDF Get Analytical Report

Abstract

Recently, many large language models (LLMs) have been proposed, showing advanced proficiency in code generation. Meanwhile, many efforts have been dedicated to evaluating LLMs on code generation benchmarks such as HumanEval. Although being very helpful for comparing different LLMs, existing evaluation focuses on a simple code generation scenario (i.e., function-level or statement-level code generation), which mainly asks LLMs to generate one single code unit (e.g., a function or a statement) for the given natural language description. Such evaluation focuses on generating independent and often small-scale code units, thus leaving it unclear how LLMs perform in real-world software development scenarios.

Keywords:

Statement (logic) Computer science Code (set theory) Code generation Function (biology) Class (philosophy) Natural language generation Programming language Natural language Computer security Artificial intelligence Political science Key (lock)

Metrics

Cited By

45.35

FWCI (Field Weighted Citation Impact)

Refs

1.00

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Topic Modeling

Physical Sciences → Computer Science → Artificial Intelligence

Natural Language Processing Techniques

Physical Sciences → Computer Science → Artificial Intelligence

Software Engineering Research

Physical Sciences → Computer Science → Information Systems

Evaluating Large Language Models in Class-Level Code Generation

Abstract

Metrics

Citation History

Topics

Related Documents

ClassEval-T: Evaluating Large Language Models in Class-Level Code Translation

CodeJudge: Evaluating Code Generation with Large Language Models

Framework for evaluating code generation ability of large language models

Code-level quantum circuit generation based on large language models

Invited Paper: VerilogEval: Evaluating Large Language Models for Verilog Code Generation