Wenxuan Wang

Wenxuan Wang 王文轩
Assistant Professor in Computer Science@Renmin University of China
I am extremely outgoing. Please feel free to reach me at:
Email: jwxwang@gmail.com

2026

How Should I Build A Benchmark? Revisiting Code-Related Benchmarks For LLMs
Jialun Cao, Yuk-Kit Chan, Zixuan Ling, Wenxuan Wang (Corresponding), Pinjia He, Shuai Wang, Zibin Zheng, Michael R. Lyu, Shing-Chi Cheung
ICML, 2026
| arXiv |

Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models
Wenting Chen, Guo Yu, Yiu-Fai Cheung, Meidan Ding, Jie Liu, Zizhan Ma, Wenxuan Wang (Co-Corresponding), Linlin Shen
ACL, 2026
| arXiv |

POLYCHARTQA: Benchmarking Large Vision-Language Models with Multilingual Chart Question Answering
Yichen Xu, Liangyu Chen, Liang Zhang, Zihao Yue, Jianzhe Ma, Wenxuan Wang (Co-Corresponding), Qin Jin
ACL, 2026
| arXiv | code |

JARVIS or Ultron? A Survey on the Safety and Security Threats of Computer-Using Agents
Ada Chen, Yongjiang Wu, Junyuan Zhang, Jingyu Xiao, Shu Yang, Jen-tse Huang, Kun Wang, Wenxuan Wang (Corresponding), Shuai Wang
ACL, 2026
| arXiv |

A Survey of Deep Learning for Geometry Problem Solving
Jianzhe Ma, Wenxuan Wang (Co-Corresponding), Qin Jin
ACL, 2026
| arXiv |

A Survey of Large Models in Sports
Yichen Xu, Jianzhe Ma, Chuhan Wang, Zhonghao Cao, Liangyu Chen, Wenxuan Wang (Co-Corresponding), Qin Jin
Findings of ACL, 2026
| arXiv |

Identifying the Achilles' Heel: An Iterative Method for Dynamically Uncovering Factual Errors in Large Language Models
Wenxuan Wang, Yuk-Kit Chan, Zixuan Ling, Juluan Shi, Zhaopeng Tu, Youliang Yuan, Jen-tse Huang, Wenxiang Jiao, Michael R. Lyu
Findings of ACL, 2026
| arXiv | code |

3D Software Synthesis Guided by Constraint-Expressive Intermediate Representation
Shuqing Li, Anson Y. Lam, Yun Peng, Wenxuan Wang (Corresponding), Michael R. Lyu
ICSE, 2026
| arXiv |

ChartEditor: A Reinforcement Learning Framework for Robust Chart Editing
Liangyu Chen, Yichen Xu, Jianzhe Ma, Yuqi Liu, Donglu Yang, Liang Zhang, Zihao Yue, Wenxuan Wang (Co-Corresponding), Qin Jin
AAAI, 2026
| arXiv |

2025

MedChain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence
Jie Liu*, Wenxuan Wang*, Zizhan Ma, Guolin Huang, Kao-Jung Chang, Linlin Shen, Michael R. Lyu, Wenting Chen,
[Spotlight] NeurIPS DB Track, 2025
| arXiv | code |

Learning to Ask: When LLM Agents Meet Unclear Instruction
Wenxuan Wang, Juluan Shi, Chaozheng Wang, Cheryl Lee, Youliang Yuan, Jen-tse Huang, Michael R. Lyu
[Best Paper Nomination] EMNLP, 2025
| arXiv | code |

AI Sees Your Location—But With A Bias Toward The Wealthy World
Jingyuan Huang, Jen-tse Huang, Ziyi Liu, Xiaoyuan Liu, Wenxuan Wang (Corresponding), Jieyu Zhao
EMNLP, 2025
| arXiv | code |

VisBias: Measuring Explicit and Implicit Social Biases in Vision Language Models
Jen-tse Huang, Jiantong Qin, Jianping Zhang, Youliang Yuan, Wenxuan Wang (Corresponding), Jieyu Zhao
EMNLP, 2025
| arXiv | code |

Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries
Jen-tse Huang, Yuhang Yan, Linqi Liu, Yixin Wan, Wenxuan Wang (Corresponding), Kai-Wei Chang, Michael R Lyu
Findings of EMNLP, 2025
| arXiv | code |

Metamorphic Testing for Audio Content Moderation Software
Wenxuan Wang, Yongjiang Wu, Junyuan Zhang, Shuqing Li, Yun Peng, Wenting Chen, Shuai Wang, Michael R. Lyu
ASE, 2025
| arXiv | code |

ChartM3: Benchmarking Chart Editing with Multimodal Instructions
Donglu Yang, Liang Zhang, Zihao Yue, Liangyu Chen, Yichen Xu, Wenxuan Wang (Co-Corresponding), Qin Jin
[Oral]ACM MM, 2025
| arXiv | code |

Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs
Wenxuan Wang, Xiaoyuan Liu, Kuiyi Gao, Jen-tse Huang, Youliang Yuan, Pinjia He, Shuai Wang, Zhaopeng Tu
ACL, 2025
| arXiv | code |

A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models
Jie Liu*, Wenxuan Wang*, Yihang Su, Jingyuan Huan, Wenting Chen, Cheng-Yi Li, Kao-Jung Chang, Xiaohan Xin, Linlin Shen, Michael R. Lyu
ACL, 2025
| arXiv | code |

Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step
Wenxuan Wang, Kuiyi Gao, Zihan Jia, Youliang Yuan, Jen-tse Huang, Qiuzhi Liu, Shuai Wang, Wenxiang Jiao, Zhaopeng Tu
ACL Findings, 2025
| arXiv | code |

A Survey of LLM-based Agents in Medicine: How far are we from Baymax?
Wenxuan Wang*, Zizhan Ma*, Zheng Wang, Chenghan Wu, Jiaming Ji, Wenting Chen, Xiang Li, Yixuan Yuan
ACL Findings, 2025
| arXiv |

On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents
Jen-tse Huang, Jiaxu Zhou, Tailin Jin, Xuhui Zhou, Zixi Chen, Wenxuan Wang (Co-Corresponding), Youliang Yuan, Michael R. Lyu, Maarten Sap
ICML, 2025
| arXiv | code |

Competing Large Language Models in Multi-Agent Gaming Environments
Jen-tse Huang, Eric John Li, Man Ho Lam, Tian Liang, Wenxuan Wang (Co-Corresponding), Youliang Yuan, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Michael R. Lyu
ICLR, 2025
| arXiv | code |

2024

Apathetic or Empathetic? Evaluating LLMs' Emotional Alignment with Humans
Jen-tse Huang, Man Ho Lam, Eric John Li, Shujie Ren, Wenxuan Wang (Co-Corresponding), Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu
NeurIPS, 2024
| arXiv | code |

On the Reliability of Psychological Scales on Large Language Models
Jen-tse Huang, Wenxiang Jiao, Man Ho Lam, Eric John Li, Wenxuan Wang (Co-Corresponding), Michael R. Lyu
EMNLP Main, 2024
| arXiv | code |

LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models
Yuxuan Wan*, Wenxuan Wang*, Yiliu Yang, Youliang Yuan, Jen-tse Huang, Pinjia He, Wenxiang Jiao, Michael R. Lyu
EMNLP Main, 2024
| arXiv | code |

New Job, New Gender? Measuring the Social Bias in Image Generation Models
Wenxuan Wang, Haonan Bai, Jen-tse Huang, Yuxuan Wan, Youliang Yuan, Haoyi Qiu, Nanyun Peng, Michael R. Lyu
[Oral 174/4385 3.97%] ACMMM, 2024
| arXiv | code |

Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in Large Language Models
Wenxuan Wang, Wenxiang Jiao, Jingyuan Huang, Ruyi Dai, Jen-tse Huang, Zhaopeng Tu, Michael R. Lyu
ACL Main, 2024
| arXiv |

All Languages Matter: On the Multilingual Safety of Large Language Models
Wenxuan Wang, Zhaopeng Tu, Chang Chen, Youliang Yuan, Jen-tse Huang, Wenxiang Jiao, Michael R. Lyu
ACL Findings, 2024
| arXiv | code |

On the Humanity of Conversational AI: Evaluating the Psychological Portrayal of LLMs
Jen-tse Huang, Wenxuan Wang, Eric John Li, Man Ho Lam, Shujie Ren, Youliang Yuan, Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu
[Oral 86/7404 1.16%] ICLR, 2024
| arXiv | code |

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher
Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He, Shuming Shi, Zhaopeng Tu
ICLR, 2024
| arXiv | code |

2023

An Image is Worth a Thousand Toxic Words: A Metamorphic Testing Framework for Content Moderation Software
Wenxuan Wang, Jingyuan Huang, Jen-tse Huang, Chang Chen, Jiazhen Gu, Pinjia He, Michael R. Lyu
ASE, 2023
| arXiv |

Validating Multimedia Content Moderation Software via Semantic Fusion
Wenxuan Wang, Jingyuan Huang, Chang Chen, Jiazhen Gu, Jianping Zhang, Weibin Wu, Pinjia He, Michael Lyu
ISSTA, 2023
| arXiv | code |

MTTM: Metamorphic Testing for Textual Content Moderation Software
Wenxuan Wang, Jen-tse Huang, Weibin Wu, Jianping Zhang, Yizhan Huang, Shuqing Li, Pinjia He, Michael Lyu
ICSE, 2023
| arXiv | code |

BiasAsker: Measuring the Bias in Conversational AI System
Yuxuan Wan*, Wenxuan Wang*, Pinjia He, Jiazhen Gu, Haonan Bai, Michael Lyu
FSE, 2023
| arXiv | code |

Improving the Transferability of Adversarial Samples by Path-Augmented Method
Jianping Zhang, Jen-tse Huang, Wenxuan Wang, Yichen Li, Weibin Wu, Xiaosen Wang, Yuxin Su, Michael R. Lyu
CVPR, 2023
| arXiv |

ParroT: Translating During Chat Using Large Language Models tuned with Human Translation and Feedback
Wenxiang Jiao, Jen-tse Huang, Wenxuan Wang, Zhiwei He, Tian Liang, Xing Wang, Shuming Shi, Zhaopeng Tu
EMNLP Findings, 2023
| arXiv | code |

2022 and Previous

Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation
Wenxuan Wang, Wenxiang Jiao, Yongchang Hao, Xing Wang, Shuming Shi, Zhaopeng Tu, Michael Lyu
ACL Main, 2022
| arXiv |

Improving Adversarial Transferability via Neuron Attribution-Based Attacks
Jianping Zhang, Weibin Wu, Jen-tse Huang, Yizhan Huang, Wenxuan Wang, Yuxin Su, Michael R. Lyu
CVPR, 2022
| arXiv | code |

Rethinking the Value of Transformer Components
Wenxuan Wang, Zhaopeng Tu
COLING, 2020
| arXiv |

FPETS : Fully Parallel End-to-End Text-to-Speech System
Dabiao Ma*, Zhiba Su*, Wenxuan Wang*, Yuhao Lu
[Oral 200/7737 2.59%] AAAI, 2020
| arXiv |

Preprint

VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models
Jen-tse Huang, Dasen Dai, Jen-yuan Huang, Youliang Yuan, Xiaoyuan Liu, Wenxuan Wang (Corresponding), Wenxiang Jiao, Pinjia He, Zhaopeng Tu
arXiv, 2025
| arXiv | code |

Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine
Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Xing Wang, Shuming Shi, Zhaopeng Tu
arXiv, 2023
| arXiv | code |