avatar
李英彦
liyingyan7@outlook.com

👧个人信息

  • 1997.07 · 中共党员

  • 研究方向:自然语言处理 / 信息检索

🎓教育经历

  • 中国科学院计算技术研究所(保送) 硕士,计算机软件与理论

    研究方向:信息检索,指导老师:郭嘉丰研究员

  • 四川师范大学 学士,计算机科学与技术

    排名:1 / 232

💻项目经历

  • 面向信息检索的预训练方法 2020.09 - 2021.01

    基于BERT模型的信息检索任务,其性能的提升往往不大,因此提出面向信息检索的预训练目标。

    基本假设:查询是从理想文档生成的最有代表性的词,如果语言模型能够更好地识别文档中最有代表性的词,其就能更好地获得查询和文档的相关性;

    核心思想:提出了代表性词预测(ROP)任务,应用预训练Transformer模型预测任意词对的偏好,并对文档代表性的词对做出响应;

    具体方法:使用BERT的CLS标记计算文档分布,将所有文档的分布期望作为随机文档分布,计算真实分布和随机分布之间的交叉熵作为最终文档分布进行代表词采样;

    实验效果:在Robust04等小数据集以及MSMARCO大规模数据集上取得了优于BERT、PROP等预训练方法的效果。

  • MSMARCO Document Ranking 2020.09 - 2021.06

    首个在MRR@100上超过0.4的方法,超越了Bosch Center for AI、清华-微软团队、斯坦福大学、卡内基梅隆大学等企业和高校,斩获2次榜首;

    召回阶段:使用docTTTTTquery对文档进行扩展 / DeepCT方法对文档建立索引,采用BM25算法召回top100;

    重排阶段:设计了多种(难)负例采样方法和多种ensemble方法对基于BERT、PROP的结果进行融合。

  • 智源文澜多模态预训练(核心成员) 2020.12 - 2021.06

    基于图-文对弱相关的假设,在团队自行构建的大规模图文数据集上进行训练,得到大规模多模态预训练模型“文澜”。

    数据:负责百科数据源图文数据对的构建:爬取、清洗、脱敏处理和分析;

    模型:进行模型架构探索,复现基于中文数据的LXMert和UNITER的预训练及图文检索的下游任务,分析图文和纯文本LM词向量可视化差异;

    应用:参与基于文澜的“只言片语AI版”小游戏的设计与开发。

  • 面向信息检索的listwise(正在进行的工作) 2021.06 - 至今

    预训练模型受输入长度的限制,导致无法直接对排序任务中的所有候选文档集进行列表式建模,难以捕捉不同文档间的相互关系,因此提出面向信息检索的列表式建模方法

    传统方法:训练阶段通过设置损失函数建模文档间的关系,但在推理阶段只能完成单独打分排序; 方法改进:探索排序任务中候选集文档间的相互影响,提出上下文感知的模型来捕捉候选集文档的交互。

  • Matchzoo文本匹配工具包(核心成员) 2018.10 - 2019.12

    由所在研究组开发的一个基于Python的文本匹配工具包,Github上累积超过3500个stars。

    参与Pytorch版本的Matchzoo-py的开发,调研并实现了QA相关的模型。

📖发表论文

Xinyu Ma, Jiafeng Guo, Ruqing Zhang, Yixing Fan, Yingyan Li, Xueqi Cheng. B-PROP: Bootstrapped Pre- training with Representative Words Prediction for Ad-hoc Retrieval,SIGIR 2021, (CCF A, Long Paper)

🏆荣誉奖项

  • 2017年 第八届重庆大学生程序设计竞赛一等奖
  • 2018年 第十届四川省大学生程序设计大赛银奖
  • 2018年 蓝桥杯第九届 C/C++程序设计决赛二等奖
  • 2018年 CCPC秦皇岛站铜牌
  • 2018年 ACM-ICPC亚洲区域赛南京站铜牌
  • 2019年 四川师范大学特等奖学金
  • 2019年 四川省优秀大学毕业生
  • 2020年 中国科学院大学三好学生
  • 2021年 中国科学院大学优秀学生干部