生物统计学系列研讨会- GPT有多(过度)自信? 利用输出标记概率评估卫生澳门威尼斯人注册网站研究中的法学硕士校准.
- 开始: 12点45 在 2024年11月14日,星期四
- 结束: 下午1:45 在 2024年11月14日,星期四
发言人:
Alyssa Bilinski博士,布朗大学彼得森家庭助理教授文摘:
大型语言模型(llm)是一种很有前途的技术,可以支持基于医疗数据的分类任务。 然而,从法学硕士生成的分类中辨别不确定性仍然具有挑战性。 llm通过将输入文本分解成大约8个字符的小块(“输入令牌”),并用神经网络分析这些文本,为潜在的“输出令牌”分配概率,从而处理输入文本。 如果一组潜在输出被限制为一组离散的分类任务,这些概率可以映射到模型估计的类概率,即给定输入数据的特定观测值属于一类的概率。 我们展示了如何分析这些概率:1)评估和改进模型校准; 2)优化LLM输出的人工评审; 3)作为二级分类器的特征,进一步改进模型校准。 我们说明了标记训练集(n=974)的表现,表征了在ClinicalTrials.gov注册的澳门威尼斯人注册网站研究是否包括怀孕的参与者。 在所有模型中,与模型选择分类相关的概率都很高(中位数:0.996,IQR: 0.996-1),正确分类的观测值(中位数:0.999,IQR: 0.997-1)与错误分类的观测值(中位数:0.877,IQR: 0.702-0.980)之间存在显著差异。 分布充分分离,以支持基于模型的分类的有针对性的审查; 手动审查具有最低6%模型估计概率的分类可以减少50%的错误。 然而,在所有分类观察组和类别中,模型估计的概率表现出正偏倚,经验精度低于模型估计的概率。 总的来说,llm估计的概率可以提高对模型性能的理解,并支持有针对性的输出审查。
生物:
Alyssa M. Bilinski,博士,硕士,AM,是布朗大学公共卫生学院卫生服务、政策与实践和生物统计系彼得森家庭卫生政策助理教授。 她的澳门威尼斯人注册网站研究是政策评估和建模的交叉:开发新的方法来支持决策,并应用这些方法来确定可以最有效地改善人口健康和福祉的干预措施。 她在同行评议的医学、科学、政策和方法期刊上发表了大量文章,并与州、地方和联邦公共卫生官员合作,帮助将她的澳门威尼斯人注册网站研究转化为实践。 Bilinski博士获得哈佛大学卫生政策(评估科学与统计)博士学位和统计学硕士学位,作为马歇尔学者获得伦敦卫生和热带医学学院医学统计硕士学位,并获得耶鲁大学学士学位。
- 地点:
- Presentati在 in CT 305 or Online via Zoom ( Meeting ID: 961 3147 3264, Passcode: 334135)
- 链接:
- https://bost在u.zoom.us/j/96131473264?pwd=b1JzZXhvQ0FJQURkUHNHM09IZmR5dz09#success
- 联系人姓名
- 克拉拉M佩雷拉
- 联系电子邮件
- claraper@bu.edu
- 视频会议链接(Zoom、GoToMeeting等)
- https://bost在u.zoom.us/j/96131473264?pwd=b1JzZXhvQ0FJQURkUHNHM09IZmR5dz09#success
- 主持人(系、院、中心等)
- 生物统计学系
- 公共卫生学院观众(教职员工、全体学生、在校学生、在线公共卫生硕士学生)
- 教职员工,所有学生,在校学生,在线MPH学生
- 向公众开放(否,只接受邀请)
- 没有
- 地址
- 克罗斯敦中心,马萨诸塞大街801号,生物统计学系3楼,马萨诸塞州波士顿,02118