自己紹介
経験
后端研发
Seed - - 今
职位: 后端研发 | 时间段: 2023.04-2025.08 | 工作内容: 项目:搜索插件平台重构职责描述:以DAG为核心进行搜索工具化重构,将搜索资源最小化为strategy算子,通过配置实现多场景复用,将搜索作为工具在多个场景提供原子能力;设计可配置DAG流程,支持动态编排和灵活扩展;完成plugin中视频搜索链路迁移,优化视频搜索性能,视频卡点击率提升4%;迁移头条热榜、微博热榜链路,引入微博热榜、文娱榜泛热点内容及头条热榜doc参考摘要,丰富搜索内容来源。项目:热点资源引入职责描述:针对时效性场景构建plugin联网热点资源链路,实现热点数据引入建库、热点影响面看板建设;基于中台10+接口梳理热点实体关系,构建在线链路定期t-7热点库,并复用建库链路构建在线正排库和离线评估索引;搭建线上联网消息Sampling→热点检索→3.3B小模型热点打标链路,实现热点影响面看板;引入微博热榜、文娱榜、头条热榜doc参考摘要等多源热点数据;构建热点内容送评链路和离线打包能力,支持模型迭代与评估。项目:医疗问答生产系统职责描述:利用搜索业务潮汐资源,基于Kafka MQ构建SFT模型→RM模型→审核模型的问答生产流程;设计自适应线程池调度系统,支持多IDC负载均衡和动态扩缩容,将资源利用率从30%提升至85%,日均生产可用问答从20w提升至80w;优化三阶段生产流程和Kafka批量处理参数,将单条问答生产耗时从5秒降至2秒,累计交付4190w+问答,线上入库1326w+;优化Kafka集群配置,解决高并发消息积压问题,将处理延迟从500ms降至100ms,QPS从5w+提升至20w+;构建消费延迟、推理耗时、问答质量指标等监控告警体系。项目:医疗语料库数据建设职责描述:从0到1构建Seed医疗垂类语料库,通过Python实现多源异构医疗数据的解析、清洗和标准化处理,累计建设81G高质量医疗语料,支撑Pretrain模型训练;基于Python构建数据解析引擎,支持Word、PDF、图片等多种格式解析,并通过OCR处理英文文献和药品说明书,累计处理617本权威书籍、11295本指南、652w+问诊数据;基于Spark构建ETL流水线,完成259w+万方摘要、11w+药智网数据清洗入库;设计敏感信息脱敏系统,先通过本地小模型脱敏,再交由标注或第三方团队进行人工脱敏。
后端研发
小荷健康 - - 今
职位: 后端研发 | 时间段: 2020.08-2023.04 | 工作内容: 项目:抖音医疗实时数仓职责描述:从0到1构建百万QPS、日亿级写入的实时数仓,覆盖内容、作者、搜索等15个业务领域,数据时效性从T+1提升到分钟级。项目:医美平台架构升级职责描述:完成医美SaaS到平台化改造,引进7家机构合作,搭建医美搜索能力,实现订单管理、质控回传等核心功能。项目:内容生产平台建设职责描述:从0到1搭建医典内容生产平台,集成WPS在线编辑器,实现内容生产流程标准化,提升内容生产效率30%。


