团队介绍 (Introduction):
文本分析与挖掘实验室计划招募有志于人工智能(自然语言处理方向)、智能问答、文本数据挖掘研发的学生成员,团队提供一个良好的学习机会和锻炼自身学术研究与技术开发能力的平台,现面向所有同学发出邀请。
团队按研究方向进行划分:
1)方法研究:信息抽取 (Information Extraction)从非结构化文本识别和抽取关键信息对于大规模文本数据的分析和理解具有重要意义。实验室在文本实体识别及规范化、文本关系抽取、文本可度量数量信息抽取、时间信息抽取、事件信息抽取、性别等关键信息抽取、语义标签挖掘等方面开展方法模型研究,同时在知识图谱自动构建、知识图谱的表示学习、知识图谱实体链接预测、知识图谱融合和验证等方面开展方法研究。
2)方法研究:智能问答(Question Answering)
智能问答是信息检索领域的一个重要分支并逐渐成为研究热点。智能问答系统的任务是对以自然语言表达的问题找出简短而准确的答案,并以自然语言的表达方式返回用户。实验室开展问题目标分析与分类方法、用户意图与兴趣识别方法、基于主题发散度的相似问题识别、基于FAQ的自动问答方法、基于篇章检索的自动问答方法、基于知识图谱的自动问答方法、基于多模式融合的自动问答框架、面向问答的多维语义模板模型、用户建模及个性化检索模型等方法研究,以提高问答系统的精准性、智能性和实用性。
3)方法研究:机器学习(Machine Learning)
含深度学习在内的机器学习方法广泛应用与自然语言处理的多种具体任务中并发挥极其重要的作用。实验室开展特征提取与特征表示、结构化数据的统计分析模型、大数据的可视化方法、动态因素权重分析模型、风险因素识别与挖掘方法、智能风险预警模型、过程路径分析和图模型表示、词汇简化/语义计算模型、语料标注与语料库构建方法、机器翻译等方面的方法研究。
4)应用研究:医学智能 (Medical Informatics)
医学文本的智能分析与挖掘逐渐成为一个热门而重要的研究领域,电子病历、电子健康档案、医学文献、临床指南、监管报告等医疗健康相关文本数据随着信息技术的发展而急速增加,利用自然语言处理、数据挖掘技术快速有效地抽取与挖掘这些海量文本数据将对社会公共健康、医疗决策等诸多方面产生积极而重要的影响。实验室开展医学语义标签挖掘、医学疾病药物等实体识别、医学时间表达式抽取与正则化、临床试验性别抽取与表示、医疗数量表达式抽取与表示、大规模药物-疾病对信息抽取、电子病历数据结构化处理、临床试验病人纳排标准文本分类、临床试验相似特征文本聚类、临床试验个性化检索、中医体质辨识分析与分类、电子病历数据分析与挖掘等研究。
5)应用研究:教育智能 (Education AI)
教育信息化的发展,带来了教育形式和学习方式的重大变革,对传统的教育思想、观念、模式、内容和方法产生了巨大冲击,教育智能是依托大数据、人工智能等新一代信息技术打造的智能化、感知化、泛在化的新型教育形态和教育模式,以推动学习个性化、教学精准化和管理科学化等。实验室开展学生兴趣自动识别与分析、课堂对话互动模式分类、名师课堂对话的互动模式挖掘、课堂对话互动的质量分析与评估、课堂互动模式的反馈和推荐、学生学习过程挖掘和评估、学习路径自动识别和分析、在线考试系统的自动组卷算法、基于知识图谱的知识点覆盖度分析、区域教育治理指标动态权重计算、教育风险预测和预警模型、教育大数据分析和可视化等应用研究。
报酬待遇 (Reward):
团队出资组织团队活动(例如2016年集体赴香港城市大学访问、2017年上学期访问深圳南山科技园狗尾草科技有限公司、2017年下学期赴河源参加人工智能交流会、2018年上学期珠江夜游)。经费支持和资助学生参加国内顶级学术会议(已资助20多人次赴北京、上海、大连、昆明、桂林等参加学术会议报告论文)。
实验室同时为优秀本科生提供国内外知名科研机构的短期交流访问机会,推荐短期出国访问或读研读博。合作包括中国科学院计算技术研究所、国家标准化研究院、中山大学、香港城市大学、澳门大学、美国哥伦比亚大学、美国特拉华大学等。
加入团队 (Join us):
现寻找计算机背景的研究生或本科学生加入研究团队,研究类:希望候选人有学习钻研精神,喜欢程序开发或阅读论文,愿意探索新问题、研究新算法、做试验写论文。英文能力强者、有读研计划者优先。开发类:有较强的编程基础和经验,能独立从事一个任务的编程、实现、和测试。编程语言Python、C#,Web编程、Android编程均可。如果有兴趣,请发送详细个人简历(包括个人基本信息、经验、能力描述、个人意愿),邮箱haoty@126.com