四川德阳兰州冷冻产品呈阳性运输司机核酸检测为阴性

中新网德阳11月15日电 (记者 杨勇)四川省德阳市卫健委15日发布消息称,11月13日,德阳市接成都市疾控中心转甘肃兰州发来的协查函,函告一批从天津运至兰州的冷冻产品检测出新冠病毒阳性,运输该批产品的一名货车司机为密切接触者,目前在四川德阳广汉境内。

德阳市接到相关信息后,逐级追踪调查并在广汉市找到该司机。经广汉市疾控中心流行病学调查,该司机于11月8日在兰州卸下冷冻产品后,11日从宁夏另装货物,13日抵达广汉。13日晚,广汉市采集该司机鼻、咽拭子标本,同时采集其驾驶的货车相关标本进行新冠病毒核酸检测,检测结果均为阴性。经排查,该司机在广汉境内无密切接触者。目前该司机已按相关规定实施集中隔离医学观察,对车辆和货物进行了规范处理。(完)

使用外部知识库:这已经普遍使用好几年了。Guan等人利用常识知识库中的知识来增强用于常识任务的GPT-2模型。Wu等人使用这样的知识库生成对话。  

据悉,这是字节跳动的首个自有产权办公楼,由于地理位置优越,该楼单价较高,购置成本约50亿元。更早之前,今年6月字节跳动以10.82亿元的价格买下位于深圳后海总部基地的一宗商业用地,也是用于盖楼。

游戏业务也是如此。字节的游戏业务负责人严授此前宣布,字节游戏将会在2020年继续招聘超1000人。其实从2018年开始,字节跳动已经开始有计划地招聘游戏人才,特别是游戏开发人员。在这个重度依赖“大牛”的领域,成熟人才的引进哪怕来自竞争对手,例如腾讯、网易游戏、完美世界、英雄互娱、三七互娱等等。

雷锋网版权文章,。详情见转载须知。

Wolfson et al. 将问题理解引入为一个单独的任务,其按照人类的方式通过将复杂问题分解为更简单的问题来进行解答。

字节跳动收割人才的大戏一直都在上演。

投资界获悉,字节跳动计划在未来2个月的时间再开放10000个工作岗位,以达到员工总数突破10万人的目标。而在此之前,字节今年在国内招聘的员工总数已经接近3万人。

一位字节跳动的HR讲述了自己的心路历程。在他加入的第一天,字节跳动的HR只有13人,而现在的HR团队已经有近2000人。刚加入时,他发现自己英语最差,但没想到在2018年初还被派去做国际化业务的HR,“字节招人的逻辑是只要本质优秀,其它背景条件都不拘一格,而且还会给你机会锻炼短板。”他介绍。

有关道德伦理的讨论(很复杂)  

对此,字节跳动方面曾在今年3月表示:预计到年底,其全球员工总数将从6万人增长至10万人。而根据上述招聘情况,仅是字节跳动今年在中国的新增员工人数,已经能够帮助实现这一目标。

数据增强(Data augmentation):Fabbri等人提出了一种方法可以自动生成上下文,问题和回答三合一的形式来训练问答模型。他们首先检索和原始数据相似的上下文,生成回答:是或否,并且以问句形式向上下文提问(what, when, who之类开头的问句)然后基于这三件套训练模型。Jacob Andreas提出将不常见的短语替换为在相似语境下更常用的短语从而改进神经网络中的组合泛化能力。Asai和Hajishirzi用人工例子增加问答训练数据,这些例子都是从原始训练数据中按逻辑衍生出来用以加强系统性和传递一致性。

本文作者还列举其它一些不属于以上类别的论文。

很少有创始人像张一鸣这样如此重视招聘。他曾总结说:“从2015年初到年底,今日头条员工从300多一下增长到1300多,肯定不都是我亲自招来的,但还是有不少我亲自沟通的。如今我最多的夜归也是去见候选人,有时候甚至从下午聊到凌晨。我相信并不是每个CEO都是好的HR,但我自己在努力做一个认真诚恳的HR,披星戴月,穿过雾霾去见面试候选人。”

留给字节跳动完成今年招聘KPI的时间不多了。

除了业务负责人,花钱买来成熟团队和某一个条线上的业务,对于快速前进的字节来说都是不错的选择,因为张一鸣会给人成长和试错的机会。

用新的能力增强 LMs:Zhou 等人训练了一个 LM,通过使用带有模式和 SRL 的训练实例来获取时间知识(例如事件的频率和事件的持续时间) ,这些训练实例是通过使用带有模式和 SRL 的信息抽取来获得的。Geva 和 Gupta通过对使用模板和需要对数字进行推理的文本数据生成的数值数据进行微调,将数值技能注入 BERT 中。  

我们求解的是数据集,而不是任务。在过去的几年中,这种说法反复出现,但是如今,我们的主要范式是训练庞大的模型,并在与我们的训练集非常相似的众包测试集上对其进行评估。荣誉主题奖论文作者塔尔·林岑(Tal Linzen)认为,我们在大量数据上训练模型,这些数据可能无法从人们可用的数据量中学到任何东西,而且这些模型在人类可能认为不相关的数据中找到统计模式。 他建议,今后,我们应该标准化中等规模的预训练语料库,使用专家创建的评估集,并奖励成功的一次性学习。

日前,投资界(ID:pedaily2012)从字节跳动方面获悉,该公司计划在年底前再开放1万个工作岗位,在此之前字节跳动今年在国内招聘员工总数已经接近3万人。招聘完成后,字节跳动的员工总数将突破10万人。

Zhang et al. 提出了一种用于跟踪文本出处的方法,包括其作者和其它来源的影响。Chakrabarty et al. 解决了将带讽刺的句子转译为不带讽刺句子的问题,他还基于对讽刺的极富洞见的观察而构建了一个模型。

日前,字节跳动推出了医疗健康首个业务品牌“小荷医疗”,并发布了面向患者的小荷APP和服务医生的小荷医生APP。新业务的扩充无疑需要新的人才。而对于医疗业务,两个月前2名百度前高管的加入,就已经早有预示。

上图是每个研究方向提交稿件的数量  来源

国际化业务招聘马不停蹄,字节HR负责任开会时会指着地图上的某一个区域说:“你看看DAU涨到多少了,那里的XX团队还没有人呢!”就在上月底,TikTok还曾表示未来三年招聘3000名工程师,主要分布在欧洲、加拿大和新加坡。这位HR总结:“从没见过像做增长一样做招聘的。”

10万员工是张一鸣在年初就定下的目标,如今还有2个月,新增员工数量在持续上涨。而在3年前,字节跳动的团队才不过4000多人,可见这家巨头发展的速度多么可怕。亲历了过去一年招聘的风驰电掣,一位字节跳动HR感慨:“从没见过像做增长一样做招聘的。”

急剧扩张中的字节跳动,把人才和团队定位很高。“我来之后第一次双月会,一鸣对HR的事情问得会非常深入,甚至问到了绩效考核的细节。在一鸣早年的微博,很大一部分内容就是招人。他还讲过一句话:招聘是我们最重要的管理工作,招聘决定了我们的战略能否成功。那句话当时给我很大的冲击。”上述字节跳动的HR这样说。

该系统将让哪些人获益? 该系统对哪些人有害? 用户可以选择退出吗? 该系统会强化还是弱化系统的不公平性? 该系统总体上会让世界变得更好吗?

放眼中国互联网圈,或许没有哪一家创始人像张一鸣这样重视招聘。“在一鸣早年的微博,很大一部分内容就是招人。他还讲过一句话:招聘是我们最重要的管理工作,招聘决定了我们的战略能否成功。那句话当时给我很大的冲击。”上述字节跳动的HR说。

我喜欢能够在自己的时间里(以喜欢的速度)观看这么多演讲,但这样也确实错过了与其他学者的互动,我不认为与不同时区的参与者呆在一个虚拟聊天室里是一个很好的替代方案。我真的希望疫情之后,会议将再次线下举行,但希望同时也允许人们以更低的注册费用远程参会。

主动学习(Active learning):Li等人搭建了一个高效的标注框架,通过主动学习选取最有价值的样本进行批注进行共指关系解析。

2020年8月,两名曾在去年5月离职的百度高管吴海锋和孙雯玉加入了字节跳动。他们加入字节的方式并非直接任职,而是将离职后共同创办的企业“幺零贰四科技有限公司” 整体并进字节跳动。资料显示,幺零贰四是一家医疗信息相关初创企业,成立于2019年5月1日。据悉,就在吴、孙等人离开百度后,吴海锋手下总监、高T、高P也大批离职,其中有些也随这家公司的并入,一同加入字节。

而在已经成型、宣布品牌名称为“大力教育”的教育业务上,四处挖人的局面也早早就上演,字节教育业务负责人、字节跳动高级副总裁陈林此前曾说:教育业务会在今年招聘10000人。

Leins et al. 提出了许多有趣但仍待解答的道德伦理问题,比如符合道德伦理的 NLP 研究是怎样的,这应该由谁、通过什么方式决定?模型的预测结果应该由谁负责?ACL 应该尝试将自己定位为道德卫士吗?这篇论文讨论的问题之一是模型的双重使用问题:一个模型既可以用于好的目的,也可以用于坏的目的。事实上,会议期间,针对 Li et al. 的最佳演示论文发生了一场 Twitter 争论(很不幸该争论由一个匿名账号主导)。该论文提出了一个出色的多媒体知识提取系统。

调查显示,2019年,仅通过美团平台获得收入的网约配送员就已达到398.7万人,数量同比增长了23.3%。2020年1月20日至3月30日,美团平台新增网约配送员45.78万人。

ACL 在道德伦理方面的进步是非常显著的。前几年,NLP 中道德伦理还少有人研究,但如今却已然是 ACL 的一大类别,而且我们所有人在提交其它类别的论文时也都会考虑伦理道德。事实上,我们这个社区现在开始转向批评那些探讨重要的公平性问题而同时又未能解决其它道德伦理考虑的论文。

今年国际计算语言学协会(ACL)变为线上举办了,很遗憾我没多少机会去和其他学者交流,和同事们叙叙旧,但是遗憾之余值得庆幸的是我也相比平时听了更多讲座。因此我决定将我做的笔记分享出来并讨论一些行业总体趋势。本文不会对 ACL 进行详尽的介绍,内容的选择也是完全基于本人的兴趣。同时我也非常推荐读者看一看最佳论文。

我们需要学习处理歧义和不确定性。 Ellie Pavlick在Repl4NLP上的演讲讨论了在明确定义语义研究目标方面的挑战。 将语言理论天真地转换为NLI样式的任务注定会失败,因为语言是在更广泛的上下文中定位和扎根的。 盖·艾默生(Guy Emerson)定义了分布语义的期望属性,其中之一是捕获不确定性。 冯等。 设计的对话框响应任务和模型,其中包括“以上皆非”响应。 最后,Trott等 指出,尽管语义任务关注的是识别两种话语具有相同的含义,但识别措辞上的差异如何影响含义也很重要。   

众多业务版图浮出水面,字节收割人才:通过收购买来猛将

我们需要远离分类任务。 近年来,我们已经看到了许多证据,证明分类和多项选择任务很容易进行,并且模型可以通过学习浅层的数据特定模式来达到较高的准确性。 另一方面,生成任务很难评估,人类评估目前是唯一的信息量度,但是却很昂贵。 作为分类的替代方法,Chen等。 将NLI任务从三向分类转换为较软的概率任务,旨在回答以下问题:“在假设前提下,假设成立的可能性有多大?”。 Pavlick和Kwiatkowski进一步表明,即使是人类也不同意某些句子对的并列标签,并且在某些情况下,不同的解释可以证明不同的标签合理(并且平均注释可能会导致错误)。  

这些数据相比往年怎么样呢?下图显示了从2010年后每个方向论文数量的变化。图源Wanxiang Che

检查注意力权重今年看起来已经不流行了,取而代之的关注重点是生成文本依据,尤其是那些能够反映判别模型决策的依据。Kumar 和 Talukdar 提出了一种为自然语言推断(NLI)预测忠实解释的方法,其方法是为每个标签预测候选解释,然后使用它们来预测标签。Jain 等人 开发了一种忠实的解释模型,其依赖于事后归因(post-hoc)的解释方法(这并不一定忠实)和启发式方法来生成训练数据。为了评估解释模型,Hase 和 Bansa 提出通过测量用户的能力,在有或没有给定解释的前提下来预测模型的行为。

Anastasopoulos and Neubig 表明尽管使用英语作为中心语言来进行跨语言嵌入学习是最佳实践,但却往往是次优的;该论文提议了一些用于选择更优中心语言的一般原则。

投资界梳理发现,目前字节跳动已经集结起了一大批“百度系”人才。例如朱文佳出身百度,他于2015年加入今日头条,负责算法,此前曾在百度任搜索部主任架构师。现任字节跳动算法负责人杨震原,也曾在2005-2014年的9年时间里就职于百度,主要负责搜索架构。2014年,他从百度搜索部副总监位置,被张一鸣挖到字节跳动。字节跳动技术副总裁洪定坤,本科毕业后在百度贴吧工作了5年,此后,洪定坤在小米短暂就职了一段时间,于2014年进入字节跳动。

2个月要招10000人,字节跳动HR亲述:没见过这样做招聘的

不再依赖大型已标注数据集

检索:在Repl4NLP研讨会上的两次受邀演讲中,有两次提到了检索增强的LMs。 Kristina Toutanova谈到了谷歌的智能领域,以及如何用实体知识来增强LMs(例如,这里和这里)。 Mike Lewis谈到了改进事实知识预测的最近邻LM模型,以及Facebook的将生成器与检索组件相结合的RAG模型。

在他看来,字节跳动的核心竞争力直接来说是产品,产品背后是技术系统,技术系统背后则是团队和文化。这大概也是为什么字节跳动的管理层会常说:“一定不能让人成为业务的瓶颈。”

“网约配送员作为‘互联网+服务业’和‘智能+物流’的关键环节,通过配送连接用户和商家,在城市生活中扮演着越来越重要的角色。同时,网约配送员新职业已成为就业蓄水池,有效发挥了稳就业的作用。”报告认为。

其它值得关注的论文 

第三方招聘网站显示,在职位上,字节跳动的新增工作岗位主要集中在教育、游戏和电商等新兴业务。在地域上,除了北京、上海、广州、深圳等一线城市,字节跳动同时在武汉、成都、杭州、南京、西安、厦门、重庆、太原、郑州等二线城市持续扩大团队业务规模。

在过去两年中我们可以发现研究向这些步骤靠近,先基于无标记文本的自监督方法进行预训练然后在更小的具体任务数据上微调。在今年会议上,很多论文聚焦于更少监督的训练模型。这有一些替代方案,及其示例论文:

急剧扩大的团队规模,意味着需要更多的办公地点。最新的消息是,11月2日,字节跳动在北京海淀区北三环一带买下了一座新的大楼,正式启用恒时尚中心作为一处办公地点,一个数千人规模的团队已经入驻。

发言人强调,奉劝包括美方在内的“五眼联盟”国家,认真审视内心深处的种族优越感,收起西方殖民香港时代的傲慢与偏见,摒弃打“香港牌”遏制中国发展繁荣的老旧套路,停止虚伪做派和双重标准,停止插手干涉香港事务和中国内政,把目光更多放在自身亟需解决的国内治理问题上。放眼今日之世界,任何对华施压、损害中国主权、安全、发展利益的图谋都是看不到出路的。(完)

伴随着大肆招人,字节跳动的各项新业务陆续浮出水面。

雷锋字幕组是一个由AI爱好者组成的翻译团队,汇聚五五多位志愿者的力量,分享最新的海外AI资讯,交流关于人工智能技术领域的行业转变与技术创新的见解。

凯西·麦基翁(Kathy McKeown)的精彩主题演讲也谈到了这一点,并补充说排行榜并不总是对推动这一领域有所帮助。 基准通常会占据分布的顶端,而我们需要关注分布的尾部。 此外,很难使用通用模型(例如LM)来分析特定任务的进步。 在她的终身成就奖访谈中,邦妮·韦伯强调需要查看数据并分析模型错误。 即使是一些琐碎的事情,比如同时查看精确度和回忆,而不是只查看F1的总分,也可以帮助理解model s的弱点和长处。

希望明年能看到你们排着队买难喝的咖啡!(译者:笑)

在根据我自身参与的讲座来讨论研究趋势之前(当然参与讲座数量有限,会存在误差),让我们来看一看ACL网页上的一些整体数据吧。今年收到交稿量最多的方向分别是通过机器学习处理自然语言,对话和交互系统,机器翻译,信息提取和自然语言处理的应用及生成。

我强烈推荐观看 Rachael Tatman 在 WiNLP 研讨会上洞见深入的主题演讲「What I Won’t Build(我不会构建的东西)」。Rachael 说明了她个人不会参与构建的那几类系统,包括监控系统、欺骗与其交互的用户的系统、社会类别监测系统。她提供了一个问题列表,研究者可用来决定是否应该构建某个系统:

在自然语言处理研究有个反复出现的模式,1. 介绍一个新模型;2. 通过改进模型,或者将其应用于多任务实现一些容易的目标然后发表;3. 发表文章分析其不足之处或缺陷;4. 发表新的数据集。尽管某些步骤可能同时进行,我得说我们现在就处于2和3之间。小标题的结论是基于我选择的论文得出的,而我很大程度上过滤掉了这类文章。所以或许换一种说法,那就是今年ACL 2020 还是有挺多文章不是这一类型的。

如果,你也是位热爱分享的AI爱好者。欢迎与雷锋字幕组一起,学习新知,分享成长。

“招聘是我们最重要的管理工作”,37岁张一鸣,正在建立自己的军团

总的来说,论文有从基础任务到高级任务发展的趋势,例如从通过单词级,句子级语义和语篇的句法,过渡到对话。机器学习方向研究也正稳步增加,越来越多的文章提出具有普遍性目标的模型,而这些模型都基于多个任务来衡量。

这些论文和主题演讲给我带来一种感觉,尽管过去几年取得了巨大的进步,但我们还没有走上正确的方向,也没有一条非常可行的前进道路。 我认为主题类别的变化具有正面意义,这能鼓励研究者不执着于容易取得的小进步,而是着眼大局。

实际上,为了应对业务的变化,字节跳动一直在公司组织和合作方式上不断优化调整。比如,明确主要业务的CEO和管理团队;建立各业务虚拟的P&L,帮助各业务更好的做决策;绩效管理和OKR工具也不断更新。但如何建立好一个超大型全球化企业,对张一鸣来说无疑是新的课题。

就业时间灵活是网约配送员工作吸引从业者的最重要原因。调查显示,近六成网约配送员每天配送时间低于4小时。

最后,Zhang et al. 众包了 Winograd 模式挑战赛的解释,并分析了解决该任务所需的知识类型以及现有模型在每种类别上的成功程度。  

我们已经知道,语言模型的知识是缺乏和不准确的。在这次会议上,来自 Kassner and Schütze 和 Allyson Ettinger 的论文表明某些语言模型对否定不敏感,并且容易被错误的探针或相关但不正确的答案混淆。目前采用了多种解决方案:  

团队成员有大数据专家,算法工程师,图像处理工程师,产品经理,产品运营,IT咨询人,在校师生;志愿者们来自IBM,AVL,Adobe,阿里,百度等知名企业,北大,清华,港大,中科院,南卡罗莱纳大学,早稻田大学等海内外高校研究所。

ACL今年有一个主题类别,主题是“通观现状与展望未来”。

语言模型并不是你所需要的全部ーー检索又回来了  

无疑,字节跳动正在疯狂收割互联网人才。众所周知,搜索业务是字节跳动这两年的发力点之一,在这项业务上,去年3月,前360的搜索产品负责人吴凯被爆已经在2018年底加入字节跳动,当时,字节跳动回复称,搜索已经上线,产品还处于测试阶段。

无监督方法:Yadav等人提出了一个基于检索的问答方法,这种方法可以迭代地将询问提炼到1KB来检索回答问题的一些线索。在常识类多选任务上通过计算每个选项的合理性得分(利用Masked LM),Tamborrino等人取得了令人欣喜的成果。

发言人说,香港回归后,中国政府治理香港特区的法律依据是《中华人民共和国宪法》和香港基本法,不是《中英联合声明》。《声明》从未赋予英国和任何其他国家在香港回归后承担任何责任的权力。“五眼联盟”没有法理依据,也没有任何资格对香港事务指手画脚、说三道四。

过去八年里,张一鸣既是管理者,也是字节跳动的头号HR,他正在打造一个属于自己的军团。

显然,37岁的张一鸣正在打造一个属于自己的军团。

一个有趣的现象是,在张一鸣领衔的豪华团队中,很多核心高管,都是通过收购“买来”的创业者。这也是字节跳动战投的显著特点:被并购后,原项目的创始人继续留在字节跳动各尽其才,甚至此后成为团队核心。

从8年前诞生在知春路锦秋家园民居,到最近3年时间,字节跳动要从4000人招到10万人,这样的速度与规模让HR有种错觉——“边开飞机边换引擎”。

Gonen et al. 提出了一种用于测量词义变化的非常直观和可解释的方法,其具体做法为检查词分布的最近邻。

“我调整了基于某任务的BERT模型,然后在某评价标准下表现更好了”这类论文更少了

Cocos and Callison-Burch 创建了一个大规模的标注了含义的句子资源,其中的含义是通过同等含义的词进行标注的,比如 bug-microphone 中 bug 是个多义词,这里使用 microphone 进行标注,就固定了其小型麦克风 / 窃听器的含义,而非虫子的含义。

反思NLP的当前成就,局限性以及对未来的思考

当前模型和数据存在固有的局限性。 邦妮还说,神经网络能够解决不需要深入理解的任务,但是更具挑战性的目标是识别隐含的含义和世界知识。 除上述论文外,几篇论文还揭示了当前模型的局限性:例如,Yanaka等人。 和Goodwin等 指出神经NLU模型缺乏系统性,几乎不能概括学习到的语义现象。 艾米莉·班德(Emily Bender)和亚历山大·科勒(Alexander Koller)的最佳主题论文认为,仅从形式上学习意义是不可能的。 Bisk等人在预印本中也提出了类似的要求。 提倡使用多种方式学习意义。  

这当中最值得一提的就是张楠。2020年3月,张一鸣公开信宣布字节跳动新一轮组织架构调整,任命张楠为字节跳动中国CEO。这位80后女性并非由字节跳动内部培养的人员,却走出了从一个边缘产品负责人到字节中国业务总负责人的成长路径。