人工智能 · 圈子

675 位酷友已加入

本圈子收集关于人工智能的各种技术资料，加入圈子可以上传、下载资料，也可以使用提问来寻求资料或分享你认为有价值的站外链接~

提问或寻求资源

PDF分享

资料包分享

站外资源

关注推荐最新

热门标签

目标检测算法R-CNN/Fast R-CNN/Faster R-CNN之间有什么联系和区别？

Faster R-CNN中的区域提议网络（RPN）如何工作？

keras中的Flatten（）和GlobalAveragePooling2D（）有什么区别？

用于视频，音频和语言的多模态多功能网络介绍该模型为TSMResNet50-Audio-Text预训练模型，可以用作视频特征提取器，音频特征提取器，或用于计算简短视频片段和句子之间、视频片段和音频流之间、音频流和句子之间的相似度。该模型是使用未经整理的视频（仅包含音轨和口述）进行训练的。使用范例导入tensorflow和tensorflow hub 输入以下类型的张量：注意：视频网络是完全卷积的（最后是时间和空间的全局平均池），但是建议使用T = 32帧（与训练时相同）。对于H和W，我们一直使用200到256之间的值。注意训练期间使用的帧频为10，建议也将其用于输入剪辑（3.2秒）。音频网络也是完全卷积的（最后在时间和频率上具有全球平均池），但是建议以48kHz（3.2秒）的频率使用T'= 153600。频谱图的计算将直接在图中进行，因此只提供原始音频信号作为输入。在测试模式下加载模型：或者，可以在训练模式下加载视频模型以激活批量归一化训练模式：结果：注意： vision_output是包含三个键的字典： before_head：这是TSM ResNet50维度2048的全局平均合并特征，应将其用于下游任务的分类。 va：这是来自联合视频音频空间的视频嵌入（大小为512），它应该用于使用音频嵌入来计算与音频输入的相似性分数。 vat：这是来自联合视听文本空间的视频嵌入（大小256），它应该用于使用文本或音频嵌入来计算与文本或音频输入的相似性分数。 audio_output是包含三个键的字典： last_conv：这是ResNet50音频网络的输出特征（在平均池化之前），特征尺寸为2048，时空频率尺寸取决于输入的大小。这应该用于下游任务的分类。 va：这是来自联合视频音频空间的音频嵌入（大小512）。应该使用视频嵌入，将其用于计算与视频输入的相似度得分。 vat：这是来自联合视听文本空间的音频嵌入（大小256）。它应用于使用文本或视频嵌入来计算与文本或视频输入的相似性分数。 text_output是包含单个键的字典： vat：这是来自联合视音频文本空间的文本嵌入（大小256）。要计算文本和视频之间的相似性得分，您需要计算video_output的增值税输出和text_output的增值税输出之间的点积。用于计算所有成对相似性的示例：转载https://tfhub.dev/deepmind/mmv/tsm-resnet50/1

计算机·圈子首发

阿托更新了

资源

人类自由指数数据集

人类自由指数（人身，公民和经济自由的衡量）介绍人类自由指数是对全球所有人关于人身，公民和经济自由的衡量，是对世界上整体自由的程度进行广泛而合理的描述。同时，研究人类自由指数可以更仔细地探索我们所指的自由，并更好地理解自由与任何其他社会和经济现象的关系。内容包含三个文件 hfi_cc_2018.csv hfi_cc_2019.csv hfi_cc_2020.csv 人类自由指数代表了人类自由的广泛度量，被理解为缺乏强制约束。它在以下领域使用了79个关于个人和经济自由的指标：法律规定安全保障运动宗教协会，议会和公民社会表达与信息身份与关系政府规模法律制度与财产权获得健全的资金国际贸易自由信贷，劳工和商业法规转载https://www.kaggle.com/gsutters/the-human-freedom-index

计算机·圈子首发

karry 发布了

问答

有哪些方法可以使用少量观察值来近似数据集？

计算机·圈子首发

anna 发布了

问答

从头开始训练深度神经网络需要多少张图像（数据）？

计算机·圈子首发

阿托更新了

资源

雾路图片数据集

雾路图像（道路上雾的图像文件）介绍雾霾是冬季道路上的最大障碍，雾霾对健康也有着极大的影响，例如由雾霾引起的呼吸问题，呼吸系统疾病。通过机器学习模型可以确定道路的可见性，从而减少交通事故，也可以给出关于呼吸系统疾病的预防措施。该数据集还可用于其他各种研究，内容数据集包含早晨和傍晚具有不同类型的雾的各种道路的图像，例如均匀雾，非均质雾，多云雾等。数据由包含不同类型雾的100条雾路图像组成，这些文件为png格式。转载 https://www.kaggle.com/dhruvagg/foggy-road-images

前一页 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 后一页

理工酷

首页

圈子

资源下载

人工智能 · 圈子

计算机·圈子首发

目标检测算法R-CNN/Fast R-CNN/Faster R-CNN之间有什么联系和区别？

计算机·圈子首发

Faster R-CNN中的区域提议网络（RPN）如何工作？

计算机·圈子首发

目标检测和目标定位之间有什么区别？

计算机·圈子首发

什么是ResNet网络架构?

计算机·圈子首发

keras中的Flatten（）和GlobalAveragePooling2D（）有什么区别？

计算机·圈子首发

用于视频，音频和语言的多模态多功能网络模型

计算机·圈子首发

人类自由指数数据集

计算机·圈子首发

有哪些方法可以使用少量观察值来近似数据集？

计算机·圈子首发

从头开始训练深度神经网络需要多少张图像（数据）？

计算机·圈子首发

雾路图片数据集

计算机·圈子首发

对于计算机视觉任务而言，更宽和更深入的卷积神经网络哪个更好？

计算机·圈子首发

为什么神经网络倾向于更深（更多层），而不是变得更宽（每层更多节点）？

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

人工智能 · 圈子

计算机·圈子 首发

目标检测算法R-CNN/Fast R-CNN/Faster R-CNN之间有什么联系和区别？

计算机·圈子 首发

Faster R-CNN中的区域提议网络（RPN）如何工作？

计算机·圈子 首发

目标检测和目标定位之间有什么区别？

计算机·圈子 首发

什么是ResNet网络架构?

计算机·圈子 首发

keras中的Flatten（）和GlobalAveragePooling2D（）有什么区别？

计算机·圈子 首发

用于视频，音频和语言的多模态多功能网络模型

计算机·圈子 首发

人类自由指数数据集

计算机·圈子 首发

有哪些方法可以使用少量观察值来近似数据集？

计算机·圈子 首发

从头开始训练深度神经网络需要多少张图像（数据）？

计算机·圈子 首发

雾路图片数据集

计算机·圈子 首发

对于计算机视觉任务而言，更宽和更深入的卷积神经网络哪个更好？

计算机·圈子 首发

为什么神经网络倾向于更深（更多层），而不是变得更宽（每层更多节点）？

计算机·圈子首发

计算机·圈子首发

计算机·圈子首发

计算机·圈子首发

计算机·圈子首发

计算机·圈子首发

计算机·圈子首发

计算机·圈子首发

计算机·圈子首发

计算机·圈子首发

计算机·圈子首发

计算机·圈子首发