-
Notifications
You must be signed in to change notification settings - Fork 12
Home
kidult00 edited this page May 23, 2015
·
10 revisions
MIT的python编程课导论提到:如今的软件世界,已经不需要从头构建一幅作品,你只需要像一个雕刻家一样,去掉多余的部分。目前互联网上又众多可用的API可以调用,我们的思路是利用已经发明的轮子,构建自己想要的作品。
- 思路:
- 怎样最快找到各领域的大牛? 一个简单的办法是通过 TED 的 TOP 500 Talks 筛选出大牛.
- 怎样按图索骥找到大牛的著作? 通过 豆瓣和 Google Books 查找.
- 怎样通过大牛了解趋势? 通过提取大牛著作的标签,通过时间序列分析.
- 所以Niubility可以:找大牛-列著作-看趋势
时间源头论, 不是『信息』, 而是『人』。 建立时间源头的优势。
##目标 Feature list:
-
Feature 1:找大牛
- 输入:无
- 输出: Ted top 500 talks speaker 列表 (具体数量待定,或者可以选择查看top 100/500/1000)
- 问题1:Ted api 没有提供 talks 的播放量,是否暴力抓取?
- 搜索一通后,发现网站已经有排序列表 http://www.ted.com/talks?sort=popular
- 问题2:同一 speaker 的不同 talk 是否需要合并?
- 需要去重合并
-
Feature 2:列著作
- 输入(或选择):大牛名字
- 输出:
- 按时间排列的大牛著作
- 每本著作的标签
- 每本著作的关注度 (Google books 引用次数(API)? 豆瓣想读/已读数? 再版次数)
- 问题1:是否完全匹配名字?
- 需要精确匹配,是否存在姓和名颠倒情况?是否会省略名字的一部分?
- 问题2:书籍有多个作者,按第一作者匹配,还是只要在作者内就可以
- 先按第一作者匹配,看看搜索的结果数量如何
附草图:
-
Feature 3:看大牛兴趣路径演化
- 输入:大牛名字
- 输出:
- 大牛出现次数最多的标签统计
- 大牛每10年的标签变化
-
Feature 4:看牛群趋势
- 输入:领域 (ted 可能没有提供分类数据,得另想办法)或不限领域
- 输出:
- 按时间段查看牛群最关注的标签
- 按标签查找相应大牛
-
Feature 5:标记想读
- 输入:著作
- 输出:豆瓣图书信息
- 其他:标记为想读
- 其他1:调用 Rainvoo 的智能购书订单 ? :P
-
Feature 6:微信公众号搜索
- 输入:在公众号内输入大牛名字(是否支持模糊搜索...)
- 输出:大牛的 ted talks 和 豆瓣书籍列表
- 其他:是否可以实现语音输入名字?(微信语音接口目前仅实现普通话识别)
- 日报在wiki上共同起草
- 仓库入口: Niubility
- 参考:
- SAE 新浪的云计算平台: 免费的,且有python应用环境
- 了解下SVN,下载个客户端装上
- SAE平台不支持github。SVN用到的svn add, svn ci 两个命名就够了。 后续我们在github上的代码同步到新浪云后台的SVN上。
- bottle: 目前最简单好用的web框架, 后续做的功能,就靠它对外发布。
- 豆瓣 和 TED的API,逐步了解
- 微信公众号: 和自己的web服务关联起来,以后自己想折腾点啥,随便整。
20150429 free
-
学习SAE教程 http://chaos2.qiniudn.com/sae/build/html/index.html https://sae-python.readthedocs.org/en/latest/tools.html#saecloud
-
了解两个github上的两个微信后台python库 https://github.com/whtsky/WeRoBot https://github.com/doraemonext/wechat-python-sdk
附 H5 原型图,实现的功能主要包括:
- 展示 TED top 100 mosted viewed 作者列表
- 展示作者的著作列表(豆瓣数据)
- 单个著作跳转豆瓣书籍页面