当前位置:编程学习 > JAVA >>

[申精]淘宝网爬虫引擎设计架构图等

   我曾经是一名JAVA WEB程序员,在中国电信工作,2009年12月辞去工作后,来到北京找工作,我现在在一家金融公司做网管,白天工作很是郁闷(网管的郁闷想必大家都知道吧,领导不重视技术,看待搞技术的和看待民工类似),只有晚上下班后,才是我的自由程序员时间,沉浸在我编程得到快感之中。
   
   我现在利用我所有的闲余时间,所有的周末。制作了淘宝网决策搜索引擎啊。但随着项目的制作进展,我发现《淘宝网》自身由于掌握自己数据库,做的会比我更好,目前我计划将项目做成一个网罗各大购物网站的专业搜索引擎,提供各种商品和商家的情报数据,然后可以由程序画出某个特定商品或某个特定店家的商品的价格走势图。为专业VIP用户提供决策!
   
   现在已经得到淘宝网数据库。
   
   由于工作需要,我只能把所有业余时间利用起来制作这个引擎,想以此求得一份IT好工作。望有意者与我联系
   Email:sharpstill@163.com


   抱歉,此论坛不支持图片上传。。。我找了一圈没把我的架构图上传上来 --------------------编程问答-------------------- 传自己空间里然后把地址粘贴到这里显示 --------------------编程问答--------------------
引用
领导不重视技术,看待搞技术的和看待民工类似

这些领导是不是从民工上来的呢?

顶1楼的,我也想瞧瞧。 --------------------编程问答--------------------
研究淘宝网后自己数据库的表关系图 --------------------编程问答--------------------
卖家信息表设计图

商品表设计图 --------------------编程问答-------------------- 在《淘宝网》购物时,顾客最关心的就是这两个页面(这两个页面的网址sample分别为
http://item.taobao.com/auction/item_detail.htm?xid=0db1&item_num_id=3899429723&cm_cat=50010388和http://rate.taobao.com/user-rate-6456e2ba2c5966d8ef8726667a7953ac.htm),因此这两个页面的信息对于顾客至关重要,这也是我的搜索引擎信息收集的地方。由于有成千上万的这样格式的页面,所以我的目标就是设计出一个爬虫引擎在《淘宝网》上不断地爬,以零下载为条件,直接将目标信息数据导入我创建的数据库中,再进行搜索。
综合分析这两个典型页面,我们可以得到这样的信息:大部分《淘宝网》的商品和店家信息都是依据这两个页面的格式形式存在的。所以以此便可以写出程序推断出整个《淘宝网》的数据。

页面HTML源码关键点 --------------------编程问答-------------------- 很好!谢谢lz!!写这么多....辛苦了....哈哈 --------------------编程问答-------------------- hjjk123 ,您觉得我用这个求职《淘宝网》有望吗 --------------------编程问答-------------------- 你工作几年了啊??

--------------------编程问答-------------------- 这个数据库构图是淘宝的还是你的啊??? --------------------编程问答-------------------- 我最终想制作出《淘宝网》搜索引擎成品放于Google App Engine上,大家都可以看到了。以一人之力,累啊。但不能屈服啊! --------------------编程问答-------------------- 回hjjk123
这个架构图本来有个更清晰地。太大了,上传不上去。
我工作一年,09年的计算机系毕业生,虽然我资历尚轻,但我所有时间都在研究程序和数据结构以及算法了,在学校的时候做过一个软件比赛的项目,还得奖了
在中国电信工作了一年,又自学了不少,我所有的周末都在程序中度过了...做这个搜索引擎,把图论和矩阵的知识都回头温习了遍... --------------------编程问答-------------------- 这个数据库构图是我分析淘宝网的网页后推测的...
然后利用爬虫引擎得到的数据。搜索引擎最基本的原理如此吧,为了这我不吃不睡研究了N长时间了 --------------------编程问答-------------------- 呵呵!很好了!lz加油吧!!但lz还是别去做网管了!趁着年轻多学东西吧!

其实我没资格说你的!哈哈

我还没毕业!大三!马上实习了!按说该请教你!说起比赛 ,由于学校的专业垃圾,以致同学没几个计算机的!有几个学java的学了两年j2se!哎!!做了个项目,基本是自己做的!无语了!!

加油吧!!嘿嘿 --------------------编程问答-------------------- 感觉和lz想法一样啊!
大三了 我也把时间放在了数据结构算法和数据库上面!! --------------------编程问答-------------------- 没办法啊,做网管也是混口饭吃,要不我在北京就得睡大街了...
原来的在软件公司混的像个人,现在做网管真是像条狗,整天被呼来唤去的,谁把自己的文件误删了都是我的错...
而且这种非技术性的公司里面的领导认为搞技术的就是一个和民工差不多的劳力。 --------------------编程问答-------------------- 北京真的不是一般人去的地方!!

暑假去那旅游+体验工作和生活!压力很大!工作那个难找(再加上找短期的外地的不占优势)!

郁闷很久!!

可以先去二线城市发展下! --------------------编程问答--------------------
引用 7 楼 sharpstill 的回复:
hjjk123 ,您觉得我用这个求职《淘宝网》有望吗


到求职网上去看看有关 淘宝 招聘的职位要求 。。。 --------------------编程问答-------------------- LZ鼓足勇气去吧,机会就是留给你这样有准备的人的,呵呵 --------------------编程问答-------------------- lz
牛人,坚持下去吧 --------------------编程问答--------------------
引用 5 楼 sharpstill 的回复:
在《淘宝网》购物时,顾客最关心的就是这两个页面(这两个页面的网址sample分别为
http://item.taobao.com/auction/item_detail.htm?xid=0db1&item_num_id=3899429723&cm_cat=50010388和http://rate.taobao.com/user-rate-6456e2ba2c5966d8ef872……


楼主,引用你的话“目前我计划将项目做成一个网罗各大购物网站的专业搜索引擎,提供各种商品和商家的情报数据,然后可以由程序画出某个特定商品或某个特定店家的商品的价格走势图。”。 想问你是通过爬到网页,然后提取商品的数据吗? 我之前也做过个搜索引擎,对你的创意很感兴趣。 --------------------编程问答-------------------- 小心淘宝网的人说你侵权啊。 --------------------编程问答-------------------- 创意不错啊 --------------------编程问答-------------------- 上周给淘宝人力资源部的邮箱投了个简历,渺无音信 --------------------编程问答--------------------
引用 20 楼 wt_yao_monkey 的回复:
引用 5 楼 sharpstill 的回复:
在《淘宝网》购物时,顾客最关心的就是这两个页面(这两个页面的网址sample分别为
http://item.taobao.com/auction/item_detail.htm?xid=0db1&item_num_id=3899429723&cm_cat=50010388和http://rate.taobao.com……

对,就是这个意思,分析网页得到数据后,再进行二次加工,比如画出曲线走势图等 --------------------编程问答--------------------
引用 21 楼 dahaidao 的回复:
小心淘宝网的人说你侵权啊。

晕,我制作他的搜索引擎,分析他的网页是给他创收增值,他告我干嘛。
--------------------编程问答--------------------
引用 24 楼 sharpstill 的回复:
引用 20 楼 wt_yao_monkey 的回复:
引用 5 楼 sharpstill 的回复:
在《淘宝网》购物时,顾客最关心的就是这两个页面(这两个页面的网址sample分别为
http://item.taobao.com/auction/item_detail.htm?xid=0db1&item_num_id=3899429723&cm……


您好~ 这方面的东西我很感兴趣,其实我还有更好的想法。 加我QQ : 382948512

顺便说一下 我今年就要毕业 已经顺利进入北京一家国企 做研发但是时间充裕 希望能一起努力学习 --------------------编程问答-------------------- 不用考虑那么多,你的意思是做专业领域的垂直搜索吧?
我看可行。现在做垂直搜索的也很多。很缺这方面的人。 --------------------编程问答-------------------- 看你水平,四五k的工作闭着眼睛随便找找的呀 --------------------编程问答--------------------
引用 28 楼 hyf002 的回复:
看你水平,四五k的工作闭着眼睛随便找找的呀

哥们,社会现实,北京工作不好找,来北京后我就做了网管后,发现网管确实生活在IT届的底层,给人桌面维护之类的无技术含量的活,目前只有少量的业余时间搞搞编程。。。 --------------------编程问答-------------------- 大家要程序吗。我有个测试程序,这个论坛貌似附件发送不上来 --------------------编程问答-------------------- 大家看看这个网站,http://www.haodian8.com/
是不是已经做了我要做的这个工作 --------------------编程问答-------------------- 加油吧! 路还很长... 其实我觉得你想法不错,但没有商业价值。 你说给VIP用户提供,如果VIP用户多了,每个人都知道了,你又准备干什么呢? 再说商品的信息(价格之类)是在现实中体现的,别人用户比你获取信息,分析的更准确。 你所说的VI用户是指淘宝卖家吧!不管买家,还是卖家...都是一个道理。  如果不对,请包涵。受到了打击,就当我放P。 谢绝喷子。 你这样的水平可以找到一个不错的工作。 加油了! --------------------编程问答-------------------- 呵呵...LZ很厉害...学习.... --------------------编程问答--------------------
引用 27 楼 osomc 的回复:
不用考虑那么多,你的意思是做专业领域的垂直搜索吧?
我看可行。现在做垂直搜索的也很多。很缺这方面的人。

问题国内的现实是没人要做搜索引擎方面的人啊...
搜索引擎的研发是很费时间和精力的,国内的IT公司都喜欢能速速挣钱的东西 --------------------编程问答-------------------- 我的那张程序架构图太模糊,再发个清晰的架构原理图。
--------------------编程问答-------------------- LZ很强大,加油啊。 --------------------编程问答-------------------- lz不错啊,照你的水平,3-4k一点问题没有。我也是做搜索这方面的工作,有时间大家共同学习 --------------------编程问答-------------------- 呵呵...LZ很厉害...学习.... --------------------编程问答-------------------- 另外还说一点,其实国内中小企业应用搜索的公司是很多的,楼主应该没太注意这方面的工作,你上一些58同城或其他招聘网站看一下,招搜索的人才还是很多的 --------------------编程问答-------------------- 回lz一句,工资高低跟你做不做网管没有关系,关键看公司,我一朋友在一外企做网管也是过w的,跟公司里做开发的工程师差不多的,如果考出思科的一些高级认证,薪水可以更高,当然你喜欢编程就应该考虑换地方的。 --------------------编程问答-------------------- 去看看淘宝的开放平台吧!~~ --------------------编程问答-------------------- 思路很好。加油! --------------------编程问答-------------------- 各位可以查看一下这个网站,http://www.G9000.com/
都应该是可以做到我要做的工作了 --------------------编程问答-------------------- 这个还算不上搜索引擎 只能说是一个小的站内搜索 难点在数据来源和解析上 后面的用个数据库就ok 后面的就是用户体验做的怎么样 --------------------编程问答-------------------- --------------------编程问答-------------------- --------------------编程问答-------------------- 楼主很不错。就是缺乏一个好的平台。祝福你 --------------------编程问答-------------------- 有想法,坚持下去会很有收获的~~~1 --------------------编程问答-------------------- 在open.taobao.com上面开发一个有用的应用比你去求职淘宝有用的多。 --------------------编程问答-------------------- --------------------编程问答-------------------- 技术上很鲜明,但是这个东西的实用性我看不出来。百度carwl.的不少。谷歌crawl怕的不少。
直接crawl http://www.baidu.com/s?wd=%CC%D4%B1%A6%D0%AC%D7%D3这个 在他们上面扩展点概念多新颖。。楼主开公司吧 跟你干
--------------------编程问答-------------------- 不知道 这个spider 跟火车头有什么异样否 期待中。。。 --------------------编程问答-------------------- lz 可以尝试 crawl 一下csdn 当初我写的程序这个爬寻不了。。不知有什么端倪 --------------------编程问答-------------------- --------------------编程问答-------------------- 此人在程序开发上有前途,加油! --------------------编程问答-------------------- 基本功还是扎实的,设计思路也比较明确,面试的时候多把你这个半成产品的架构思路和技术核心阐述一下,如果有demo给面试官更好

做网管确实没前途,现在可以考虑跳槽了,找工作的时候记住要突出你在开发方面的实力,面试的时候才会有机会考你技术方面的问题,你做过这么多实践开发,面试的时候还是很有用的

薪水你现在的水平要6K~8K在北京应该没问题,加油! --------------------编程问答-------------------- 淘宝没有像ebay那样提供API么?
我怎么记得好像有呢! --------------------编程问答-------------------- http://my.open.taobao.com/apidoc/index.htm#categoryId:5

为何辛苦爬网站?? --------------------编程问答--------------------
引用 18 楼 forchase 的回复:
LZ鼓足勇气去吧,机会就是留给你这样有准备的人的,呵呵

严重同意
付出努力,顶住压力,坚持就是胜利! --------------------编程问答-------------------- LZ很强!相对而言,本人实在是...........哎 --------------------编程问答-------------------- 跟楼主比,我很惭愧! --------------------编程问答-------------------- --------------------编程问答-------------------- 看了LZ的创意和努力,我很佩服.
我现在虽然是个网站程序员,但有好多的都不懂,上班的时候在不停的搞,可一下班就不想搞了.
缺少毅力,要向lz学习 楼主加油 --------------------编程问答-------------------- 加油,,坚持 --------------------编程问答--------------------  加油啊  --------------------编程问答-------------------- 既然有这个兴趣与天赋,就不要浪费掉。加油!!! --------------------编程问答--------------------   good luck ~~  mark --------------------编程问答-------------------- 想看看啊 --------------------编程问答-------------------- 顶起,挺你 --------------------编程问答-------------------- LZ,鼓起勇气,去淘宝面试吧 --------------------编程问答-------------------- 你能弄到淘宝的数据库?不可能吧! --------------------编程问答-------------------- 楼主我觉得你说这些都没有用,你要去面对现实。去action,别在想这些了
补充:Java ,  Web 开发
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,