俗话说,"不懂得实践的学生,就是纸上谈兵"。

    前序

    所以作为做Java Web开发的高手,我也不想做一个只会纸上谈兵的赵括。于是乎开始动手,使用比较开放的框架Spring MVC, Spring Shiro + Maven + Myibatis自己开发了一个网站,本以为做完一个网站,买一个服务器域名,上线后,就可以万事大吉了,网站就可以被别人看到,我就能想做自己想做的事情了。结果却是很例外的,原来万事才是开了一个头,更大困难和挑战还在后面等着我,这个就是我这次要讲的SEO优化了。

    初步了解

    现在的网络很发达,本人也没有具体统计过,但是起码也得有几千万个网站已经在万维网上运行起来了,那么既然有那么多网络,怎么样才能更快的被人了解,被人找到了,这时候大家脑袋里面都会浮现一个词语 "百度一下,你就知道", 是的,百度已经是一门大家上网必不可少的工具了,甚至很多人,都把百度设置为自己的主页,方便查询内容和消息。

    很明显了,作为一个新站,基本上是没人来访问了,除了自己整天没事在那里点,不做推广,不上搜索,基本上是很难被人发现的,SEO优化已经渐入我的脑袋。

    问题来了,如何做SEO呢?

    作为一个程序员的思维,先百度一下找找方法。搜索的结果很多很杂,什么算法,关键词,权重,长尾词,原创,定时更新文章,收费培训班等等,SEO已经是很多培训结构的一门课程了,信息量很大,非常大。就算是电脑,也得需要时间整理问题,何况我们这些脑容量本来就有限的人啊。还好,有一个朋友,他参加过SEO优化的培训,算是帮了我一个大忙。

    这个阶段,总结一下,总算有一个初步的了解,有了一个大概的方向:

1 文章必须是原创的,有一定的质量,这个是网站最基本的要求(其实这个说了也是白说,很多网站都是用爬取工具得到的结果,真正的所有的,都原创,难度太大)

2 网站定时更新,百度爬虫能够定时去爬取到最新的内容(这个简单了,对于我们这些程序员来讲,小CASE一个了)

3 网站排版布局友好,允许百度爬虫正常访问,可以很容易抓取到自己需要的内容 (这个跟第二条差不多了)

4 利用百度现有工具,让百度快速收录(百度是有很多专门给站长提供的工具的了,下来我会细细跟大家说是哪些工具了,很重要奥~)

5 网站需要有一定的流量,有一定的外链,保证每日有正常的访问量(网站推广的必须步骤了,具体怎么实施,的确,非常的繁琐了,不过,当然是有方法的了)

6 网站必须要有网站地图页面

7 网站的网页必须是静态的HTML的,方便百度抓取(就是说,不能有jsp类型的动态网页啦,动态网页,蜘蛛是很难抓取到内容的,基本是被淘汰)

8 网站访问速度要快,网站性能提升,爬虫抓取不要超过3秒

9 设置静态资源和页面缓存的过期时间等

10 网站权重提升(攻略还在实践中。。。)

11 进一步提升网站收录

12 (其实还有很多很多方法了,这个等,我会进一步补充的,绝对不放鸽子)

      初步优化

第一: 文章必须是原创的,有一定的质量:

    原创,对于一个小博客,或者小网站来讲,站长自己发布一些小文章,其实并不难了,那对于一个大型的网站,原创怎么来呢,找人写吗,对于一般个人来讲,成本太高了,想做大网站,不花成本怎么行?

    其实,当然是可以的了,对于程序员来讲,这些都是小问题了,不用自己写,也能天天原创。具体怎么来做呢?  估计很多人都想知道吧,其实有很多方法,就现在比较实用的,起码有3种方法。这些方法,说的太明白了,就会有很多人使用,百度也不傻,几天就会封杀个干干净净。

    但是好在,中国的语言很强大,语法,词汇都很丰富,我这里先透露一种方法,供大家来参考使用,具体其他方法呢,我会在自己的博客上写另外一篇专门来介绍这些方法的文章,希望能被百度手下留情别封杀了,如果期待这个介绍方法的文章,记得看更新额!!

    百度原创方法之一: 伪原创算法;

    原创很难,伪原创呢,那就简单了啊,什么是伪原创呢? 说白了,他就是把别人的文章复制过来,经过一系列的处理转化,生成另外一篇文章,这两篇的文章,意思基本是一样的,但是百度爬虫算法,对比后,却发现是一片原创文章,这就要多靠中国语言的强大性了。伪原创,其实会有一些算法进行创作,比如同义词替换,语法切换,段落重排等,经过一系列的算法处理后,出来的文章,和原来的文章,文字差异就很大了,但是内容确实一致的。我自己也设计了一个伪原创的算法,有想需要的,可以共同探讨额。

    基本上抄袭的文章,肯定会被百度爬虫算法鄙视的,保持原创,创造原创,是一个不可缺少的部分。

第二: 网站定时更新

    这个就简单了,我在网站的后台增加了一个定时发布文章的功能,每日把需要发布的文章放进去,网站就会定时发布,并且重新生成主页,各个子页面等,这样就可以实现了网站的定时更新功能。

    让百度爬虫定时来爬取页面,并且让爬虫形成定时爬取并且收录习惯,时间久了,它到点就会自己来了,不用再去提醒了。

第三:网站排版布局友好,允许百度爬虫正常访问,可以很容易抓取到自己需要的内容

    网站布局,涉及几个方面,做网站的人都知道,百度爬虫,基本上是从头部来读取需要的内容的,首先页面,得有以下几个标签:

    标签:<meta name="description" itemprop="description" content=""/>

    标签:<meta name="keywords" itemprop="description" content=""/>

    标签:<title>

    标签:<meta itemprop="name"  content=""/>

    百度显示的标题,就是爬虫从<title>标签里面读取的;

    百度显示的快照,就是爬虫从<meta name="description"标签里面读取的;

    爬虫读取的关键字,是从<meta name="keywords"标签里面读取的,关键字里面的分割,是英文的逗号,记得不要是其他的啊,不然无法识别的;

    主体部分的内容,一定要显示正常,布局统一,容易被爬虫读取到;

    允许被百度爬虫正常访问,这个可不要按字面意思理解了,他涉及到一个配置,就算,你没有禁止任何目录或者访问者,这个配置也必须,一定要有:robots.txt

User-agent:*
Allow:*.html
Allow:/department/*
Allow:/detail/*
Allow:*.txt

    不要问为什么了,哪里有那么多为什么呢,现身实践后告诉你,事实就是这样的,必须要有!

 

第四:利用百度现有工具,让百度快速收录

    百度的工具有很多,可以保证我们快速收录的,我现在列举如下:

    1 百度站内搜索: 很多人要问,站内搜索,好像已经不维护了,不经营了,很多年都没有更新了,还要用吗?答案是肯定的,需要有,这个网站,看起来已经不用了,其实,他还有用,用户还不少,我的第一批收录文章,就来源于站内搜索;有个小诀窍,叫做,爱哭的孩子有奶喝,不理你,不收录你,你就需要发挥自己的能动性了。

    2 百度统计: 在网站的代码中植入百度统计,其实也是给百度提供了收录你的文章的机会,而且百度统计,会提供给你一些很准确的数据,做SEO,不加百度统计,就是跟自己过不去;

    3 百度搜索资源平台: 这个平台是专门给站长提供的,他的功能很全面,有新站保护链接提交,关键词查看,抓取频次等;

对于我们来讲,新站保护和链接提交,是最合适不过的了;

    新站保护:新站保护的网站,可以总共提交300条链接,保证会被爬虫爬取,会实惠的;

    链接提交:可以在自己的网站上加自动推送,对于每日的原创文章,还可以加主动推送,同时,还可以设置网站的sitemap;

    在连接提交这里,我是绕了很大一个圈子,后面会有一篇很仔细的链接提交,推送和百度收录量分析的文章,有时候,你感觉是你在揣摩百度,其实百度也在试探你,相互间的揣度让我感慨很大,对新站长提高收录量有很大帮助奥。

    4 百度熊掌账号: 现在百度的熊掌账号,是可以提交手机站的页面的,但是对于非手机站的,要不要申请熊掌账号呢?这里卖个关子,想知道的,留言吧!

第五:网站需要有一定的流量,有一定的外链,保证每日有正常的访问量

    网站没有流量,就是一个死站,就算你优化再好,加了再多的百度平台,工具,也不会有很好的展示,怎么提高网站流量呢?

    最常规的方法:去百度贴吧,百度知道,天涯论坛,各个论坛发帖增加外链

    最花钱的方法: 找几个大网站,花点钱,做一个友情链接,最好的外链

    最麻烦的方法: 加刷流量的微信群,发红包,刷流量,点击

    最程序员的方法:写一个刷流量的工具,使用匿名代理IP,自己刷流量

    最后一个方法,很快捷,但是也有很多问题了,关于前期如何刷网站浏览量,后期再通过工具刷百度权重,关键词排名,我是默默的走了一遭,弯路走的多了,就知道直路怎么走,大家懂的。

第六:网站必须要有网站地图页面

     网站必须得有一个网站地图,当然这个地图是一个网站大体功能分布的地图导航,可以让爬虫快速找到爬取的主页面,减少爬虫迷路的风险,有效提高收录;

第七:网站的网页必须的静态的HTML的,方便百度抓取

    网站必须是静态HTML的页面,静态页面,可以让爬虫很容易读取到需要的内容,百度资源有限,不会花太多时间和精力去对一个新站做特殊处理的,所以对于一个新站,静态页面,很容易被爬虫爬取和收录;我也是在这里掉到坑里了,我开始做的是动态页面,后来发现,必须是静态的,早知道,做一个CSM系统了;

第八:网站访问速度要快,网站性能提升,爬虫抓取不要超过3秒

    网站部署的机器合理,网速够快,爬虫爬取不超过3秒,其实最好是1秒以内了;

    我开始I部署的时候,网站第一个加载用了14秒,很慢,静态资源非常多,这里必须要优化的,我专门做了研究,经过多次优化和处理,现在网站加载2秒以内,爬虫爬取1秒以内;

    这里有一些方法和技巧在里面,我后续会考虑更新一篇关于网站加载速度优化的文章,希望对大家建站有所帮助。

第九:设置静态资源和页面缓存的过期时间等

    设置静态资源,页面缓存,设置页面过期的时间,对于爬虫来讲,每次来爬取,页面返回的状态都是200,爬虫就不知道你的网站到底有没有更新,需不需要来爬取了。所以,我们需要设置max-age="864000"等一些网站缓存的属性,让静态资源可以在客户端缓存;

    这样在网站更新后,页面返回的状态是200,没有更新的时候,返回的状态,会是其他状态,可以区分开来;爬虫会在网站更新后,才进行真正的更新,收录;

第十:网站权重提升

    网站权重的持续提升,收录的持续增加,是我们SEO的主要目的,持续提升方面的攻略也比较复杂,我再进一步的实践和提升,后面会持续更新出来实践出来比较好的方法,给大家建站,优化网站提供帮助。

    在这里,我贴一个网站收录的曲线图,你就能看到,在跟百度斗智斗勇的这些日子里,是多么艰难的过程,好在一切都是值得的。

    关注我的博客,我会不定期的推送一些现身的说法,今天就到此为止了,我的网站上线3-4周了,这个曲线就是现身说法的最好证明,希望大家喜欢,谢谢!

有问题留言了,我后续会开通一个自己的博客,欢迎来访。

 

 

更多推荐

(SEO优化)现身说法教你如何优化百度的收录,权重,关键词排名 SEO优化(一)